1. 项目背景
业务场景
某数据团队每天要给CTO发一份日报,汇总当天各部门的关键指标。日报脚本的工作流程是:从数据库拉数据 → 填进一个Markdown模板 → 发给CTO。但产品经理发现了一个痛点——数据是客观的,但"结论"部分全靠人工写,不同人写的结论质量参差不齐。
技术经理提议:"让大模型根据数据生成结论。"团队一拍即合,做了一版Prompt:
“请根据以下数据写一段结论性文字。”
然后神奇的事情发生了——同样的数据,问三次得到三种完全不同的结论:第一次写得很好,第二次把增长说成了下降,第三次直接编了个不存在的指标。
CTO看到后只回了一句话:“这日报,我不敢用。”
痛点
- 输出不稳定:同样的输入、同样的模型,每次生成的答案不同——对业务来说这是不可接受的。
- 格式不统一:有时输出Markdown格式,有时输出纯文本,有时带HTML标签,下游程序无法稳定解析。
- 内容不可控:模型偶尔会"自由发挥",编造不存在的数字、引用不存在的政策,在日报场景下这是灾难。
- 缺乏迭代方法:Prompt改了一个词效果变好了,但团队记不住改了哪里。Prompt质量靠"感觉",没有版本管理和回归测试。
一句话总结:Prompt不是简单的自然语言指令,