像版本化代码那样版本化 Prompt

像版本化代码那样版本化 Prompt

LLM 项目的生命周期是:有人写了一个能用的 prompt,另一个人把它复制进代码库,第三个人改了一个词,四个月后没人能复现大家都一致同意是最好的那一版。Prompt 是代码,但多数团队最多把它当配置看待——而且在需要回滚的那一天为此付钱。

“Prompt 的版本控制”真正需要什么

一个权威存储——每个 prompt 一个 ID、每次改动一个版本、一份 diff 历史。这个存储可以是仓库里的 YAML 文件、数据库或第三方工具——重要的是只有一个真理之源,生产系统从那里拉。每次 prompt 改动都像代码改动一样被审阅,至少一个人看 diff。Prompt ID 跟着每次模型调用一起记录,这样指标里看到回归时,你能把它关联到具体的 prompt 版本。

这能防住什么

有人”修了”一个 prompt 没告诉别人引发的静默回归。A/B 测试没法分析,因为流量在隐形地混了两个版本。经典事故:把”旧”prompt 恢复了,但其实是倒数第三新的那一版,没人发现差异,直到用户先发现。这一切都不需要重型工具——一个 YAML 文件加上纪律,就能走完大部分路。

Prompt 是代码。要么把它当代码处理,要么把它当一个你以后会有的问题处理。

相关文章