经得起长会话的 System Prompt

经得起长会话的 System Prompt

每个团队都精心写过 system prompt,然后忘掉它。模型在前几轮里遵守它,之后开始忽略——不是因为 prompt 写得差,而是因为对话历史在模型注意力里压过了 system 指令。到第十五轮时,你已经是另一个系统,不再是测试覆盖过的那个。

漂移真实的样子

格式先垮:被要求总是以 JSON 回复的模型,开始加歉意开场白。语气接着垮:一个”专业、简洁”的角色变得健谈。拒答策略也松动:模型对边界情况的立场,随用户施压时间变长而越来越软。任何单轮都不戏剧化——是累积漂移破坏了生产行为。

真正能锚住的模式

每 N 轮在 system prompt 或前置 user 消息里重新注入关键约束。把 system prompt 写短——长 prompt 会被模型内部表征汇总,被汇总的约束就失去了牙齿。用 20 轮以上的对话来测试,而不是 3 轮的顺利路径。你不衡量的漂移,就是上线之后还在漂移的那个。

System prompt 不是放所有你希望模型记住的话的地方。它是放那些必须在对话里活下来的东西的地方。

相关文章

经得起流量压力的思维链提示

经得起流量压力的思维链提示

思维链(Chain-of-Thought)是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写 ...

Few-shot 示例:像挑选单元测试一样挑选它们

Few-shot 示例:像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt,几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队 ...

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...