经得起流量压力的思维链提示

经得起流量压力的思维链提示

思维链(Chain-of-Thought)是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写出推理过程,这个想法在论文里非常稳健,但在生产环境中,同一个 Prompt 在 10 RPS 下表现良好,在 1000 RPS 下会悄悄退化。

没人提醒过你的失效模式

Token 膨胀是显而易见的代价:你容忍的每一段推理轨迹,都让响应体积变成实际所需的两到三倍。更难发现的是隐性失效。推理过程太短时,会坍缩成答案本身——模型不再是在分步思考,而是在用更长的开场白说出同样的答案。推理过程太长时,模型会跑题:因为有空间二次猜测,反而把正确答案讲歪。

真正能扛住的模式

约束推理的形式,而不是它的内容。强制使用带固定上限的编号列表。把推理和最终回答拆成两次模型调用——便宜模型写推理、贵模型写答案,是一个真实的生产权衡。对于已经收敛的链路,把无推理版本缓存起来。这些做法都不漂亮,但都管用。

你最终上线的 CoT 版本,几乎从来不是你在 playground 里写的那一版。这是常态。

相关文章

Few-shot 示例:像挑选单元测试一样挑选它们

Few-shot 示例:像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt,几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队 ...

经得起长会话的 System Prompt

经得起长会话的 System Prompt

每个团队都精心写过 system prompt,然后忘掉它。模型在前几轮里遵守它,之后开始忽略——不 ...

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...