经得起流量压力的思维链提示

经得起流量压力的思维链提示

思维链（Chain-of-Thought）是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写出推理过程，这个想法在论文里非常稳健，但在生产环境中,同一个 Prompt 在 10 RPS 下表现良好,在 1000 RPS 下会悄悄退化。

没人提醒过你的失效模式

Token 膨胀是显而易见的代价：你容忍的每一段推理轨迹，都让响应体积变成实际所需的两到三倍。更难发现的是隐性失效。推理过程太短时，会坍缩成答案本身——模型不再是在分步思考，而是在用更长的开场白说出同样的答案。推理过程太长时，模型会跑题：因为有空间二次猜测，反而把正确答案讲歪。

真正能扛住的模式

约束推理的形式，而不是它的内容。强制使用带固定上限的编号列表。把推理和最终回答拆成两次模型调用——便宜模型写推理、贵模型写答案，是一个真实的生产权衡。对于已经收敛的链路，把无推理版本缓存起来。这些做法都不漂亮，但都管用。

你最终上线的 CoT 版本，几乎从来不是你在 playground 里写的那一版。这是常态。

标签 :

分享 :

相关文章

Few-shot 示例：像挑选单元测试一样挑选它们

Few-shot 示例：像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt，几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队 ...

经得起长会话的 System Prompt

经得起长会话的 System Prompt

每个团队都精心写过 system prompt，然后忘掉它。模型在前几轮里遵守它，之后开始忽略——不 ...

Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...