经得起流量压力的思维链提示
- John Doe
- Prompt 工程 , 推理
- 30 Apr, 2026
思维链(Chain-of-Thought)是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写出推理过程,这个想法在论文里非常稳健,但在生产环境中,同一个 Prompt 在 10 RPS 下表现良好,在 1000 RPS 下会悄悄退化。
没人提醒过你的失效模式
Token 膨胀是显而易见的代价:你容忍的每一段推理轨迹,都让响应体积变成实际所需的两到三倍。更难发现的是隐性失效。推理过程太短时,会坍缩成答案本身——模型不再是在分步思考,而是在用更长的开场白说出同样的答案。推理过程太长时,模型会跑题:因为有空间二次猜测,反而把正确答案讲歪。
真正能扛住的模式
约束推理的形式,而不是它的内容。强制使用带固定上限的编号列表。把推理和最终回答拆成两次模型调用——便宜模型写推理、贵模型写答案,是一个真实的生产权衡。对于已经收敛的链路,把无推理版本缓存起来。这些做法都不漂亮,但都管用。
你最终上线的 CoT 版本,几乎从来不是你在 playground 里写的那一版。这是常态。