Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 是大家的第一直觉,0 是第二直觉,多数项目就停在那里。真正的代价后面才出现:分类任务用着创意写作的 temperature,创意任务在 temperature 0 下被憋死。

真正能扩展的判断准则

对答案唯一的任务——分类、抽取、结构化输出——temperature 应该是 0,top-p 不重要。对有多种可接受答案的任务——摘要、改写——0.5 到 0.7 配合 top-p 0.9 左右是合理起点。对真正的创意工作,0.8 到 1.0 是正确区间,但 top-p 一定要设上限,避免低概率 token 的尾巴造成不连贯。

默认值掩盖了什么

把 temperature 设为 0 不会让模型变得确定——并列概率里仍有浮点噪音。两次相同调用可能产生不同输出。如果你需要真正的可重现性,就得连 seed 一起捕获,而不是所有 API 都暴露 seed。把 temperature 0 当作低方差,而非零方差,你的测试就不会再无故失败。

能稳定上线 LLM 功能的团队,会按任务而不是按项目挑选采样参数。默认配置对你一半的端点来说都是错的。

相关文章

经得起流量压力的思维链提示

经得起流量压力的思维链提示

思维链(Chain-of-Thought)是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写 ...

Few-shot 示例:像挑选单元测试一样挑选它们

Few-shot 示例:像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt,几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队 ...

Self-Consistency 采样:当你需要正确答案时的廉价可靠性

Self-Consistency 采样:当你需要正确答案时的廉价可靠性

Self-consistency 采样听起来像研究员提的方案、生产工程师会忽略的那种东西。在非零 t ...

经得起长会话的 System Prompt

经得起长会话的 System Prompt

每个团队都精心写过 system prompt,然后忘掉它。模型在前几轮里遵守它,之后开始忽略——不 ...