Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 是大家的第一直觉，0 是第二直觉，多数项目就停在那里。真正的代价后面才出现：分类任务用着创意写作的 temperature，创意任务在 temperature 0 下被憋死。

真正能扩展的判断准则

对答案唯一的任务——分类、抽取、结构化输出——temperature 应该是 0，top-p 不重要。对有多种可接受答案的任务——摘要、改写——0.5 到 0.7 配合 top-p 0.9 左右是合理起点。对真正的创意工作，0.8 到 1.0 是正确区间，但 top-p 一定要设上限，避免低概率 token 的尾巴造成不连贯。

默认值掩盖了什么

把 temperature 设为 0 不会让模型变得确定——并列概率里仍有浮点噪音。两次相同调用可能产生不同输出。如果你需要真正的可重现性，就得连 seed 一起捕获，而不是所有 API 都暴露 seed。把 temperature 0 当作低方差，而非零方差，你的测试就不会再无故失败。

能稳定上线 LLM 功能的团队，会按任务而不是按项目挑选采样参数。默认配置对你一半的端点来说都是错的。

Temperature 与 top-p：当答案比新意更重要时怎么调

真正能扩展的判断准则

默认值掩盖了什么

标签 :

分享 :

相关文章

经得起流量压力的思维链提示

Few-shot 示例：像挑选单元测试一样挑选它们

Self-Consistency 采样：当你需要正确答案时的廉价可靠性

经得起长会话的 System Prompt