Self-Consistency 采样：当你需要正确答案时的廉价可靠性

Self-Consistency 采样：当你需要正确答案时的廉价可靠性

Self-consistency 采样听起来像研究员提的方案、生产工程师会忽略的那种东西。在非零 temperature 下对同一 prompt 采样 N 次，取多数答案，上线。它对有离散正确答案的任务出奇地有效，成本大约是 N 倍——这让所有人都不太舒服，直到他们把它和”答错”的成本对比之后。

Self-Consistency 在哪里有回报

多选分类、数值抽取、结构化决策——任何答案空间小、正确性判据清晰的地方。五次采样通常已经能拿到大部分增益，十次是收益曲线开始平坦的地方。有意思的性质是：方差缩减来自模型自己的不确定性。模型有把握时，所有样本都一致，你白付钱了；模型没把握时，你会发现这件事，这本身就是有用信号。

在哪里没用

开放式生成、摘要、任何答案空间宽的任务——多数票要么退化成最常见的开头句，要么是随机噪音，都不是你要的。对那些任务，工程精力最好花在 chain-of-thought、检索或微调上。

Self-consistency 是 LLM 工程师能用的最便宜的可靠性技术。团队跳过它，是因为这个数学看起来浪费——但参照点是”答错”，不是”高效”。

标签 :

分享 :

相关文章

强制结构化输出而不削弱模型推理

强制结构化输出而不削弱模型推理

JSON 模式和 Schema 约束看起来像免费午餐，直到它们不是。当模型第一次为一个复杂嵌套 Sc ...

Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...