Self-Consistency 采样:当你需要正确答案时的廉价可靠性

Self-Consistency 采样:当你需要正确答案时的廉价可靠性

Self-consistency 采样听起来像研究员提的方案、生产工程师会忽略的那种东西。在非零 temperature 下对同一 prompt 采样 N 次,取多数答案,上线。它对有离散正确答案的任务出奇地有效,成本大约是 N 倍——这让所有人都不太舒服,直到他们把它和”答错”的成本对比之后。

Self-Consistency 在哪里有回报

多选分类、数值抽取、结构化决策——任何答案空间小、正确性判据清晰的地方。五次采样通常已经能拿到大部分增益,十次是收益曲线开始平坦的地方。有意思的性质是:方差缩减来自模型自己的不确定性。模型有把握时,所有样本都一致,你白付钱了;模型没把握时,你会发现这件事,这本身就是有用信号。

在哪里没用

开放式生成、摘要、任何答案空间宽的任务——多数票要么退化成最常见的开头句,要么是随机噪音,都不是你要的。对那些任务,工程精力最好花在 chain-of-thought、检索或微调上。

Self-consistency 是 LLM 工程师能用的最便宜的可靠性技术。团队跳过它,是因为这个数学看起来浪费——但参照点是”答错”,不是”高效”。

相关文章

强制结构化输出而不削弱模型推理

强制结构化输出而不削弱模型推理

JSON 模式和 Schema 约束看起来像免费午餐,直到它们不是。当模型第一次为一个复杂嵌套 Sc ...

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...