Self-Consistency 采样:当你需要正确答案时的廉价可靠性
- William Jacob
- 可靠性 , 采样
- 14 May, 2026
Self-consistency 采样听起来像研究员提的方案、生产工程师会忽略的那种东西。在非零 temperature 下对同一 prompt 采样 N 次,取多数答案,上线。它对有离散正确答案的任务出奇地有效,成本大约是 N 倍——这让所有人都不太舒服,直到他们把它和”答错”的成本对比之后。
Self-Consistency 在哪里有回报
多选分类、数值抽取、结构化决策——任何答案空间小、正确性判据清晰的地方。五次采样通常已经能拿到大部分增益,十次是收益曲线开始平坦的地方。有意思的性质是:方差缩减来自模型自己的不确定性。模型有把握时,所有样本都一致,你白付钱了;模型没把握时,你会发现这件事,这本身就是有用信号。
在哪里没用
开放式生成、摘要、任何答案空间宽的任务——多数票要么退化成最常见的开头句,要么是随机噪音,都不是你要的。对那些任务,工程精力最好花在 chain-of-thought、检索或微调上。
Self-consistency 是 LLM 工程师能用的最便宜的可靠性技术。团队跳过它,是因为这个数学看起来浪费——但参照点是”答错”,不是”高效”。