Token 经济学:便宜模型反而更贵的时候

Token 经济学:便宜模型反而更贵的时候

一个答对率 80% 的便宜模型,比答对率 95% 的高端模型更贵——只要你把重试、升级、和便宜模型塞满的人工审查队列算进去。每个人原则上都明白这一点,几乎没人第一次就把成本算对,因为便宜模型的账单是具体的,“答错的成本”是弥散的。

真正重要的数字

每”正确答案”单价才是指标,而不是每 token 单价。算法是:模型成本 × 每任务调用次数 ÷ 准确率。一个一半价格、三分之二准确率的模型,按这个指标更贵,不是更便宜。再加上二阶成本:重试、降级、客服工单、退款。便宜模型那一列,在你最初的表里赢,在你本该最初就用的表里输。

混合模型架构在哪里有回报

对置信度容易衡量的任务用便宜模型——一个独立模型给便宜模型的输出打分,置信度低时才升级到贵模型。在每一层激进缓存。对你的任务运行特定 benchmark,再假定公开的 eval 能迁移;公开数字是平均值,你的任务不是。

最便宜的模型很少是最便宜的部署。能上线高性价比 LLM 功能的团队,都是在做完真正的”每正确答案成本”研究之后才挑模型,而不是之前。

分享 :

相关文章