没有标准答案的 Agent 怎么评测
- William Jacob
- 评测 , Agent
- 05 May, 2026
评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent,是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理,直到第七步。标准的精确匹配打分在这里没用,而审阅者面对长 trace 检查的时候很快会倦怠。
真正能用的指标
三个信号承担了大部分工作。结果正确性——最终答案是否匹配 ground truth——是必要但不充分的。轨迹成本——步数、总 token、总工具调用次数——能抓住那些用错误方式得到正确答案的 Agent。子目标进展——Agent 是否走过预期里程碑——能抓住那些靠运气抵达答案的隐性失败。
构建评测集
在花一分钱搞自动化之前,先手工策划二十条轨迹。前二十条会教你哪些信号对你的任务重要。之后,带着仔细 rubric 的 LLM-as-judge 比人工审查更能扩展,但只有当你拿手工标注集校准过判官之后才行。跳过校准,判官就会自信地、错误地与自己达成一致。
Agent 评测看起来像一个指标问题,实际上是一个标注问题。能稳定上线 Agent 的团队,都在轨迹数据集上投入了行业内多数人会觉得繁琐的精力。