没有标准答案的 Agent 怎么评测

没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent,是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理,直到第七步。标准的精确匹配打分在这里没用,而审阅者面对长 trace 检查的时候很快会倦怠。

真正能用的指标

三个信号承担了大部分工作。结果正确性——最终答案是否匹配 ground truth——是必要但不充分的。轨迹成本——步数、总 token、总工具调用次数——能抓住那些用错误方式得到正确答案的 Agent。子目标进展——Agent 是否走过预期里程碑——能抓住那些靠运气抵达答案的隐性失败。

构建评测集

在花一分钱搞自动化之前,先手工策划二十条轨迹。前二十条会教你哪些信号对你的任务重要。之后,带着仔细 rubric 的 LLM-as-judge 比人工审查更能扩展,但只有当你拿手工标注集校准过判官之后才行。跳过校准,判官就会自信地、错误地与自己达成一致。

Agent 评测看起来像一个指标问题,实际上是一个标注问题。能稳定上线 Agent 的团队,都在轨迹数据集上投入了行业内多数人会觉得繁琐的精力。

分享 :

相关文章

Agent 失败时:不会无限循环的恢复模式

Agent 失败时:不会无限循环的恢复模式

Agent 的失败不抛异常。它们产出看起来合理但错误的输出,或者用稍微不同的方式悄悄重试同一个坏方法 ...

Agent 护栏:在不阉割 Agent 的前提下

Agent 护栏:在不阉割 Agent 的前提下

给 Agent 加护栏属于那种简单版本太严苛、谨慎版本太宽松的任务。挡得太狠 Agent 拒绝完全合 ...

Planner-Executor 拆分:什么时候该拆,什么时候该合

Planner-Executor 拆分:什么时候该拆,什么时候该合

第一天,让单个模型同时做规划和执行,看起来很优雅。三个月后,trace 日志会讲一个不同的故事:Pr ...

工具选择:什么时候该模型挑,什么时候该你挑

工具选择:什么时候该模型挑,什么时候该你挑

会用工具的 Agent 在 demo 里看起来很有力,因为模型在选下一步做什么。它在生产里看起来很脆 ...

多自主才算太自主

多自主才算太自主

Agent 的自主性是一根滑杆,不是一个开关,正确档位由任务决定的多过由技术决定的。把滑杆推到"完全 ...

Agent 记忆:情景、语义,以及该留下什么

Agent 记忆:情景、语义,以及该留下什么

你建的第一个 Agent 没有当前对话之外的任何记忆,这能撑大约一周。然后用户回来,期望连续性,你开 ...