没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent，是另一个量级的难。能产生正确答案的轨迹很少完全相同。能产生错误答案的轨迹常常一直看起来合理，直到第七步。标准的精确匹配打分在这里没用，而审阅者面对长 trace 检查的时候很快会倦怠。

真正能用的指标

三个信号承担了大部分工作。结果正确性——最终答案是否匹配 ground truth——是必要但不充分的。轨迹成本——步数、总 token、总工具调用次数——能抓住那些用错误方式得到正确答案的 Agent。子目标进展——Agent 是否走过预期里程碑——能抓住那些靠运气抵达答案的隐性失败。

在花一分钱搞自动化之前，先手工策划二十条轨迹。前二十条会教你哪些信号对你的任务重要。之后，带着仔细 rubric 的 LLM-as-judge 比人工审查更能扩展，但只有当你拿手工标注集校准过判官之后才行。跳过校准，判官就会自信地、错误地与自己达成一致。

Agent 评测看起来像一个指标问题，实际上是一个标注问题。能稳定上线 Agent 的团队，都在轨迹数据集上投入了行业内多数人会觉得繁琐的精力。

第一天，让单个模型同时做规划和执行，看起来很优雅。三个月后，trace 日志会讲一个不同的故事：Pr ...

会用工具的 Agent 在 demo 里看起来很有力，因为模型在选下一步做什么。它在生产里看起来很脆 ...

Agent 的自主性是一根滑杆，不是一个开关，正确档位由任务决定的多过由技术决定的。把滑杆推到"完全 ...

你建的第一个 Agent 没有当前对话之外的任何记忆，这能撑大约一周。然后用户回来，期望连续性，你开 ...