多自主才算太自主
Agent 的自主性是一根滑杆,不是一个开关,正确档位由任务决定的多过由技术决定的。把滑杆推到”完全自主”的本能是真的,因为那样 demo 看起来很神奇。代价后来在客服队列里出现,那时一个 Agent 在不确定下执行了一个不可逆动作,没人在场抓住。
值得区分的几档
辅助端:Agent 建议,人类提交。监督端:Agent 行动,但每个有后果的动作都需要确认。受限自主端:Agent 在沙箱里行动——有限工具表面、有限范围、完全可逆。完全自主端:Agent 无监督运行,可靠性的负担完全压在系统上。多数生产 Agent 该住在”受限自主”,多数团队不知不觉漂移过了那一档。
你不会注意到的漂移
向更自主漂移的过程,是一个工具一个工具发生的。新增能力,因为有用户提了;移除确认步骤,因为用户抱怨摩擦;放宽权限,因为边界情况不在原来的边界里。每个改动都合理;累积漂移产出一个比任何人设计的都更自主的 Agent。
正确的自主级别,是你最坏情况事故仍可恢复的那一档。如果你回答不了”最坏情况事故是什么”,那你的 Agent 大概比该有的更自主。