多自主才算太自主

多自主才算太自主

Agent 的自主性是一根滑杆,不是一个开关,正确档位由任务决定的多过由技术决定的。把滑杆推到”完全自主”的本能是真的,因为那样 demo 看起来很神奇。代价后来在客服队列里出现,那时一个 Agent 在不确定下执行了一个不可逆动作,没人在场抓住。

值得区分的几档

辅助端:Agent 建议,人类提交。监督端:Agent 行动,但每个有后果的动作都需要确认。受限自主端:Agent 在沙箱里行动——有限工具表面、有限范围、完全可逆。完全自主端:Agent 无监督运行,可靠性的负担完全压在系统上。多数生产 Agent 该住在”受限自主”,多数团队不知不觉漂移过了那一档。

你不会注意到的漂移

向更自主漂移的过程,是一个工具一个工具发生的。新增能力,因为有用户提了;移除确认步骤,因为用户抱怨摩擦;放宽权限,因为边界情况不在原来的边界里。每个改动都合理;累积漂移产出一个比任何人设计的都更自主的 Agent。

正确的自主级别,是你最坏情况事故仍可恢复的那一档。如果你回答不了”最坏情况事故是什么”,那你的 Agent 大概比该有的更自主。

相关文章

Agent 记忆:情景、语义,以及该留下什么

Agent 记忆:情景、语义,以及该留下什么

你建的第一个 Agent 没有当前对话之外的任何记忆,这能撑大约一周。然后用户回来,期望连续性,你开 ...

Multi-Agent 系统:协调才是真正的难点

Multi-Agent 系统:协调才是真正的难点

Multi-Agent 架构很有诱惑力,因为它映射到人类组织工作的方式:专家、协调者、交接协议。第一 ...

Planner-Executor 拆分:什么时候该拆,什么时候该合

Planner-Executor 拆分:什么时候该拆,什么时候该合

第一天,让单个模型同时做规划和执行,看起来很优雅。三个月后,trace 日志会讲一个不同的故事:Pr ...

生产环境的 ReAct:经得起跑题的推理循环

生产环境的 ReAct:经得起跑题的推理循环

ReAct 是一个干净的想法:思考、行动、观察、循环。在生产环境里,循环本身才是最容易崩的部分。模型 ...

Agent 失败时:不会无限循环的恢复模式

Agent 失败时:不会无限循环的恢复模式

Agent 的失败不抛异常。它们产出看起来合理但错误的输出,或者用稍微不同的方式悄悄重试同一个坏方法 ...

没有标准答案的 Agent 怎么评测

没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent,是另一个量级的 ...

工具选择:什么时候该模型挑,什么时候该你挑

工具选择:什么时候该模型挑,什么时候该你挑

会用工具的 Agent 在 demo 里看起来很有力,因为模型在选下一步做什么。它在生产里看起来很脆 ...