Agent 护栏:在不阉割 Agent 的前提下

Agent 护栏:在不阉割 Agent 的前提下

给 Agent 加护栏属于那种简单版本太严苛、谨慎版本太宽松的任务。挡得太狠 Agent 拒绝完全合理的任务;挡得太松,新闻头条自己就写出来了。第一版要么是什么都不肯做的聊天机器人,要么是不该做那件事的 Agent。

为什么基于字符串的拦截层级错了

按关键词或工具名正则过滤 Agent 动作,能抓住昨天的攻击,抓不住明天的。Agent 会用改写绕过任何黑名单足够久。你真正想要的信号是意图,不是表面文本——而意图不是字符串匹配问题。

真正有效的分层防御

在工具层约束:危险的工具应该要求显式的用户确认,无论 Agent 怎么说。在数据层约束:Agent 不应该有它不需要的凭证或 PII 的访问权,即使用户开口要。在策略层约束:一个独立模型在执行前对 Agent 的计划做策略检查,能抓住意图真的偏了的情况。在审计层约束:每个动作都带足够上下文记录下来,让人类可以审阅边界情况。每一层有时都会失效;合在一起,很少同时失效。

护栏不是你加到 Agent 上的特性。它是 Agent 运行所在架构的属性。

相关文章

Agent 失败时:不会无限循环的恢复模式

Agent 失败时:不会无限循环的恢复模式

Agent 的失败不抛异常。它们产出看起来合理但错误的输出,或者用稍微不同的方式悄悄重试同一个坏方法 ...

没有标准答案的 Agent 怎么评测

没有标准答案的 Agent 怎么评测

评测一个 Prompt 已经很难。评测一个在给出答案前要跑十次工具调用的 Agent,是另一个量级的 ...

Planner-Executor 拆分:什么时候该拆,什么时候该合

Planner-Executor 拆分:什么时候该拆,什么时候该合

第一天,让单个模型同时做规划和执行,看起来很优雅。三个月后,trace 日志会讲一个不同的故事:Pr ...

工具选择:什么时候该模型挑,什么时候该你挑

工具选择:什么时候该模型挑,什么时候该你挑

会用工具的 Agent 在 demo 里看起来很有力,因为模型在选下一步做什么。它在生产里看起来很脆 ...