RAG 胜过微调的场景,以及它失效的场景

RAG 胜过微调的场景,以及它失效的场景

RAG 在早期部署战中胜出是有道理的:比微调便宜,知识库不用重新训练就能更新,而且你能审计模型看到了什么。对大多数问答和文档对齐任务,它仍然是正确架构。但失效模式是真实的,“加 RAG 就好”已经成了那种没什么帮助的建议——就像十年前”用数据库就好”那样。

RAG 悄悄表现不佳的地方

需要跨多文档综合的任务——任何单个被检索 chunk 都不包含答案——是 RAG 最受伤的地方。检索器返回单独最相关的 chunk,常常错过那个把它们桥接起来的 chunk。需要领域特定风格或术语的任务很少受益于 RAG,因为被检索的文本是内容,不是声音。语料很小——几千篇以下——有时直接塞进上下文反而更好,没有检索的复杂度。

微调赢的场景

如果任务要求模型学会一种新格式、一种新的领域词汇、或一种 prompt 无法建立的行为模式,微调是杠杆。RAG 教不了行为,它只能检索内容。混用——用微调教行为,用检索拿内容——比单用任何一个更常是正确答案。

RAG 不是解决方案。它是适用于一类特定问题的部署模式,把它当作所有 LLM 问题的答案,就是团队最后在调试向量搜索而不是解决实际任务的原因。

相关文章

上下文窗口管理:当 128k 还不够用时

上下文窗口管理:当 128k 还不够用时

更大的上下文窗口本来应该让上下文工程过时。它没有。大海捞针测试显示模型能在 128k token 里 ...