部署 LLM 应用:那些不是模型的部分
- William Jacob
- 部署 , 基础设施
- 12 May, 2026
部署 LLM 应用,多半不是部署模型。模型差不多就是一个托管 API 调用。你真正部署的是它周围的一切:prompt 管理、检索层、缓存、队列、限流、可观测性栈。多数团队会低估这块表面积,直到第二个月,oncall 排班开始变得不愉快。
真正需要工程的部分
Prompt 管理值得像代码一样版本化、滚动发布,并能在”小改个措辞”打挂下游十二个任务时回滚到已知好的版本。检索层是数据库问题、带数据库问题:索引新鲜度、嵌入模型升级、部分更新竞态。用户请求和模型调用之间的队列,是你处理背压和中止传播的地方,搞错就是慢上游变成融化掉的应用。成本看板是运营必需,不是可选——没它,你第一次注意到无界重试循环就是账单上。
部署本身长什么样
像金丝雀代码改动一样金丝雀你的 prompt 改动——一小片流量,配上对照指标,再做完整 rollout。把模型 API 当作会挂的依赖:准备一个降级模式返回点有用的或优雅失败,而不是 500。Prompt 里别放 secret;模型把每个 prompt 都记到你的可观测性栈里,你不会想去你的 trace 存储里 debug 一个凭证泄露。
部署 LLM 应用是教程跳过的那一段。也是决定你的应用是 demo 还是产品的那一段。