部署 LLM 应用：那些不是模型的部分

部署 LLM 应用，多半不是部署模型。模型差不多就是一个托管 API 调用。你真正部署的是它周围的一切：prompt 管理、检索层、缓存、队列、限流、可观测性栈。多数团队会低估这块表面积，直到第二个月，oncall 排班开始变得不愉快。

真正需要工程的部分

Prompt 管理值得像代码一样版本化、滚动发布，并能在”小改个措辞”打挂下游十二个任务时回滚到已知好的版本。检索层是数据库问题、带数据库问题：索引新鲜度、嵌入模型升级、部分更新竞态。用户请求和模型调用之间的队列，是你处理背压和中止传播的地方，搞错就是慢上游变成融化掉的应用。成本看板是运营必需，不是可选——没它，你第一次注意到无界重试循环就是账单上。

部署本身长什么样

像金丝雀代码改动一样金丝雀你的 prompt 改动——一小片流量，配上对照指标，再做完整 rollout。把模型 API 当作会挂的依赖：准备一个降级模式返回点有用的或优雅失败，而不是 500。Prompt 里别放 secret；模型把每个 prompt 都记到你的可观测性栈里，你不会想去你的 trace 存储里 debug 一个凭证泄露。

部署 LLM 应用是教程跳过的那一段。也是决定你的应用是 demo 还是产品的那一段。

部署 LLM 应用：那些不是模型的部分

真正需要工程的部分

部署本身长什么样

标签 :

分享 :

相关文章