缓存 LLM 响应:不只是按 prompt 哈希

缓存 LLM 响应:不只是按 prompt 哈希

每个人给 LLM 应用加的第一个缓存,都是把 prompt 哈希映射到响应的键值存储。开发环境里命中 ...

LLM 应用的追踪:当什么都没崩时,该记什么日志

LLM 应用的追踪:当什么都没崩时,该记什么日志

传统应用出问题时会崩溃。LLM 应用出问题时会返回一个自信的错误答案,并把成功计数器加 1。你标准的 ...

重试、退避,以及延迟图里的幽灵

重试、退避,以及延迟图里的幽灵

LLM 调用的重试逻辑是那种你以为很显然,直到它差点搞挂一个服务的事情。模型 API 返回的 429 ...

流式响应:在不毁掉 UX 的前提下

流式响应:在不毁掉 UX 的前提下

从外面看,流式输出很简单:token 到达,你追加,用户阅读。等到第一次有不完整的 JSON 块在渲 ...