Few-shot 示例：像挑选单元测试一样挑选它们

Few-shot 示例：像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt，几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队的错误是把示例当装饰——把几个明显的案例贴在 Prompt 顶部就完事。示例其实是你最接近测试用例的工具，应该用同样的严谨态度去策划。

一个好的示例真正在做什么

它把模型本会含糊处理的决策钉死。如果任务涉及罕见但关键的类别，那么你跳过的每一个示例，都会被模型悄悄合并到更常见的类别里。如果任务对风格敏感，那么每一个示例都在设定回答的节奏。模型是在你的示例上做模式匹配；如果你的示例没有捕捉到你关心的模式，你就是在自我设障。

像挑选单元测试一样挑选

先覆盖边界情况，再考虑顺利路径。你的示例没覆盖的，就是模型会胡乱猜测的。在 holdout 集上跟踪示例表现——当一个示例不再值得它占用的 token，就替换掉。把示例池当成动态数据集，而不是一段静态的 Prompt 片段。

能稳定上线 few-shot Prompt 的团队都有一条示例策划流水线。挣扎的团队把示例当作口口相传的民间传说。

标签 :

分享 :

相关文章

经得起流量压力的思维链提示

经得起流量压力的思维链提示

思维链（Chain-of-Thought）是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写 ...

经得起长会话的 System Prompt

经得起长会话的 System Prompt

每个团队都精心写过 system prompt，然后忘掉它。模型在前几轮里遵守它，之后开始忽略——不 ...

Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 与 top-p：当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...