Few-shot 示例:像挑选单元测试一样挑选它们

Few-shot 示例:像挑选单元测试一样挑选它们

一个带五个精选示例的 Prompt,几乎在所有情况下都能击败带五十个平庸示例的同一个模型。大多数团队的错误是把示例当装饰——把几个明显的案例贴在 Prompt 顶部就完事。示例其实是你最接近测试用例的工具,应该用同样的严谨态度去策划。

一个好的示例真正在做什么

它把模型本会含糊处理的决策钉死。如果任务涉及罕见但关键的类别,那么你跳过的每一个示例,都会被模型悄悄合并到更常见的类别里。如果任务对风格敏感,那么每一个示例都在设定回答的节奏。模型是在你的示例上做模式匹配;如果你的示例没有捕捉到你关心的模式,你就是在自我设障。

像挑选单元测试一样挑选

先覆盖边界情况,再考虑顺利路径。你的示例没覆盖的,就是模型会胡乱猜测的。在 holdout 集上跟踪示例表现——当一个示例不再值得它占用的 token,就替换掉。把示例池当成动态数据集,而不是一段静态的 Prompt 片段。

能稳定上线 few-shot Prompt 的团队都有一条示例策划流水线。挣扎的团队把示例当作口口相传的民间传说。

相关文章

经得起流量压力的思维链提示

经得起流量压力的思维链提示

思维链(Chain-of-Thought)是最容易上线、也最难维持的推理技巧。让模型在给出答案前先写 ...

经得起长会话的 System Prompt

经得起长会话的 System Prompt

每个团队都精心写过 system prompt,然后忘掉它。模型在前几轮里遵守它,之后开始忽略——不 ...

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 与 top-p:当答案比新意更重要时怎么调

Temperature 和 top-p 是两个每个团队都在调、几乎没人系统地调过的采样参数。0.7 ...