毕业生职位分类案例研究

Clavié等人(2023)提供了一项关于提示工程应用于生产系统中中等规模文本分类用例的案例研究。通过使用将工作分类为真正的“初级职位”(是否适合应届毕业生的任务)，他们评估了一系列提示工程技术，并使用GPT-3.5 (gpt-3.5-turbo)报告了他们的结果。

该研究表明，LLMs在所有经过测试的模型中表现最佳，包括DeBERTa-V3中的一个极强的基准模型。gpt-3.5-turbo在所有关键指标上也明显优于早期的GPT3变体，但需要进行额外的输出解析，因为其遵循模板的能力似乎不如其他变体。

他们的提示工程方法的关键发现是：

对于像这样不需要专业知识的任务，Few-shot CoT提示在所有实验中的表现都不如Zero-shot提示。
提示对于引导正确推理的影响非常巨大。简单地要求模型对给定的工作进行分类会得到65.6的F1分数，而后提示工程模型的F1分数为91.7。
试图强制模型遵循模板会降低所有情况下的性能（这种行为在GPT-4的早期测试中消失，这项测试在该论文之后进行）。
许多小的修改对性能产生了巨大的影响。
- 下面的表格显示了所有经过测试的修改。
- 正确地给出指令并重复关键点似乎是最有效的提升性能的方法。
- 简单地给模型一个(人类的)名字并这样称呼它，可以将F1分数提高0.6个百分点。

	Precision	Recall	F1	Template Stickiness
Baseline	61.2	70.6	65.6	79%
CoT	72.6	85.1	78.4	87%
Zero-CoT	75.5	88.3	81.4	65%
+rawinst	80	92.4	85.8	68%
+sysinst	77.7	90.9	83.8	69%
+bothinst	81.9	93.9	87.5	71%
+bothinst+mock	83.3	95.1	88.8	74%
+bothinst+mock+reit	83.8	95.5	89.3	75%
+bothinst+mock+reit+strict	79.9	93.7	86.3	98%
+bothinst+mock+reit+loose	80.5	94.8	87.1	95%
+bothinst+mock+reit+right	84	95.9	89.6	77%
+bothinst+mock+reit+right+info	84.9	96.5	90.3	77%
+bothinst+mock+reit+right+info+name	85.7	96.8	90.9	79%
+bothinst+mock+reit+right+info+name+pos	86.9	97	91.7	81%

“Template stickiness” 指的是模型多频繁地按照所期望的格式作答。