Graduate Job Classification Case Study
Clavié et al., 2023 (opens in a new tab) fournit une étude de cas sur le prompt-engineering appliquée à un cas d'utilisation de classification de texte de taille moyenne dans un système de production. En utilisant la tâche de classification pour déterminer si un emploi est un véritable "emploi débutant", adapté à un récent diplômé ou non, ils ont évalué une série de techniques de prompt engineering et ont rapporté leurs résultats en utilisant GPT-3.5 (gpt-3.5-turbo
).
Les travaux montrent que les LLM surpassent tous les autres modèles testés, y compris une base de référence extrêmement solide dans DeBERTa-V3. gpt-3.5-turbo
surpasse également sensiblement les anciennes variantes GPT3 dans toutes les métriques clés, mais nécessite une analyse de sortie supplémentaire car sa capacité à s'en tenir à un modèle semble être pire que les autres variantes.
Les principales conclusions de leur approche de prompt engineering sont :
- Pour des tâches telles que celle-ci, où aucune connaissance experte n'est requise, la technique Few-shot CoT prompting a été moins performante que la technique Zero-shot prompting dans toutes les expériences.
- L'impact du prompt sur l'obtention du raisonnement correct est énorme. Le simple fait de demander au modèle de classifier un emploi donné donne un score F1 de 65,6, alors que le modèle post prompt engineering atteint un score F1 de 91,7.
- Essayer de forcer le modèle à coller à un modèle diminue les performances dans tous les cas (ce comportement disparaît lors des premiers tests avec GPT-4, qui sont postérieurs à l'article).
- De nombreuses petites modifications ont un impact disproportionné sur les performances.
- Les tableaux ci-dessous montrent l'ensemble des modifications testées.
- Le fait de donner des instructions précises et de répéter les points clés semble être le principal moteur de performance.
- Quelque chose d'aussi simple que donner au modèle un nom (humain) et se référer à lui en tant que tel a augmenté le score F1 de 0,6 points.
Modifications de prompts testées
Nom court | Description |
---|---|
Baseline | Fournir une offre d'emploi et demander si elle convient à un diplômé. |
CoT | Donnez quelques exemples de classification précise avant de poser une requête. |
Zero-CoT | Demandez au modèle de raisonner étape par étape avant de fournir sa réponse. |
rawinst | Donnez des instructions sur son rôle et la tâche en ajoutant un message à l'utilisateur. |
sysinst | Donnez des instructions sur son rôle et la tâche en tant que message système. |
bothinst | Séparer les instructions avec le rôle en tant que message système et la tâche en tant que message utilisateur. |
mock | Donnez des instructions de tâche en vous moquant d'une discussion où il les reconnaît. |
reit | Renforcez les éléments clés des instructions en les répétant. |
strict | Demandez au modèle de répondre en suivant strictement un modèle donné. |
loose | Demandez que seule la réponse finale soit donnée en suivant un modèle donné. |
right | Demander au modèle de parvenir à la bonne conclusion. |
info | Fournissez des informations supplémentaires pour résoudre les échecs de raisonnement courants. |
name | Donnez au modèle un nom par lequel nous nous y référons dans la conversation. |
pos | Fournissez au modèle des commentaires positifs avant de l'interroger. |
Impact des modifications de prompt sur les performances
Precision | Recall | F1 | Adhérence aux modèles | |
---|---|---|---|---|
Baseline | 61.2 | 70.6 | 65.6 | 79% |
CoT | 72.6 | 85.1 | 78.4 | 87% |
Zero-CoT | 75.5 | 88.3 | 81.4 | 65% |
+rawinst | 80 | 92.4 | 85.8 | 68% |
+sysinst | 77.7 | 90.9 | 83.8 | 69% |
+bothinst | 81.9 | 93.9 | 87.5 | 71% |
+bothinst+mock | 83.3 | 95.1 | 88.8 | 74% |
+bothinst+mock+reit | 83.8 | 95.5 | 89.3 | 75% |
+bothinst+mock+reit+strict | 79.9 | 93.7 | 86.3 | 98% |
+bothinst+mock+reit+loose | 80.5 | 94.8 | 87.1 | 95% |
+bothinst+mock+reit+right | 84 | 95.9 | 89.6 | 77% |
+bothinst+mock+reit+right+info | 84.9 | 96.5 | 90.3 | 77% |
+bothinst+mock+reit+right+info+name | 85.7 | 96.8 | 90.9 | 79% |
+bothinst+mock+reit+right+info+name+pos | 86.9 | 97 | 91.7 | 81% |
L'adhérence du modèle fait référence à la fréquence à laquelle le modèle répond dans le format souhaité.