Caso de estudio de clasificación de trabajo de graduados
Clavié et al., 2023 (opens in a new tab) proporcionan un caso de estudio sobre la ingeniería de prompts aplicada a un caso de uso de clasificación de texto a mediana escala en un sistema de producción. Utilizando la tarea de clasificar si un trabajo es un verdadero "trabajo básico", adecuado para un recién graduado, o no, evaluaron una serie de técnicas de ingeniería de prompts y reportaron sus resultados utilizando GPT-3.5 (gpt-3.5-turbo
).
El trabajo muestra que los LLM superan a todos los demás modelos probados, incluyendo una base de referencia extremadamente fuerte en DeBERTa-V3. gpt-3.5-turbo
también supera notablemente a las variantes más antiguas de GPT3 en todas las métricas clave, pero requiere un análisis adicional de la salida ya que su capacidad para mantenerse en una plantilla parece ser peor que las otras variantes.
Los hallazgos clave de su enfoque de ingeniería de prompts son:
- Para tareas como esta, donde no se requiere conocimiento experto, CoT con pocos ejemplos dio peores resultados que la generación sin ejemplos en todos los experimentos.
- El impacto del prompt en la obtención del razonamiento correcto es enorme. Simplemente pedir al modelo que clasifique un trabajo dado da como resultado una puntuación F1 de 65.6, mientras que el modelo de ingeniería posterior al prompt logra una puntuación F1 de 91.7.
- Intentar forzar al modelo a mantenerse en una plantilla disminuye el rendimiento en todos los casos (este comportamiento desaparece en las primeras pruebas con GPT-4, que son posteriores al documento).
- Muchas modificaciones pequeñas tienen un gran impacto en el rendimiento.
- Las tablas a continuación muestran las modificaciones completas probadas.
- Dar instrucciones adecuadas y repetir los puntos clave parece ser el factor más importante para el rendimiento.
- Algo tan simple como dar al modelo un nombre (humano) y referirse a él como tal aumentó la puntuación F1 en 0.6 puntos.
Modificaciones the prompt probadas
Nombre corto | Descripción |
---|---|
Baseline | Proporciona una descripción del trabajo y pregunta si es adecuada para un graduado. |
CoT | Da algunos ejemplos de clasificación precisa antes de realizar la consulta. |
Zero-CoT | Pide al modelo que razone paso a paso antes de proporcionar su respuesta. |
rawinst | Da instrucciones sobre su papel y la tarea agregando al mensaje del usuario. |
sysinst | Da instrucciones sobre su papel y la tarea como mensaje del sistema. |
bothinst | Divide las instrucciones con el papel como mensaje del sistema y la tarea como mensaje del usuario. |
mock | Da instrucciones sobre la tarea burlándose de una discusión donde las reconoce. |
reit | Refuerza los elementos clave en las instrucciones repitiéndolos. |
strict | Pide al modelo que responda siguiendo estrictamente una plantilla dada. |
loose | Pide que solo se proporcione la respuesta final siguiendo una plantilla dada. |
right | Pide al modelo que llegue a la conclusión correcta. |
info | Proporciona información adicional para abordar fallas de razonamiento comunes. |
name | Da al modelo un nombre con el que nos referimos a él en la conversación. |
pos | Proporciona retroalimentación positiva al modelo antes de hacer la consulta. |
Impacto de rendimiento de todas las modificaciones de prompt
Precision | Recall | F1 | Apego a la Plantilla | |
---|---|---|---|---|
Baseline | 61.2 | 70.6 | 65.6 | 79% |
CoT | 72.6 | 85.1 | 78.4 | 87% |
Zero-CoT | 75.5 | 88.3 | 81.4 | 65% |
+rawinst | 80 | 92.4 | 85.8 | 68% |
+sysinst | 77.7 | 90.9 | 83.8 | 69% |
+bothinst | 81.9 | 93.9 | 87.5 | 71% |
+bothinst+mock | 83.3 | 95.1 | 88.8 | 74% |
+bothinst+mock+reit | 83.8 | 95.5 | 89.3 | 75% |
+bothinst+mock+reit+strict | 79.9 | 93.7 | 86.3 | 98% |
+bothinst+mock+reit+loose | 80.5 | 94.8 | 87.1 | 95% |
+bothinst+mock+reit+right | 84 | 95.9 | 89.6 | 77% |
+bothinst+mock+reit+right+info | 84.9 | 96.5 | 90.3 | 77% |
+bothinst+mock+reit+right+info+name | 85.7 | 96.8 | 90.9 | 79% |
+bothinst+mock+reit+right+info+name+pos | 86.9 | 97 | 91.7 | 81% |
El apego a la plantilla se refiere a qué tan frecuentemente el modelo responde en el formato deseado.