Caso de estudio de clasificación de trabajo de graduados

Clavié et al., 2023 (opens in a new tab) proporcionan un caso de estudio sobre la ingeniería de prompts aplicada a un caso de uso de clasificación de texto a mediana escala en un sistema de producción. Utilizando la tarea de clasificar si un trabajo es un verdadero "trabajo básico", adecuado para un recién graduado, o no, evaluaron una serie de técnicas de ingeniería de prompts y reportaron sus resultados utilizando GPT-3.5 (gpt-3.5-turbo).

El trabajo muestra que los LLM superan a todos los demás modelos probados, incluyendo una base de referencia extremadamente fuerte en DeBERTa-V3. gpt-3.5-turbo también supera notablemente a las variantes más antiguas de GPT3 en todas las métricas clave, pero requiere un análisis adicional de la salida ya que su capacidad para mantenerse en una plantilla parece ser peor que las otras variantes.

Los hallazgos clave de su enfoque de ingeniería de prompts son:

Para tareas como esta, donde no se requiere conocimiento experto, CoT con pocos ejemplos dio peores resultados que la generación sin ejemplos en todos los experimentos.
El impacto del prompt en la obtención del razonamiento correcto es enorme. Simplemente pedir al modelo que clasifique un trabajo dado da como resultado una puntuación F1 de 65.6, mientras que el modelo de ingeniería posterior al prompt logra una puntuación F1 de 91.7.
Intentar forzar al modelo a mantenerse en una plantilla disminuye el rendimiento en todos los casos (este comportamiento desaparece en las primeras pruebas con GPT-4, que son posteriores al documento).
Muchas modificaciones pequeñas tienen un gran impacto en el rendimiento.
- Las tablas a continuación muestran las modificaciones completas probadas.
- Dar instrucciones adecuadas y repetir los puntos clave parece ser el factor más importante para el rendimiento.
- Algo tan simple como dar al modelo un nombre (humano) y referirse a él como tal aumentó la puntuación F1 en 0.6 puntos.

Modificaciones the prompt probadas

Nombre corto	Descripción
Baseline	Proporciona una descripción del trabajo y pregunta si es adecuada para un graduado.
CoT	Da algunos ejemplos de clasificación precisa antes de realizar la consulta.
Zero-CoT	Pide al modelo que razone paso a paso antes de proporcionar su respuesta.
rawinst	Da instrucciones sobre su papel y la tarea agregando al mensaje del usuario.
sysinst	Da instrucciones sobre su papel y la tarea como mensaje del sistema.
bothinst	Divide las instrucciones con el papel como mensaje del sistema y la tarea como mensaje del usuario.
mock	Da instrucciones sobre la tarea burlándose de una discusión donde las reconoce.
reit	Refuerza los elementos clave en las instrucciones repitiéndolos.
strict	Pide al modelo que responda siguiendo estrictamente una plantilla dada.
loose	Pide que solo se proporcione la respuesta final siguiendo una plantilla dada.
right	Pide al modelo que llegue a la conclusión correcta.
info	Proporciona información adicional para abordar fallas de razonamiento comunes.
name	Da al modelo un nombre con el que nos referimos a él en la conversación.
pos	Proporciona retroalimentación positiva al modelo antes de hacer la consulta.

Impacto de rendimiento de todas las modificaciones de prompt

	Precision	Recall	F1	Apego a la Plantilla
Baseline	61.2	70.6	65.6	79%
CoT	72.6	85.1	78.4	87%
Zero-CoT	75.5	88.3	81.4	65%
+rawinst	80	92.4	85.8	68%
+sysinst	77.7	90.9	83.8	69%
+bothinst	81.9	93.9	87.5	71%
+bothinst+mock	83.3	95.1	88.8	74%
+bothinst+mock+reit	83.8	95.5	89.3	75%
+bothinst+mock+reit+strict	79.9	93.7	86.3	98%
+bothinst+mock+reit+loose	80.5	94.8	87.1	95%
+bothinst+mock+reit+right	84	95.9	89.6	77%
+bothinst+mock+reit+right+info	84.9	96.5	90.3	77%
+bothinst+mock+reit+right+info+name	85.7	96.8	90.9	79%
+bothinst+mock+reit+right+info+name+pos	86.9	97	91.7	81%

El apego a la plantilla se refiere a qué tan frecuentemente el modelo responde en el formato deseado.

Generating Code Prompt Function