Caso de estudio de clasificación de trabajo de graduados

Caso de estudio de clasificación de trabajo de graduados

Clavié et al., 2023 (opens in a new tab) proporcionan un caso de estudio sobre la ingeniería de prompts aplicada a un caso de uso de clasificación de texto a mediana escala en un sistema de producción. Utilizando la tarea de clasificar si un trabajo es un verdadero "trabajo básico", adecuado para un recién graduado, o no, evaluaron una serie de técnicas de ingeniería de prompts y reportaron sus resultados utilizando GPT-3.5 (gpt-3.5-turbo).

El trabajo muestra que los LLM superan a todos los demás modelos probados, incluyendo una base de referencia extremadamente fuerte en DeBERTa-V3. gpt-3.5-turbo también supera notablemente a las variantes más antiguas de GPT3 en todas las métricas clave, pero requiere un análisis adicional de la salida ya que su capacidad para mantenerse en una plantilla parece ser peor que las otras variantes.

Los hallazgos clave de su enfoque de ingeniería de prompts son:

  • Para tareas como esta, donde no se requiere conocimiento experto, CoT con pocos ejemplos dio peores resultados que la generación sin ejemplos en todos los experimentos.
  • El impacto del prompt en la obtención del razonamiento correcto es enorme. Simplemente pedir al modelo que clasifique un trabajo dado da como resultado una puntuación F1 de 65.6, mientras que el modelo de ingeniería posterior al prompt logra una puntuación F1 de 91.7.
  • Intentar forzar al modelo a mantenerse en una plantilla disminuye el rendimiento en todos los casos (este comportamiento desaparece en las primeras pruebas con GPT-4, que son posteriores al documento).
  • Muchas modificaciones pequeñas tienen un gran impacto en el rendimiento.
    • Las tablas a continuación muestran las modificaciones completas probadas.
    • Dar instrucciones adecuadas y repetir los puntos clave parece ser el factor más importante para el rendimiento.
    • Algo tan simple como dar al modelo un nombre (humano) y referirse a él como tal aumentó la puntuación F1 en 0.6 puntos.

Modificaciones the prompt probadas

Nombre cortoDescripción
BaselineProporciona una descripción del trabajo y pregunta si es adecuada para un graduado.
CoTDa algunos ejemplos de clasificación precisa antes de realizar la consulta.
Zero-CoTPide al modelo que razone paso a paso antes de proporcionar su respuesta.
rawinstDa instrucciones sobre su papel y la tarea agregando al mensaje del usuario.
sysinstDa instrucciones sobre su papel y la tarea como mensaje del sistema.
bothinstDivide las instrucciones con el papel como mensaje del sistema y la tarea como mensaje del usuario.
mockDa instrucciones sobre la tarea burlándose de una discusión donde las reconoce.
reitRefuerza los elementos clave en las instrucciones repitiéndolos.
strictPide al modelo que responda siguiendo estrictamente una plantilla dada.
loosePide que solo se proporcione la respuesta final siguiendo una plantilla dada.
rightPide al modelo que llegue a la conclusión correcta.
infoProporciona información adicional para abordar fallas de razonamiento comunes.
nameDa al modelo un nombre con el que nos referimos a él en la conversación.
posProporciona retroalimentación positiva al modelo antes de hacer la consulta.

Impacto de rendimiento de todas las modificaciones de prompt

PrecisionRecallF1Apego a la Plantilla
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

El apego a la plantilla se refiere a qué tan frecuentemente el modelo responde en el formato deseado.