Studio sul caso della classificazione del lavoro dei laureati

Studio sul caso della classificazione del lavoro dei laureati

Clavié et al., 2023 (opens in a new tab) fornisce un caso di studio sul prompt engineering applicato a un caso d'uso di classificazione di testi su media scala in un sistema di produzione. Utilizzando il compito di classificare se un lavoro è un vero "entry-level job", adatto a un neolaureato, o meno, hanno valutato una serie di tecniche di prompt engineering e riportano i loro risultati utilizzando GPT-3.5 (gpt-3.5-turbo).

Il lavoro mostra che LLMs supera tutti gli altri modelli testati, compresa una linea di base estremamente forte in DeBERTa-V3. Anche gpt-3.5-turbo supera sensibilmente le vecchie varianti di GPT3 in tutte le metriche chiave, ma richiede un ulteriore parsing dell'output poiché la sua capacità di attenersi a un modello sembra essere peggiore rispetto alle altre varianti.

I risultati principali del loro approccio prompt engineering sono i seguenti:

  • Per compiti come questo, in cui non è richiesta alcuna conoscenza esperta, la richiesta di CoT a pochi colpi ha ottenuto risultati peggiori rispetto alla richiesta a zero colpi in tutti gli esperimenti.
  • L'impatto del prompt sull'elaborazione del ragionamento corretto è enorme. Chiedendo semplicemente al modello di classificare un determinato lavoro si ottiene un punteggio F1 di 65,6, mentre il modello ingegneristico post-prompt raggiunge un punteggio F1 di 91,7.
  • Il tentativo di forzare il modello ad attenersi a un modello abbassa le prestazioni in tutti i casi (questo comportamento scompare nei primi test con GPT-4, che sono posteriori al documento).
  • Molte piccole modifiche hanno un impatto eccessivo sulle prestazioni.
    • Le tabelle seguenti mostrano tutte le modifiche testate.
    • La corretta impartizione delle istruzioni e la ripetizione dei punti chiave sembrano essere il principale fattore di performance.
    • Una cosa semplice come dare un nome (umano) al modello e riferirsi ad esso come tale ha aumentato il punteggio F1 di 0,6 punti.

Modifiche di prompt testate

Nome breveDescrizione
BaselineFornire un annuncio di lavoro e chiedere se è adatto a un laureato.
CoTFornite alcuni esempi di classificazione accurata prima dell'interrogazione.
Zero-CoTChiedete al modello di ragionare passo dopo passo prima di fornire la risposta.
rawinstDare istruzioni sul suo ruolo e sul compito da svolgere aggiungendole al messaggio dell'utente.
sysinstFornire istruzioni sul suo ruolo e sul suo compito come messaggio di sistema.
bothinstDividere le istruzioni con il ruolo come msg di sistema e il compito come msg utente.
mockDare istruzioni sul compito deridendo una discussione in cui le si riconosce.
reitRafforzare gli elementi chiave delle istruzioni ripetendoli.
strictChiedete al modello di rispondere seguendo rigorosamente uno schema fornito dato.
looseChiedete che venga fornita solo la risposta finale seguendo un determinato schema.
rightChiedere al modello di raggiungere la giusta conclusione.
infoFornire informazioni aggiuntive per affrontare i più comuni errori di ragionamento.
nameDare al modello un nome con cui ci si possa riferire ad esso durante la conversazione.
posFornite al modello un feedback positivo prima di interrogarlo.

Impatto delle Performance per ogni modifica di Prompt

PrecisionRecallF1Template Stickiness
Baseline61.270.665.679%
CoT72.685.178.487%
Zero-CoT75.588.381.465%
+rawinst8092.485.868%
+sysinst77.790.983.869%
+bothinst81.993.987.571%
+bothinst+mock83.395.188.874%
+bothinst+mock+reit83.895.589.375%
+bothinst+mock+reit+strict79.993.786.398%
+bothinst+mock+reit+loose80.594.887.195%
+bothinst+mock+reit+right8495.989.677%
+bothinst+mock+reit+right+info84.996.590.377%
+bothinst+mock+reit+right+info+name85.796.890.979%
+bothinst+mock+reit+right+info+name+pos86.99791.781%

L'aderenza allo schema si riferisce alla frequenza con cui il modello risponde nel formato desiderato.