Vastavalmistuneiden työluokittelun tapaustutkimus
Clavié ym., 2023 (opens in a new tab)-julkaisussa tutkitaan kehotesuunnittelun soveltamista tekstin luokittelutehtävässä tuotantojärjestelmässä. Tutkimuksessa selvitetään, onko tarjolla oleva työpaikka todellinen "aloitustason työ", joka sopii äskettäin valmistuneelle. He testaavat useita kehotesuunnittelutekniikoita ja raportoivat tuloksensa käyttäen GPT-3.5-mallia (gpt-3.5-turbo
)
Tutkimus osoittaa, että LLM:t suoriutuvat paremmin kuin kaikki muut testatut mallit, mukaan lukien erittäin vahva vertailukohta DeBERTa-V3. gpt-3.5-turbo
suoriutuu myös huomattavasti paremmin kuin vanhemmat GPT3-variantit kaikissa keskeisissä mittareissa, mutta sen tulosten jäsentämistä on tehostettava, koska sen kyky noudattaa mallipohjaa näyttää olevan heikompi kuin muiden varianttien.
Julkaisun keskeiset kehotesuunnitteluun liittyvät havainnot ovat:
- Tehtävissä, joissa ei tarvita asiantuntijatietoa, vähäisen ohjauksen CoT -kehote suoriutui huonommin kuin nollaoppimisen kehote kaikissa kokeissa.
- Kehotteen vaikutus oikean perustelun saamiseen on merkittävä. Mallin pyytäminen luokittelemaan annettu työpaikka johtaa F1-pistemäärään 65,6, kun taas malli saavuttaa kehotesuunnittelun jälkeen F1-pistemäärän 91,7
- Mallin pakottaminen noudattamaan mallipohjaa heikentää suorituskykyä kaikissa tapauksissa (tämä käyttäytyminen katoaa GPT-4:llä, joka on julkaistu tutkimuksen jälkeen).
- Monet pienet muutokset vaikuttavat suuresti suorituskykyyn.
- Alla olevat taulukot näyttävät kaikki testatut muutokset.
- Oikeiden ohjeiden antaminen ja keskeisten kohtien toistaminen näyttää olevan suurin suorituskyvyn ajuri.
- Ihmisen nimen antaminen mallille ja siihen viittaaminen lisäsi F1-pistemäärää 0,6 pisteellä.
Testatut kehotemuokkaukset
Short name | Description |
---|---|
Baseline | Provide a a job posting and asking if it is fit for a graduate. |
CoT | Give a few examples of accurate classification before querying. |
Zero-CoT | Ask the model to reason step-by-step before providing its answer. |
rawinst | Give instructions about its role and the task by adding to the user msg. |
sysinst | Give instructions about its role and the task as a system msg. |
bothinst | Split instructions with role as a system msg and task as a user msg. |
mock | Give task instructions by mocking a discussion where it acknowledges them. |
reit | Reinforce key elements in the instructions by repeating them. |
strict | Ask the model to answer by strictly following a given template. |
loose | Ask for just the final answer to be given following a given template. |
right | Asking the model to reach the right conclusion. |
info | Provide additional information to address common reasoning failures. |
name | Give the model a name by which we refer to it in conversation. |
pos | Provide the model with positive feedback before querying it. |
Kaikkien kehotemuokkausten suorituskykyvaikutus
Precision | Recall | F1 | Template Stickiness | |
---|---|---|---|---|
Baseline | 61.2 | 70.6 | 65.6 | 79% |
CoT | 72.6 | 85.1 | 78.4 | 87% |
Zero-CoT | 75.5 | 88.3 | 81.4 | 65% |
+rawinst | 80 | 92.4 | 85.8 | 68% |
+sysinst | 77.7 | 90.9 | 83.8 | 69% |
+bothinst | 81.9 | 93.9 | 87.5 | 71% |
+bothinst+mock | 83.3 | 95.1 | 88.8 | 74% |
+bothinst+mock+reit | 83.8 | 95.5 | 89.3 | 75% |
+bothinst+mock+reit+strict | 79.9 | 93.7 | 86.3 | 98% |
+bothinst+mock+reit+loose | 80.5 | 94.8 | 87.1 | 95% |
+bothinst+mock+reit+right | 84 | 95.9 | 89.6 | 77% |
+bothinst+mock+reit+right+info | 84.9 | 96.5 | 90.3 | 77% |
+bothinst+mock+reit+right+info+name | 85.7 | 96.8 | 90.9 | 79% |
+bothinst+mock+reit+right+info+name+pos | 86.9 | 97 | 91.7 | 81% |
Mallipohjan "stickiness" viittaa siihen, kuinka usein malli vastaa halutussa muodossa.