Nollakehottaminen
Nykyiset suuret LLM:t, kuten GPT-3, on viritetty seuraamaan ohjeita ja niitä on koulutettu suurilla datamäärillä, joten ne pystyvät suorittamaan joitakin tehtäviä "nollaoppimisen" avulla.
Kokeilimme muutamia nollaoppimisen esimerkkejä edellisessä osiossa. Tässä yksi käyttämistämme esimerkeistä:
Kehote:
Luokittele teksti neutraaliksi, negatiiviseksi tai positiiviseksi.
Teksti: Lomamatka oli ihan OK.
Luokitus:
Tulos:
Neutraali
Huomaa, että yllä olevassa kehotteessa emme antaneet mallille mitään esimerkkejä teksteistä, joissa olisi luokittelutietoja. LLM ymmärtää jo "tilanteen" – tässä on kyse nollaoppimisen kyvyistä.
Ohjeiden avulla virittämisen on osoitettu parantavan nollaoppimista Wei ym. (2022) (opens in a new tab). Ohjeiden avulla virittäminen on mallien hienosäätömenetelmä, jossa mallille on kuvattu tiettyä tietojoukkoa, ja toiminta sen kanssa on ohjeistettu. Lisäksi, RLHF (opens in a new tab) (reinforcement learning from human feedback, vahvistusoppiminen ihmispalautteesta) on otettu käyttöön ohjeiden virittämisen skaalaamiseksi, jolloin malli sovitetaan paremmin ihmisten mieltymyksiin. Tämä viimeaikainen kehitys on tehnyt malleista, kuten ChatGPT, entistä tehokkaampia. Käsittelemme kaikkia näitä lähestymistapoja ja menetelmiä tulevissa osioissa.
Jos nollaoppimiskehote ei tuota haluttua tulosta, on suositeltavaa antaa demonstraatioita tai esimerkkejä kehotteessa, mikä johtaa vähäisen ohjauksen kehotteiden hyödyntämiseen. Seuraavassa osiossa esittelemme vähäisen ohjauksen kehottamista.