LLaMA

LLaMA: Open and Efficient Foundation Language Models

⚠️

Tämä osa sivustoa kehittyy jatkuvasti.

What's new?

Tämä julkaisu esittelee kokoelman peruskielimalleja, joiden koko vaihtelee 7 miljardista 65 miljardiin parametriin.

Mallit on koulutettu biljoonilla tokeneilla julkisesti saatavilla olevista tietojoukoista.

(Hoffman ym. 2022) (opens in a new tab) artikkelissa todetaan, että pienemmät kielimallit voivat saavuttaa paremman suorituskyvyn suuriin kielimalleihin verrattuna, kun pienemmälle kielimallille annetaan enemmän dataa, ja jos laskentaan käytettävä budjetti on rajallinen. Tämä tutkimus suosittelee 10B mallien kouluttamista 200B: tokenin datalla. LLaMA-julkaisussa havaitaan, että 7B mallin suorituskyky paranee edelleen jopa 1T (biljoonan) tokenin jälkeen.

LLAMA1

Tässä artikkelissa keskitytään LLaMA mallien kouluttamiseen, jotka saavuttavat parhaan mahdollisen suorituskyvyn ottaen huomioon erilaiset budjettirajoitteet, käyttämällä suurempaa määrää koulutustokeneja.

Kyvykkyydet ja keskeiset tulokset

Kaiken kaikkiaan LLaMA-13B suoriutuu GPT-3:a (175B) paremmin monissa vertailukohteista vaikka se on 10 kertaa pienempi ja mahdollista ajaa yhdellä GPU:lla. LLaMA 65B on kilpailukykyinen verrattuna malleihin kuten Chinchilla-70B ja PaLM-540B.

Julkaisu: LLaMA: Open and Efficient Foundation Language Models (opens in a new tab)

Koodi: https://github.com/facebookresearch/llama (opens in a new tab)

Viitteet