LLaMA

LLaMA: Offene und Effiziente Basismodelle für Sprache

⚠️

Dieser Abschnitt befindet sich in intensiver Entwicklung.

Was gibt's Neues?

Dieses Paper führt eine Sammlung von Basismodellen für Sprache ein, die zwischen 7 Milliarden und 65 Milliarden Parameter variieren.

Die Modelle wurden mit Billionen von Tokens auf öffentlich verfügbaren Datensätzen trainiert.

Die Arbeit von (Hoffman et al. 2022) (opens in a new tab) zeigt, dass Modelle mit kleinerer Anzahl von Parametern, die auf viel mehr Daten trainiert wurden, eine bessere Performance erreichen können als größere Pendants - und das bei niedrigerem Rechenbudget. Diese Arbeit empfiehlt das Training von 10-Milliarden-Parameter-Modellen auf 200 Milliarden Tokens. Die LLaMA-Studie jedoch findet heraus, dass die Performance eines 7-Milliarden-Parameter-Modells sogar nach 1 Billion Tokens weiterhin steigt.

LLAMA1

Diese Arbeit konzentriert sich darauf, Modelle (LLaMA) zu trainieren, die bei verschiedenen Inferenzbudgets die bestmögliche Leistung erzielen, indem auf mehr Tokens trainiert wird.

Fähigkeiten & Wichtigste Ergebnisse

Insgesamt übertrifft LLaMA-13B GPT-3(175B) bei vielen Benchmarks, trotz einer 10x geringeren Größe und der Möglichkeit, auf einer einzelnen GPU betrieben zu werden. LLaMA 65B ist wettbewerbsfähig mit Modellen wie Chinchilla-70B und PaLM-540B.

Paper: LLaMA: Open and Efficient Foundation Language Models (opens in a new tab)

Code: https://github.com/facebookresearch/llama (opens in a new tab)

Referenzes