LLaMA: Open and Efficient Foundation Language Models

⚠️

Данный раздел находится в активной разработке.

Что нового?

В статье представлена коллекция основных языковых моделей (LLaMA) с количеством параметров от 7 млрд до 65 млрд.

Модели обучаются на триллионах токенов с использованием публично доступных наборов данных.

Работа (Hoffman et al., 2022) (opens in a new tab) показывает, что при ограниченном вычислительном бюджете более маленькие модели, обученные на гораздо большем объеме данных, могут достичь лучшей производительности по сравнению с более крупными моделями. В этой работе рекомендуется обучать модели размером 10 млрд на 200 млрд токенов. Однако статья LLaMA обнаружила, что производительность модели размером 7 млрд продолжает улучшаться даже после 1 трлн токенов.

LLAMA1

В этой работе акцент сделан на обучении моделей (LLaMA), достигающих наилучшей производительности при различных бюджетах вывода, путем обучения на большем количестве токенов.

Возможности и ключевые моменты

В целом, модель LLaMA-13B показывает лучшие результаты по сравнению с GPT-3(175B) на многих бенчмарках, несмотря на то, что она в 10 раз меньше и может работать на одной графической карте. Модель LLaMA-65B конкурентоспособна с моделями, такими как Chinchilla-70B и PaLM-540B.

Статья: LLaMA: Open and Efficient Foundation Language Models (opens in a new tab)

Код: https://github.com/facebookresearch/llama (opens in a new tab)

Ссылки