모델 선택
⚠️
이 섹션은 현재 개발중에 있습니다.
이 섹션은 중요하고 기초적인 LLM들의 모음과 요약으로 구성되어 있습니다. (데이터는 Papers with Code (opens in a new tab)와 Zhao et al. (2023) (opens in a new tab)로부터 수집하였습니다.)
모델
모델 | 공개 일자 | 설명 |
---|---|---|
BERT (opens in a new tab) | 2018 | 양방향 인코더 트랜스포머를 이용한 표현 |
GPT (opens in a new tab) | 2018 | 생성적 사전 훈련을 통한 언어 이해 개선 |
RoBERTa (opens in a new tab) | 2019 | 고도로 최적화된 BERT 사전 훈련 접근 방법 |
GPT-2 (opens in a new tab) | 2019 | 자율 학습을 통한 다중 작업 학습 모델 |
T5 (opens in a new tab) | 2019 | 통합된 글을 글로 전이하는 트랜스포머를 이용한 전이 학습의 한계 탐색 |
BART (opens in a new tab) | 2019 | 자연어 생성, 번역 및 이해를 위한 시퀀스-투-시퀀스 전처리에 기반한 노이즈 제거 모델 |
ALBERT (opens in a new tab) | 2019 | 언어 표현의 자기지도 학습을 위한 경량화된 BERT |
XLNet (opens in a new tab) | 2019 | 언어 이해와 생성을 위한 일반화된 자기회귀 사전훈련 |
CTRL (opens in a new tab) | 2019 | CTRL: 조건부 생성을 위한 제어 가능한 트랜스포머 언어모델 |
ERNIE (opens in a new tab) | 2019 | ERNIE: 지식 통합을 통해 향상된 표현 모델 |
GShard (opens in a new tab) | 2020 | GShard: 조건부 계산과 자동 분할을 이용하여 거대한 모델을 확장하는 방법 |
GPT-3 (opens in a new tab) | 2020 | 몇 개의 학습만으로도 학습이 가능한 언어 모델 |
LaMDA (opens in a new tab) | 2021 | LaMDA: 대화 어플리케이션을 위한 언어 모델 |
PanGu-α (opens in a new tab) | 2021 | PanGu-α: 자동병렬계산 기능이 포함된 대규모 중국어 언어 모델 |
mT5 (opens in a new tab) | 2021 | mT5: 대규모 다국어 사전 학습을 위한 텍스트-투-텍스트 트랜스포머 모델 |
CPM-2 (opens in a new tab) | 2021 | CPM-2: 대규모 경제적 사전학습 언어 모델 |
T0 (opens in a new tab) | 2021 | 다중 작업 프롬프트 학습으로 인해 제로샷(Zero-shot) 작업 일반화가 가능해진다 |
HyperCLOVA (opens in a new tab) | 2021 | 대규모 언어 모델이 어떤 변화를 가져올까? HyperCLOVA: 수십억 개의 파라미터로 구성된 한국어 생성 사전 훈련 트랜스포머에 대한 깊이 있는 분석 |
Codex (opens in a new tab) | 2021 | 코드로 훈련된 대규모 언어 모델의 평가 |
ERNIE 3.0 (opens in a new tab) | 2021 | ERNIE 3.0: 대규모 지식 강화 사전 훈련을 통한 언어 이해와 생성 |
Jurassic-1 (opens in a new tab) | 2021 | Jurassic-1: 기술적 세부사항과 평가 |
FLAN (opens in a new tab) | 2021 | 세밀하게 조정된 언어 모델은 제로샷(Zero-Shot) 학습자들이다 |
MT-NLG (opens in a new tab) | 2021 | DeepSpeed 와 Megatron을 사용하여 Megatron-Turing NLG 530B, 대규모 생성 언어 모델을 학습하는 방법 |
Yuan 1.0 (opens in a new tab) | 2021 | Yuan 1.0: Zero-Shot과 Few-Shot 학습에서 대규모 사전 훈련된 언어 모델 |
WebGPT (opens in a new tab) | 2021 | WebGPT: 브라우저를 이용한 질문응답 시스템에 인간 피드백을 통한 개선 |
Gopher (opens in a new tab) | 2021 | 언어 모델 확장 : Gopher를 통한 방법, 분석 및 통찰 |
ERNIE 3.0 Titan (opens in a new tab) | 2021 | ERNIE 3.0 Titan: 언어 이해와 생성을 위한 더 큰 규모의 지식 강화 사전 훈련 탐구 |
GLaM (opens in a new tab) | 2021 | GLaM: 전문가 혼합을 활용한 언어 모델의 효율적인 확장 |
InstructGPT (opens in a new tab) | 2022 | 인간의 피드백을 이용하여 언어 모델에게 지시 사항을 따르도록 훈련 |
GPT-NeoX-20B (opens in a new tab) | 2022 | GPT-NeoX-20B: 오픈소스 자기회귀 언어 모델 |
AlphaCode (opens in a new tab) | 2022 | AlphaCode를 사용한 대회 수준의 코드 생성 |
CodeGen (opens in a new tab) | 2022 | CodeGen: 다중 턴 프로그램 합성 코드를 위한 오픈 소스 대형 언어 모델 |
Chinchilla (opens in a new tab) | 2022 | 예산 계산에 따르면, 최상의 성능은 가장 큰 모델보다 더 많은 데이터로 학습된 작은 모델에 의해 달성됨을 보여줍니다 |
Tk-Instruct (opens in a new tab) | 2022 | Super-NaturalInstructions: 1600개 이상의 NLP Tasks에서 선언적 지시를 통한 일반화 |
UL2 (opens in a new tab) | 2022 | UL2: 언어 학습 패러다임 통합 |
PaLM (opens in a new tab) | 2022 | PaLM: 통로를 통해 언어 모델 확장 |
OPT (opens in a new tab) | 2022 | OPT: 오픈 사전으로 학습된 트랜스포머 언어 모델 |
BLOOM (opens in a new tab) | 2022 | BLOOM: 176억 파라미터의 오픈 액세스 다국어 언어 모델 |
GLM-130B (opens in a new tab) | 2022 | GLM-130B: 오픈 양방언 사전 학습 모델 |
AlexaTM (opens in a new tab) | 2022 | AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 이용한 Few-Shot 학습 |
Flan-T5 (opens in a new tab) | 2022 | Instruction-Finetuned 언어 모델의 확장 |
Sparrow (opens in a new tab) | 2022 | 대회 에이전트의 정렬을 개선하기 위한 목표 지향적인 인간의 판단 |
U-PaLM (opens in a new tab) | 2022 | 0.1% 추가 컴퓨팅으로 스케일링 법칙 극복하기 |
mT0 (opens in a new tab) | 2022 | 다국어 일반화를 위한 멀티태스크 파인튜닝 |
Galactica (opens in a new tab) | 2022 | Galactica: 과학을 위한 대규모 언어 모델 |
OPT-IML (opens in a new tab) | 2022 | OPT-IML: 언어 모델 지시 메타 학습의 일반화를 개선하는 방법으로 규모를 확장 |
LLaMA (opens in a new tab) | 2023 | LLaMA: 개방적이고 효율적인 기반의 언어 모델 |
GPT-4 (opens in a new tab) | 2023 | GPT-4 기술 보고서 |
PanGu-Σ (opens in a new tab) | 2023 | PanGu-Σ: 조문 파라미터 언어 모델의 트릴리온 파라미터 도달을 위한 희소 이질적 컴퓨팅 방법 |
BloombergGPT (opens in a new tab) | 2023 | BloombergGPT:금융분야를 위한 대규모 언어 모델 |
Cerebras-GPT (opens in a new tab) | 2023 | Cerebras-GPT: Wafer-Scale Cluster에서 훈련된 오픈 컴퓨트 최적화 언어 모델 |
PaLM 2 (opens in a new tab) | 2023 | PaLM보다 더 나은 다국어 및 추론 능력을 갖추며, 계산 효율성이 뛰어난 언어 모델 |