Model Collection

모델 선택

⚠️

이 섹션은 현재 개발중에 있습니다.

이 섹션은 중요하고 기초적인 LLM들의 모음과 요약으로 구성되어 있습니다. (데이터는 Papers with Code (opens in a new tab)Zhao et al. (2023) (opens in a new tab)로부터 수집하였습니다.)

모델

모델공개 일자설명
BERT (opens in a new tab)2018양방향 인코더 트랜스포머를 이용한 표현
GPT (opens in a new tab)2018생성적 사전 훈련을 통한 언어 이해 개선
RoBERTa (opens in a new tab)2019고도로 최적화된 BERT 사전 훈련 접근 방법
GPT-2 (opens in a new tab)2019자율 학습을 통한 다중 작업 학습 모델
T5 (opens in a new tab)2019통합된 글을 글로 전이하는 트랜스포머를 이용한 전이 학습의 한계 탐색
BART (opens in a new tab)2019자연어 생성, 번역 및 이해를 위한 시퀀스-투-시퀀스 전처리에 기반한 노이즈 제거 모델
ALBERT (opens in a new tab)2019언어 표현의 자기지도 학습을 위한 경량화된 BERT
XLNet (opens in a new tab)2019언어 이해와 생성을 위한 일반화된 자기회귀 사전훈련
CTRL (opens in a new tab)2019CTRL: 조건부 생성을 위한 제어 가능한 트랜스포머 언어모델
ERNIE (opens in a new tab)2019ERNIE: 지식 통합을 통해 향상된 표현 모델
GShard (opens in a new tab)2020GShard: 조건부 계산과 자동 분할을 이용하여 거대한 모델을 확장하는 방법
GPT-3 (opens in a new tab)2020몇 개의 학습만으로도 학습이 가능한 언어 모델
LaMDA (opens in a new tab)2021LaMDA: 대화 어플리케이션을 위한 언어 모델
PanGu-α (opens in a new tab)2021PanGu-α: 자동병렬계산 기능이 포함된 대규모 중국어 언어 모델
mT5 (opens in a new tab)2021mT5: 대규모 다국어 사전 학습을 위한 텍스트-투-텍스트 트랜스포머 모델
CPM-2 (opens in a new tab)2021CPM-2: 대규모 경제적 사전학습 언어 모델
T0 (opens in a new tab)2021다중 작업 프롬프트 학습으로 인해 제로샷(Zero-shot) 작업 일반화가 가능해진다
HyperCLOVA (opens in a new tab)2021대규모 언어 모델이 어떤 변화를 가져올까? HyperCLOVA: 수십억 개의 파라미터로 구성된 한국어 생성 사전 훈련 트랜스포머에 대한 깊이 있는 분석
Codex (opens in a new tab)2021코드로 훈련된 대규모 언어 모델의 평가
ERNIE 3.0 (opens in a new tab)2021ERNIE 3.0: 대규모 지식 강화 사전 훈련을 통한 언어 이해와 생성
Jurassic-1 (opens in a new tab)2021Jurassic-1: 기술적 세부사항과 평가
FLAN (opens in a new tab)2021세밀하게 조정된 언어 모델은 제로샷(Zero-Shot) 학습자들이다
MT-NLG (opens in a new tab)2021DeepSpeed 와 Megatron을 사용하여 Megatron-Turing NLG 530B, 대규모 생성 언어 모델을 학습하는 방법
Yuan 1.0 (opens in a new tab)2021Yuan 1.0: Zero-Shot과 Few-Shot 학습에서 대규모 사전 훈련된 언어 모델
WebGPT (opens in a new tab)2021WebGPT: 브라우저를 이용한 질문응답 시스템에 인간 피드백을 통한 개선
Gopher (opens in a new tab)2021언어 모델 확장 : Gopher를 통한 방법, 분석 및 통찰
ERNIE 3.0 Titan (opens in a new tab)2021ERNIE 3.0 Titan: 언어 이해와 생성을 위한 더 큰 규모의 지식 강화 사전 훈련 탐구
GLaM (opens in a new tab)2021GLaM: 전문가 혼합을 활용한 언어 모델의 효율적인 확장
InstructGPT (opens in a new tab)2022인간의 피드백을 이용하여 언어 모델에게 지시 사항을 따르도록 훈련
GPT-NeoX-20B (opens in a new tab)2022GPT-NeoX-20B: 오픈소스 자기회귀 언어 모델
AlphaCode (opens in a new tab)2022AlphaCode를 사용한 대회 수준의 코드 생성
CodeGen (opens in a new tab)2022CodeGen: 다중 턴 프로그램 합성 코드를 위한 오픈 소스 대형 언어 모델
Chinchilla (opens in a new tab)2022예산 계산에 따르면, 최상의 성능은 가장 큰 모델보다 더 많은 데이터로 학습된 작은 모델에 의해 달성됨을 보여줍니다
Tk-Instruct (opens in a new tab)2022Super-NaturalInstructions: 1600개 이상의 NLP Tasks에서 선언적 지시를 통한 일반화
UL2 (opens in a new tab)2022UL2: 언어 학습 패러다임 통합
PaLM (opens in a new tab)2022PaLM: 통로를 통해 언어 모델 확장
OPT (opens in a new tab)2022OPT: 오픈 사전으로 학습된 트랜스포머 언어 모델
BLOOM (opens in a new tab)2022BLOOM: 176억 파라미터의 오픈 액세스 다국어 언어 모델
GLM-130B (opens in a new tab)2022GLM-130B: 오픈 양방언 사전 학습 모델
AlexaTM (opens in a new tab)2022AlexaTM 20B: 대규모 다국어 Seq2Seq 모델을 이용한 Few-Shot 학습
Flan-T5 (opens in a new tab)2022Instruction-Finetuned 언어 모델의 확장
Sparrow (opens in a new tab)2022대회 에이전트의 정렬을 개선하기 위한 목표 지향적인 인간의 판단
U-PaLM (opens in a new tab)20220.1% 추가 컴퓨팅으로 스케일링 법칙 극복하기
mT0 (opens in a new tab)2022다국어 일반화를 위한 멀티태스크 파인튜닝
Galactica (opens in a new tab)2022Galactica: 과학을 위한 대규모 언어 모델
OPT-IML (opens in a new tab)2022OPT-IML: 언어 모델 지시 메타 학습의 일반화를 개선하는 방법으로 규모를 확장
LLaMA (opens in a new tab)2023LLaMA: 개방적이고 효율적인 기반의 언어 모델
GPT-4 (opens in a new tab)2023GPT-4 기술 보고서
PanGu-Σ (opens in a new tab)2023PanGu-Σ: 조문 파라미터 언어 모델의 트릴리온 파라미터 도달을 위한 희소 이질적 컴퓨팅 방법
BloombergGPT (opens in a new tab)2023BloombergGPT:금융분야를 위한 대규모 언어 모델
Cerebras-GPT (opens in a new tab)2023Cerebras-GPT: Wafer-Scale Cluster에서 훈련된 오픈 컴퓨트 최적화 언어 모델
PaLM 2 (opens in a new tab)2023PaLM보다 더 나은 다국어 및 추론 능력을 갖추며, 계산 효율성이 뛰어난 언어 모델