LLM-Sammlung
Dieser Abschnitt besteht aus einer Sammlung und Zusammenfassung bemerkenswerter und grundlegender LLMs (Large Language Models).
Modelle
Modell | Veröffentlichungsdatum | Größe (B) | Checkpoints | Beschreibung |
---|---|---|---|---|
Falcon LLM (opens in a new tab) | Sep 2023 | 7, 40, 180 | Falcon-7B (opens in a new tab), Falcon-40B (opens in a new tab), Falcon-180B (opens in a new tab) | Falcon LLM ist ein grundlegendes Large Language Model mit 180 Milliarden Parametern, trainiert mit 3500 Milliarden Tokens. TII hat nun Falcon LLM veröffentlicht – ein 180B-Modell. |
Mistral-7B-v0.1 (opens in a new tab) | Sep 2023 | 7 | Mistral-7B-v0.1 (opens in a new tab) | Mistral-7B-v0.1 ist ein vortrainiertes generatives Textmodell mit 7 Milliarden Parametern. Das Modell basiert auf einer Transformer-Architektur mit Funktionen wie Grouped-Query Attention, Byte-fallback BPE Tokenizer und Sliding-Window Attention. |
CodeLlama (opens in a new tab) | Aug 2023 | 7, 13, 34 | CodeLlama-7B (opens in a new tab), CodeLlama-13B (opens in a new tab), CodeLlama-34B (opens in a new tab) | Die Code Llama-Familie ist für die allgemeine Synthese und das Verständnis von Code konzipiert. Sie ist speziell für das Befolgen von Anweisungen und sichereren Einsatz optimiert. Die Modelle sind autoregressiv und verwenden eine optimierte Transformer-Architektur. Sie sind für kommerzielle und Forschungszwecke in Englisch und relevanten Programmiersprachen vorgesehen. |
Llama-2 (opens in a new tab) | Jul 2023 | 7, 13, 70 | Llama-2-7B (opens in a new tab), Llama-2-13B (opens in a new tab), Llama-2-70B (opens in a new tab) | LLaMA-2, entwickelt von Meta AI, wurde im Juli 2023 mit Modellen von 7, 13 und 70 Milliarden Parametern veröffentlicht. Es behält eine ähnliche Architektur wie LLaMA-1, verwendet aber 40 % mehr Trainingsdaten. LLaMA-2 umfasst grundlegende Modelle und dialogoptimierte Modelle, bekannt als LLaMA-2 Chat, und steht für viele kommerzielle Anwendungen zur Verfügung, allerdings mit einigen Einschränkungen. |
XGen-7B-8K (opens in a new tab) | Jul 2023 | 7 | XGen-7B-8K (opens in a new tab) | Das von Salesforce AI Research entwickelte XGen-7B-8K ist ein Sprachmodell mit 7 Milliarden Parametern. |
Claude-2 (opens in a new tab) | Jul 2023 | 130 | - | Claude 2 ist ein grundlegendes LLM, das von Anthropic entwickelt wurde und sicherer und "steuerbarer" als seine Vorgängerversion sein soll. Es ist konversationsfähig und kann für eine Vielzahl von Aufgaben wie Kundensupport, Q&A und mehr verwendet werden. Es kann große Textmengen verarbeiten und eignet sich gut für Anwendungen, die umfangreiche Daten wie Dokumente, E-Mails, FAQs und Chat-Transkripte verarbeiten müssen. |
Tulu (opens in a new tab) | Jun 2023 | 7, 13, 30, 65 | Tulu-7B (opens in a new tab), Tulu-13B (opens in a new tab) Tulu-30B (opens in a new tab), Tulu-65B (opens in a new tab) | Tulu ist eine Modellfamilie, die vom Allen Institute for AI entwickelt wurde. Die Modelle sind LLaMa-Modelle, die auf einer Mischung von Anweisungsdatensätzen feinabgestimmt wurden, darunter FLAN V2, CoT, Dolly, Open Assistant 1, GPT4-Alpaca, Code-Alpaca und ShareGPT. Sie sind darauf ausgelegt, komplexe Anweisungen bei verschiedenen NLP-Aufgaben zu befolgen. |
ChatGLM2-6B (opens in a new tab) | Jun 2023 | 6 | ChatGLM2-6B (opens in a new tab) | ChatGLM2-6B ist die zweite Generation des quelloffenen zweisprachigen (Chinesisch-Englisch) Chat-Modells ChatGLM-6B. Es zeigt verbesserte Leistungen, längere Kontextfähigkeiten, effizientere Inferenz und eine offene Lizenz für akademische und kommerzielle Nutzung. Das Modell verwendet eine hybride Zielfunktion und wurde mit 1,4 Billionen zweisprachigen Tokens trainiert. Es zeigt erhebliche Verbesserungen in der Leistung auf verschiedenen Datensätzen im Vergleich zu seinem Vorgängermodell. |
Nous-Hermes-13B (opens in a new tab) | Jun 2023 | 13 | Nous-Hermes-13B (opens in a new tab) | Nous-Hermes-13B ist ein von Nous Research feinabgestimmtes Sprachmodell mit über 300.000 Anweisungen. |
Baize-v2 (opens in a new tab) | May 2023 | 7, 13 | Baize-v2-13B (opens in a new tab) | Baize-v2 ist ein Open-Source-Chat-Modell, das von UCSD und Sun Yat-Sen University entwickelt wurde und mit LoRA feinabgestimmt sowie mit überwachtem Feinabstimmen (SFT) und Selbstdestillation mit Feedback (SDF) trainiert wurde. |
RWKV-4-Raven (opens in a new tab) | May 2023 | 1.5, 3, 7, 14 | RWKV-4-Raven (opens in a new tab) | RWKV-4-Raven ist eine Serie von Modellen. Diese Modelle wurden auf verschiedenen Datensätzen wie Alpaca, CodeAlpaca, Guanaco, GPT4All und ShareGPT feinabgestimmt. Sie folgen einer zu 100 % RNN-Architektur für das Sprachmodell. |
Guanaco (opens in a new tab) | May 2023 | 7, 13, 33, 65 | Guanaco-7B (opens in a new tab), Guanaco-13B (opens in a new tab), Guanaco-33B (opens in a new tab) Guanaco-65B (opens in a new tab) | Guanaco-Modelle sind Open-Source-Chatbots, die durch 4-Bit-QLoRA-Tuning von LLaMA-Basismodellen auf dem OASST1-Datensatz feinabgestimmt wurden. Sie sind für Forschungszwecke vorgesehen. Die Modelle ermöglichen kostengünstige und lokale Experimente mit hochwertigen Chatbot-Systemen. |
PaLM 2 (opens in a new tab) | May 2023 | - | - | Ein Sprachmodell, das bessere multilinguale und logische Fähigkeiten hat und recheneffizienter ist als sein Vorgänger PaLM. |
Gorilla (opens in a new tab) | May 2023 | 7 | Gorilla (opens in a new tab) | Gorilla: Großes Sprachmodell verbunden mit massiven APIs |
RedPajama-INCITE (opens in a new tab) | May 2023 | 3, 7 | RedPajama-INCITE (opens in a new tab) | Eine Modellfamilie, die Basis-, an Anweisungen angepasste und Chat-Modelle umfasst. |
LIMA (opens in a new tab) | May 2023 | 65 | - | Ein 65 Milliarden Parameter großes LLaMa-Sprachmodell, das mit dem standardmäßigen überwachten Verlust nur auf 1.000 sorgfältig kuratierten Prompts und Antworten feinabgestimmt wurde, ohne jegliches Reinforcement Learning oder Modellierung von menschlichen Präferenzen. |
Replit Code (opens in a new tab) | May 2023 | 3 | Replit Code (opens in a new tab) | replit-code-v1-3b-Modell ist ein 2,7 Milliarden LLM, trainiert auf 20 Sprachen aus dem Stack Dedup v1.2-Datensatz. |
h2oGPT (opens in a new tab) | May 2023 | 7, 12, 20, 40 | h2oGPT (opens in a new tab) | h2oGPT ist ein LLM-Feinabstimmungs-Rahmenwerk und Chatbot-UI mit der Fähigkeit zur Dokumentenfrage-Antwort. |
CodeGen2 (opens in a new tab) | May 2023 | 1, 3, 7, 16 | CodeGen2 (opens in a new tab) | Code-Modelle für die Programmsynthese. |
CodeT5 und CodeT5+ (opens in a new tab) | May 2023 | 16 | CodeT5 (opens in a new tab) | CodeT5 und CodeT5+-Modelle für Code-Verständnis und -Generierung von Salesforce Research. |
StarCoder (opens in a new tab) | May 2023 | 15 | StarCoder (opens in a new tab) | StarCoder: Ein State-of-the-Art LLM für Code |
MPT (opens in a new tab) | May 2023 | 7, 30 | MPT-7B (opens in a new tab), MPT-30B (opens in a new tab) | MPT-Modelle von MosaicML sind quelloffene kommerziell lizenzierte Large Language Models, die optimierte KI-Lösungen für verschiedene NLP-Aufgaben bieten. |
DLite (opens in a new tab) | May 2023 | 0.124 - 1.5 | DLite-v2-1.5B (opens in a new tab) | Leichtgewichtige modelle nach Anleitung, die Interaktivität im Stil von ChatGPT zeigen. |
WizardLM (opens in a new tab) | Apr. 2023 | 70, 30, 13 | WizardLM-13B (opens in a new tab), WizardLM-30B (opens in a new tab), WizardLM-70B (opens in a new tab) | WizardLM ist eine Familie von großen Sprachmodellen, die darauf ausgelegt sind, komplexe Anweisungen zu befolgen. Die Modelle leisten gute Arbeit in den Bereichen Programmierung, mathematisches Denken und offene Gespräche. Sie sind lizenzfreundlich und übernehmen ein Prompt-Format von Vicuna für mehrzügige Konversationen. Die Modelle wurden vom WizardLM-Team entwickelt und sind für verschiedene NLP-Aufgaben konzipiert. |
FastChat-T5-3B (opens in a new tab) | Apr. 2023 | 3 | FastChat-T5-3B (opens in a new tab) | FastChat-T5 ist ein Open-Source-Chatbot, der durch Feinabstimmung von Flan-t5-xl (mit 3 Milliarden Parametern) auf von Benutzern geteilten Gesprächen, die von ShareGPT gesammelt wurden, trainiert wurde. Es basiert auf einer Encoder-Decoder-Transformer-Architektur und kann autoregressiv Antworten auf Eingaben der Benutzer generieren. |
GPT4All-13B-Snoozy (opens in a new tab) | Apr. 2023 | 13 | GPT4All-13B-Snoozy (opens in a new tab) | GPT4All-13B-Snoozy ist ein GPL-lizenzierter Chatbot, der über ein massives, kuratiertes Korpus an Assistenteninteraktionen trainiert wurde, einschließlich Wortproblemen, mehrzügigem Dialog, Code, Gedichten, Liedern und Geschichten. Es wurde ausgehend von LLama 13B feinabgestimmt und ist von Nomic AI entwickelt worden. Das Modell ist für interaktive Assistentendaten ausgelegt und hauptsächlich auf Englisch. |
Koala-13B (opens in a new tab) | Apr. 2023 | 13 | Koala-13B (opens in a new tab) | Koala-13B ist ein Chatbot, der von Berkeley AI Research (BAIR) erstellt wurde. Er wurde feinabgestimmt auf LLama von Meta und konzentriert sich auf Dialogdaten, die aus dem Web geschabt wurden. Das Modell zielt darauf ab, Leistung und Kosten auszugleichen, indem es eine leichtere, Open-Source-Alternative zu Modellen wie ChatGPT bietet. Es wurde auf Interaktionsdaten trainiert, die Gespräche mit hochfähigen, proprietären Modellen wie ChatGPT einschließen. |
OpenAssistant (Llama-Familie) (opens in a new tab) | Apr. 2023 | 30, 70 | Llama2-30b-oasst (opens in a new tab), Llama2-70b-oasst (opens in a new tab) | OpenAssistant-LLaMA-Modelle sind Sprachmodelle aus der Arbeit von OpenAssistant an den Llama-Modellen. Sie unterstützen CPU + GPU-Inferenz mithilfe des GGML-Formats und zielen darauf ab, eine Open-Source-Alternative für Aufgaben zu bieten, bei denen Anweisungen befolgt werden müssen. |
Dolly (opens in a new tab) | Apr. 2023 | 3, 7, 12 | Dolly-v2-3B (opens in a new tab), Dolly-v2-7B (opens in a new tab), Dolly-v2-12B (opens in a new tab) | Ein anweisungsbefolgendes LLM, das von einem menschlich generierten Anweisungsdatensatz lizenziert für Forschung und kommerzielle Nutzung feinabgestimmt wurde. |
StableLM (opens in a new tab) | Apr. 2023 | 3, 7 | StableLM-Alpha-3B (opens in a new tab), StableLM-Alpha-7B (opens in a new tab) | Die Serie von Sprachmodellen StableLM von Stability AI |
Pythia (opens in a new tab) | Apr. 2023 | 0.070 - 12 | Pythia (opens in a new tab) | Eine Suite von 16 LLMs, die alle anhand öffentlicher Daten trainiert wurden, die in exakter derselben Reihenfolge zu sehen sind und in der Größe von 70M bis 12B Parametern variieren. |
Open Assistant (Pythia-Familie) (opens in a new tab) | März 2023 | 12 | Open Assistant (opens in a new tab) | OpenAssistant ist ein Chat-basierter Assistent, der Aufgaben versteht, mit Drittsystemen interagieren kann und dynamisch Informationen abrufen kann, um dies zu tun. |
Med-PaLM 2 (opens in a new tab) | März 2023 | - | - | Auf dem Weg zu Experten-Ebene medizinisches Frage-Antworten mit großen Sprachmodellen |
ChatGLM-6B (opens in a new tab) | März 2023 | 6 | ChatGLM-6B (opens in a new tab) | ChatGLM-6B ist ein Open-Source, zweisprachiges (Chinesisch-Englisches) Dialogmodell auf Basis der General Language Model (GLM)-Architektur mit 6,2 Milliarden Parametern. Trotz seiner geringen Größe, die einige faktische oder mathematisch-logische Probleme verursacht, ist es geschickt für chinesische Frage-Antwort-Aufgaben, Zusammenfassungen und konversationelle Aufgaben aufgrund seines Trainings an über 1 Billion englischen und chinesischen Tokens. |
GPT-3.5-turbo (opens in a new tab) | März 2023 | 175 | - | GPT-3.5-Turbo ist OpenAIs fortgeschrittenes Sprachmodell, das für Chats optimiert ist, aber auch gut für traditionelle Vervollständigungsaufgaben funktioniert. Es bietet eine bessere Leistung in allen Aspekten im Vergleich zu GPT-3 und ist 10-mal kostengünstiger pro Token. |
Vicuna (opens in a new tab) | März 2023 | 7, 13, 33 | Vicuna-7B (opens in a new tab), Vicuna-13B (opens in a new tab) | Vicuna ist eine Familie von autoregressiven Sprachmodellen, basierend auf der Transformer-Architektur. Sie wurden von LLaMA feinabgestimmt und sind hauptsächlich für Forschung an großen Sprachmodellen und Chatbots gedacht. Sie wurden von LMSYS entwickelt und haben eine nicht-kommerzielle Lizenz. |
Alpaca-13B (opens in a new tab) | März 2023 | 13 | - | Alpaca ist ein anweisungsbefolgendes Sprachmodell, das von Meta's LLaMA 7B feinabgestimmt wurde. Es ist für akademische Forschung konzipiert, um Themen wie Fehlinformationen und Toxizität anzugehen. Alpaca wurde anhand von 52K anweisungsbefolgenden Demonstrationen trainiert und zielt darauf ab, eine zugänglichere Option für akademische Studien zu sein. Es ist aufgrund von Lizenz- und Sicherheitsbedenken nicht für kommerzielle Zwecke gedacht. |
Claude-1 (opens in a new tab) | März 2023 | 137 | - | Claude ist ein grundlegendes großes Sprachmodell (LLM), das von Anthropic entwickelt wurde. Es soll als hilfreicher, ehrlicher und harmloser KI-Assistent dienen. Es kann eine Vielzahl von konversationellen und Textverarbeitungsaufgaben durchführen und ist über eine Chat-Schnittstelle und API zugänglich. |
Cerebras-GPT (opens in a new tab) | März 2023 | 0.111 - 13 | Cerebras-GPT (opens in a new tab) | Cerebras-GPT: Offene Computer-optimierte Sprachmodelle, trainiert auf dem Cerebras Wafer-Scale-Cluster |
BloombergGPT (opens in a new tab) | März 2023 | 50 | - | BloombergGPT: Ein großes Sprachmodell für die Finanzbranche |
PanGu-Σ (opens in a new tab) | März 2023 | 1085 | - | PanGu-Σ: Hin zu einem Billion-Parameter-Sprachmodell mit sparsamer heterogener Berechnung |
GPT-4 (opens in a new tab) | März 2023 | - | - | Technischer Bericht zu GPT-4 |
LLaMA (opens in a new tab) | Feb. 2023 | 7, 13, 33, 65 | LLaMA (opens in a new tab) | LLaMA: Offene und effiziente Grundlagensprachmodelle |
ChatGPT (opens in a new tab) | Nov. 2022 | - | - | Ein Modell namens ChatGPT, das auf konversationelle Weise interagiert. Das Dialogformat ermöglicht es ChatGPT, Folgefragen zu beantworten, Fehler einzugestehen, falsche Prämissen in Frage zu stellen und unangemessene Anfragen abzulehnen. |
Galactica (opens in a new tab) | Nov. 2022 | 0.125 - 120 | Galactica (opens in a new tab) | Galactica: Ein großes Sprachmodell für die Wissenschaft |
mT0 (opens in a new tab) | Nov. 2022 | 13 | mT0-xxl (opens in a new tab) | Crosslinguale Generalisierung durch Multitask Feinabstimmung |
BLOOM (opens in a new tab) | Nov. 2022 | 176 | BLOOM (opens in a new tab) | BLOOM: Ein 176-Milliarden-Parameter-Open-Access-Mehrsprachiges Sprachmodell |
U-PaLM (opens in a new tab) | Okt. 2022 | 540 | - | Überwindung von Skalierungsgesetzen mit 0,1% zusätzlicher Rechenleistung |
UL2 (opens in a new tab) | Okt. 2022 | 20 | UL2, Flan-UL2 (opens in a new tab) | UL2: Vereinigung von Sprachlernparadigmen |
Sparrow (opens in a new tab) | Sep. 2022 | 70 | - | Verbesserung der Ausrichtung von Dialogagenten über gezielte menschliche Beurteilungen |
Flan-T5 (opens in a new tab) | Okt. 2022 | 11 | Flan-T5-xxl (opens in a new tab) | Skalierung von anweisungsfreinabgestimmten Sprachmodellen |
AlexaTM (opens in a new tab) | Aug. 2022 | 20 | - | AlexaTM 20B: Few-Shot-Lernen mit einem großangelegten, mehrsprachigen Seq2Seq-Modell |
GLM-130B (opens in a new tab) | Okt. 2022 | 130 | GLM-130B (opens in a new tab) | GLM-130B: Ein offenes, zweisprachiges vortrainiertes Modell |
OPT-IML (opens in a new tab) | Dez. 2022 | 30, 175 | OPT-IML (opens in a new tab) | OPT-IML: Skalierung von Sprachmodell-Anweisungs-Metallernen durch die Linse der Generalisierung |
OPT (opens in a new tab) | Mai 2022 | 175 | OPT-13B (opens in a new tab), OPT-66B (opens in a new tab) | OPT: Open Pre-trained Transformer Sprachmodelle |
PaLM (opens in a new tab) | Apr. 2022 | 540 | - | PaLM: Skalierung von Sprachmodellierung mit Pathways |
Tk-Instruct (opens in a new tab) | Apr. 2022 | 11 | Tk-Instruct-11B (opens in a new tab) | Super-NaturalInstructions: Generalisierung über deklarative Anweisungen zu 1600+ NLP-Aufgaben |
GPT-NeoX-20B (opens in a new tab) | Apr. 2022 | 20 | GPT-NeoX-20B (opens in a new tab) | GPT-NeoX-20B: Ein Open-Source-Autoregressives Sprachmodell |
Chinchilla (opens in a new tab) | März 2022 | 70 | - | Zeigt, dass die besten Ergebnisse bei einem Rechenbudget nicht von den größten Modellen, sondern von kleineren Modellen erzielt werden, die mit mehr Daten trainiert werden. |
InstructGPT (opens in a new tab) | März 2022 | 175 | - | Training von Sprachmodellen, um Anweisungen mit menschlichem Feedback zu befolgen |
CodeGen (opens in a new tab) | März 2022 | 0.350 - 16 | CodeGen (opens in a new tab) | CodeGen: Ein offenes großes Sprachmodell für Code mit mehrstufiger Programmsynthese |
AlphaCode (opens in a new tab) | Feb. 2022 | 41 | - | Wettbewerbsfähige Codeerzeugung mit AlphaCode |
MT-NLG (opens in a new tab) | Jan 2022 | 530 | - | Verwendung von DeepSpeed und Megatron zur Schulung von Megatron-Turing NLG 530B, einem großflächigen generativen Sprachmodell |
LaMDA (opens in a new tab) | Jan 2022 | 137 | - | LaMDA: Sprachmodelle für Dialoganwendungen |
GLaM (opens in a new tab) | Dez 2021 | 1200 | - | GLaM: Effiziente Skalierung von Sprachmodellen mit Mixture-of-Experts |
Gopher (opens in a new tab) | Dez 2021 | 280 | - | Skalierung von Sprachmodellen: Methoden, Analyse & Einsichten aus dem Training von Gopher |
WebGPT (opens in a new tab) | Dez 2021 | 175 | - | WebGPT: Browsergestützte Frage-Antwort-Systeme mit menschlichem Feedback |
Yuan 1.0 (opens in a new tab) | Okt 2021 | 245 | - | Yuan 1.0: Großflächiges vortrainiertes Sprachmodell im Zero-Shot- und Few-Shot-Learning |
T0 (opens in a new tab) | Okt 2021 | 11 | T0 (opens in a new tab) | Multitask Prompt-Anweisungen ermöglichen die Generalisierung von Aufgaben ohne Beispiele |
FLAN (opens in a new tab) | Sep 2021 | 137 | - | Feinabgestimmte Sprachmodelle sind Lerner ohne Beispiele |
HyperCLOVA (opens in a new tab) | Sep 2021 | 82 | - | Welche Veränderungen können großflächige Sprachmodelle mit sich bringen? Intensive Studie über HyperCLOVA: generative vortrainierte Transformer in koreanischer Sprache im Milliarden-Maßstab |
ERNIE 3.0 Titan (opens in a new tab) | Jul 2021 | 10 | - | ERNIE 3.0 Titan: Erforschung vortrainierter Sprachmodelle im größeren Maßstab mit Wissensverstärkung für das Sprachverständnis und die Generierung |
Jurassic-1 (opens in a new tab) | Aug 2021 | 178 | - | Jurassic-1: Technische Details und Bewertung |
ERNIE 3.0 (opens in a new tab) | Jul 2021 | 10 | - | ERNIE 3.0: Wissensgestütztes großflächiges Vortraining für Sprachverständnis und -generierung |
Codex (opens in a new tab) | Jul 2021 | 12 | - | Bewertung von großflächigen Sprachmodellen, die auf Code trainiert wurden |
GPT-J-6B (opens in a new tab) | Jun 2021 | 6 | GPT-J-6B (opens in a new tab) | Ein 6 Milliarden Parameter großes, autoregressives Textgenerierungsmodell, das auf The Pile trainiert wurde. |
CPM-2 (opens in a new tab) | Jun 2021 | 198 | CPM (opens in a new tab) | CPM-2: Großflächige kosteneffektive vortrainierte Sprachmodelle |
PanGu-α (opens in a new tab) | Apr 2021 | 13 | PanGu-α (opens in a new tab) | PanGu-α: Großflächige autoregressive vortrainierte chinesische Sprachmodelle mit automatischer paralleler Berechnung |
mT5 (opens in a new tab) | Okt 2020 | 13 | mT5 (opens in a new tab) | mT5: Ein massiv mehrsprachiges vortrainiertes Text-zu-Text-Transformationssystem |
BART (opens in a new tab) | Jul 2020 | - | BART (opens in a new tab) | Lärmreduzierendes Sequenz-zu-Sequenz-Vortraining für natürliche Sprachgenerierung, Übersetzung und Verständnis |
GShard (opens in a new tab) | Jun 2020 | 600 | - | GShard: Skalierung riesiger Modelle mit bedingter Berechnung und automatischem Sharding |
GPT-3 (opens in a new tab) | Mai 2020 | 175 | - | Sprachmodelle sind Lerner mit wenigen Beispielen |
CTRL (opens in a new tab) | Sep 2019 | 1.63 | CTRL (opens in a new tab) | CTRL: Ein bedingtes Transformer-Sprachmodell zur kontrollierbaren Generierung |
ALBERT (opens in a new tab) | Sep 2019 | 0.235 | ALBERT (opens in a new tab) | ALBERT: Ein Lite BERT für die selbstüberwachte Lernung von Sprachdarstellungen |
XLNet (opens in a new tab) | Jun 2019 | - | XLNet (opens in a new tab) | Generalisiertes autoregressives Vortraining für Sprachverständnis und -generierung |
T5 (opens in a new tab) | Okt 2019 | 0.06 - 11 | Flan-T5 (opens in a new tab) | Erforschung der Grenzen von Transferlernen mit einem einheitlichen Text-zu-Text-Transformer |
GPT-2 (opens in a new tab) | Nov 2019 | 1.5 | GPT-2 (opens in a new tab) | Sprachmodelle sind unbeaufsichtigte Multitask-Lerner |
RoBERTa (opens in a new tab) | Jul 2019 | 0.125 - 0.355 | RoBERTa (opens in a new tab) | Ein robust optimierter BERT-Vortrainingsansatz |
BERT (opens in a new tab) | Okt 2018 | - | BERT (opens in a new tab) | Bidirektionale Encoder-Darstellungen aus Transformers |
GPT (opens in a new tab) | Jun 2018 | - | GPT (opens in a new tab) | Verbesserung des Sprachverständnisses durch generatives Vortraining |
⚠️
Dieser Abschnitt befindet sich in Entwicklung.
Daten übernommen von Papers with Code (opens in a new tab) und der jüngsten Arbeit von Zhao et al. (2023) (opens in a new tab).