Скільки часу займає навчання GPT-подібної моделі?

Pre-training фронтирної моделі займає від кількох тижнів до кількох місяців на кластері з тисячами GPU. GPT-4, за оцінками, навчали кілька місяців на тисячах A100. Повний цикл від початку pre-training до релізу — 6–18 місяців з урахуванням post-training, evaluations і safety-тестів.

Чому ChatGPT не знає актуальних новин?

Через knowledge cutoff: модель навчена на даних до певної дати і не отримує нових знань автоматично. ChatGPT вирішує це через інтеграцію веб-пошуку (Search), але базова модель залишається 'замороженою'. Без пошуку або RAG LLM не знатиме про події після cutoff.

Чи безпечні синтетичні дані для навчання?

Синтетичні дані безпечні при правильному використанні — як доповнення до реальних. Повна заміна реальних даних синтетикою призводить до 'model collapse': кожне наступне покоління моделі трохи деградує, бо навчається на виходах попереднього. Оптимальне рішення — суміш реальних і синтетичних даних у пропорції 33–67% синтетики

Open-source чи закрита LLM — що краще у 2026?

Вибір залежить від задачі, бюджету і вимог до приватності. Закриті моделі (GPT, Claude, Gemini) — кращий out-of-the-box результат, але дорожчий inference і залежність від провайдера. Open-source (Llama 4, Mistral, DeepSeek, Qwen) — повний контроль, можливість локального деплою, нульовий inference cost, але потребує технічної команди. У 2026 розрив у якості суттєво скоротився.

Чи можна навчити свою LLM з нуля?

Технічно — так, але економічно доступно лише для великих організацій. Pre-training малої моделі (7B параметрів) коштує від $50K до $500K. Для більшості бізнесів раціональніше брати відкриту базову модель (Llama 4, Mistral) і робити fine-tuning під свою задачу — це коштує від кількох сотень до кількох тисяч доларів

Що таке fine-tuning і чим він відрізняється від навчання з нуля?

Fine-tuning — це донавчання вже навченої моделі на новому, вузькому датасеті. Модель зберігає знання з pre-training, але адаптується до нової задачі або стилю. На відміну від навчання з нуля, fine-tuning потребує на порядки менше даних і compute. LoRA і QLoRA дозволяють робити fine-tuning навіть на споживчих GPU

Навіщо навчати модель на коді, якщо вона текстова?

Код — особливо цінні дані навіть для загальних LLM. Він структурований, логічний, верифікований (код або працює, або ні) і містить концентровані причинно-наслідкові зв'язки. Моделі, навчені на більшій частці коду, показують кращі результати на reasoning-задачах навіть поза програмуванням

Що таке RLVR і чим він кращий за RLHF?

RLVR (Reinforcement Learning with Verifiable Rewards) використовує автоматичний верифікатор замість людських оцінювачів. Для задач з чіткою правильною відповіддю (математика, код, логіка) верифікатор швидший, дешевший і стабільніший за людину. RLHF залишається необхідним для задач без чіткої 'правильної відповіді' — творче письмо, суб'єктивні уподобання, нюанси тону.

Що таке data contamination в LLM?

Data contamination — це ситуація, коли тестові приклади з бенчмарків потрапляють у тренувальні дані моделі. Результат: модель показує високі бали не тому, що 'розумна', а тому, що 'бачила відповіді'. Це серйозна проблема для оцінки реальних здібностей LLM у 2025–2026.

AI_TOOLS 03 April 2026 26 Min. Lesezeit 1.950 Aufruf

Wie LLMs trainiert werden: Von Pre-Training bis RLVR – Der vollständige Leitfaden 2026

Aktualisiert: 24 June 2026

Sprache: 🇺🇦 🇬🇧 🇩🇪

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

✦ KI zu diesem Artikel befragen

Wie LLMs trainiert werden: Von Pre-Training bis RLVR – Der vollständige Leitfaden 2026

Wenn Sie immer noch glauben, dass LLMs so trainiert werden: "Das gesamte Internet kopieren → auf den Train-Button klicken" – liegen Sie Hunderte von Millionen Dollar falsch.

ChatGPT, Claude und Gemini durchlaufen drei grundlegend unterschiedliche Trainingsphasen. Und die wichtigste davon ist nicht das Pre-Training. Spoiler: In den Jahren 2025–2026 wird die menschliche Bewertung von Antworten allmählich verschwinden und durch automatische Verifizierer ersetzt werden. RLHF ist nicht mehr im Trend.

Hier ist ein vollständiger Leitfaden, der erklärt, wie es wirklich funktioniert – mit Zahlen, Tabellen und Links zu Primärquellen.

⚡ Kurz gesagt

✅ Pre-training: Das Modell liest 10–15 Billionen Token und lernt, das nächste Wort vorherzusagen – das ist das Fundament von allem
✅ Post-training (SFT + Alignment): Verwandelt einen "Textvorhersager" in einen nützlichen Assistenten
✅ RLHF ist veraltet: In den Jahren 2025–2026 wurde ein modularer Stack aus SFT → DPO → GRPO/RLVR zum Standard
✅ Kosten: GPT-4 – ~78 Mio. $, Gemini Ultra – ~191 Mio. $ an Rechenleistung (Stanford AI Index 2025)
🎯 Sie erhalten: ein Verständnis des gesamten LLM-Trainingszyklus, reale Zahlen und den aktuellen Stack von 2026
👇 Unten finden Sie detaillierte Erklärungen, Tabellen und Links zu Primärquellen

📚 Inhalt des Artikels

📌 Drei Trainingsphasen – in 60 Sekunden
📌 Skalierungsgesetze: Warum mehr wirklich besser ist
📌 Pre-training: Das Modell liest das gesamte Internet
📌 Mid-training: Eine verborgene Phase zwischen Pre- und Post-Training
📌 SFT: Wie ein "Vorhersager" zum Assistenten wird
📌 RLHF: Menschliche Bewertung als Trainingssignal
📌 DPO, GRPO und RLVR: Die Post-RLHF-Ära 2025–2026
📌 Datenkontamination: Wenn Tests in das Training gelangen
📌 Synthetische Daten: Neuer Treibstoff für LLMs
📌 Was kostet das Training: Reale Zahlen
📌 Knowledge Cutoff: Warum KI "in der Zeit eingefroren" ist
📌 Open-Source vs. geschlossene Modelle: Wann man was wählen sollte
📌 Mixture of Experts (MoE): Mehr Parameter – günstigere Inferenz
❓ Häufig gestellte Fragen (FAQ)
✅ Schlussfolgerungen

🎯 Wie LLMs trainiert werden – in 60 Sekunden

Jedes moderne LLM durchläuft drei aufeinanderfolgende Phasen: Pre-training (das Modell lernt Sprache anhand von Billionen von Token), Supervised Fine-Tuning oder SFT (das Modell lernt, als Assistent zu antworten) und Alignment (menschliche oder automatische Bewertung von Antworten formt das endgültige Verhalten). In den Jahren 2025–2026 kam zwischen Pre-training und SFT eine vierte Phase hinzu – Mid-training – für spezialisierte Daten.

Das Modell "kennt" die Sprache nach dem Pre-training nicht – es sagt nur das nächste Token sehr gut voraus. Die Verwandlung in einen nützlichen Assistenten findet in den nächsten Phasen statt.

Stellen Sie sich vor, Sie bilden einen neuen Mitarbeiter aus. Zuerst liest er jahrelang Bücher, Artikel und Dokumentationen – das ist Pre-training. Dann absolviert er ein Praktikum, in dem er beobachtet, wie erfahrene Kollegen auf Anfragen antworten – das ist SFT. Schließlich bewerten Manager seine Arbeit und geben Feedback – das ist Alignment durch RLHF oder DPO. Ohne die erste Phase ist die zweite nicht möglich. Ohne die dritte ist das Modell technisch kompetent, aber unvorhersehbar im Verhalten.

Warum die Reihenfolge der Phasen entscheidend ist

Wenn Sie das Pre-training überspringen und sofort mit dem Fine-Tuning beginnen, hat das Modell kein grundlegendes Sprachverständnis. Wenn Sie das Alignment überspringen, kann das Modell technisch korrekt antworten, aber gefährlich oder nicht wie vom Benutzer erwartet. Jede Phase baut auf der vorherigen auf, und ein Fehler in einer frühen Phase kann nicht behoben werden, ohne das Training zu wiederholen.

✔️ Pre-training: Sprache, Fakten, Logik – aus Daten gelernt
✔️ SFT: Format von Assistentenantworten – aus Beispielen gelernt
✔️ Alignment: Werte und Verhalten – aus Bewertungen und Vergleichen gelernt

Fazit: Das Training von LLMs ist keine einzelne Operation, sondern ein sequenzieller Prozess mit klar definierten Rollen für jede Phase.

📌 Skalierungsgesetze: Warum mehr wirklich besser ist

Was sind Skalierungsgesetze bei LLMs

Skalierungsgesetze sind empirische Muster: Die Qualität eines Modells verbessert sich vorhersagbar mit zunehmender Anzahl von Parametern, Datenmenge und Rechenleistung. Laut Epoch AI verdoppelt sich die Trainings-Compute für bemerkenswerte KI-Modelle etwa alle fünf Monate. Dies erklärt, warum das Training 78–191 Mio. $ kostet und warum die Labore nicht aufhören.

Skalierungsgesetze sind kein Optimismus, sondern messbare Mathematik. Wenn Sie die Rechenleistung verdoppeln, verbessert sich die Modellqualität vorhersagbar.

Im Jahr 2020 veröffentlichte OpenAI die ersten Skalierungsgesetze für neuronale Netze. Die Essenz: Der Verlust (Fehler des Modells) nimmt mit zunehmender Anzahl von Parametern, Daten und Rechenleistung nach einem Potenzgesetz ab. Das heißt, wenn Sie ein doppelt so gutes Modell wollen, benötigen Sie nicht die doppelte, sondern die zehnfache Menge an Ressourcen.

Im Jahr 2022 verfeinerte DeepMind diese Gesetze in der Arbeit "Chinchilla" (Hoffmann et al., 2022). Fazit: frühere Modelle, einschließlich GPT-3, waren "untertrainiert" – sie hatten zu viele Parameter im Verhältnis zur Anzahl der Token. Das optimale Verhältnis beträgt etwa 20 Token pro Parameter. GPT-3 (175B Parameter) hätte auf ~3,5 Billionen Token trainiert werden müssen, nicht auf 300 Milliarden.

Warum das die Trainingskosten erklärt

Moderne Spitzenmodelle verstoßen bewusst gegen das Chinchilla-Optimum zugunsten einer größeren Anzahl von Token. Llama 3.3 wurde beispielsweise auf ~15 Billionen Token trainiert – viel mehr als für ein optimales Training "benötigt" wird. Der Grund ist pragmatisch: Ein kleineres Modell, das auf einer größeren Anzahl von Token trainiert wird, ist bei gleicher Qualität in der Inferenz günstiger.

✔️ Mehr Parameter → speichert Muster besser
✔️ Mehr Token → verallgemeinert besser
✔️ Mehr Compute → schnellere Konvergenz zum Verlustminimum

Fazit: Skalierungsgesetze sind die mathematische Grundlage des "Wettrüstens" in der KI, die sowohl die Milliardenbudgets als auch das stetige Wachstum der Modellgrößen erklärt.

📌 Pre-training: Das Modell liest das gesamte Internet

Was passiert während des Pre-trainings von LLMs

Pre-training ist das Training zur Vorhersage des nächsten Tokens auf massiven Textkorpora: CommonCrawl (Webseiten), Bücher, Code, Wikipedia, wissenschaftliche Artikel. Moderne Modelle verarbeiten 10–15 Billionen Token. Ziel ist es nicht, Fakten auswendig zu lernen, sondern die Sprachstruktur, Logik und Ursache-Wirkungs-Zusammenhänge zu erfassen.

Pre-training ist kein Training zum "Antworten". Es ist ein Training zum "Verstehen von Text" durch endloses Ausfüllen von Lücken.

Die Aufgabe des Pre-trainings ist technisch einfach: Das Modell sieht eine Sequenz von Token und versucht, das nächste vorherzusagen. Wenn "Kiew ist die Hauptstadt" geschrieben steht, muss das Modell "der Ukraine" vorhersagen. Der Fehler wird mit der richtigen Antwort verglichen, die Gewichte des neuronalen Netzes werden angepasst. Dieser Prozess wird Billionen Mal wiederholt.

Woher kommen die Daten? Die Hauptquelle ist CommonCrawl: monatliche Schnappschüsse von Milliarden von Webseiten. Hinzu kommen Bücher (Books3, Project Gutenberg), GitHub (Code), Wikipedia, wissenschaftliche Artikel (ArXiv, PubMed), Foren (Reddit, Stack Overflow). Jede Quelle wird gefiltert: Duplikate, Spam, anstößige Inhalte, Texte mit Fehlern werden entfernt. Mehr darüber, wie KI-Plattformen Webdaten verarbeiten – in unserem Artikel Wie Web-Crawling im Zeitalter der KI funktioniert: Eine neue Erklärung 2025.

Warum "saubere Daten" zur Neige gehen

Das Problem von 2025–2026: Hochwertiger, einzigartiger Text im Internet geht zur Neige. Nach Schätzungen von Forschern könnten bei aktuellen Konsumraten die verfügbaren hochwertigen Daten für das Pre-training bis 2026–2028 erschöpft sein. Dies ist einer der Gründe, warum die Branche auf synthetische Daten umgestiegen ist (mehr dazu in Abschnitt 9).

✔️ CommonCrawl ist die Grundlage, erfordert aber aggressive Filterung
✔️ Code ist besonders wertvoll: strukturiert, logisch, verifiziert
✔️ Mathematische Texte – verbessern das Reasoning auch für nicht-mathematische Aufgaben

📌 Tokenisierung und Datenkuratierung: Wie Text zu Zahlen wird

Was ist Tokenisierung und warum ist sie wichtig

Tokenisierung ist der erste Schritt nach der Datensammlung: Text wird in kleine Teile (Token) zerlegt, die das Modell verarbeiten kann. Datenkuratierung ist die Filterung und Bereinigung von Daten vor der Tokenisierung. Ohne qualitativ hochwertige Tokenisierung wird selbst das größte Modell langsam und ungenau sein.

Ein Token ist das, was das Modell tatsächlich "sieht". Ein Mensch sieht "Hallo", das Modell sieht [243, 567, 12]. Das Verständnis von Token ist der Schlüssel zum Verständnis der Kosten und Grenzen von LLMs.

Tokenisierung ist der Prozess der Umwandlung von Text in Zahlen. Da ein neuronales Netz keine Buchstaben oder Wörter direkt verarbeiten kann, wird der gesamte Text zunächst in Token zerlegt, und dann erhält jedes Token eine eindeutige ID. Der gebräuchlichste Algorithmus ist Byte Pair Encoding (BPE), der von GPT, Llama, Claude und Gemini verwendet wird.

Datenkuratierung ist das, was vor der Tokenisierung geschieht: Entfernen von Duplikaten, Spam, anstößigen Inhalten, PII (personenbezogenen Daten), Normalisierung des Textes. Für GPT-4 blieben schätzungsweise von über 50 Billionen rohen CommonCrawl-Token nach der Filterung etwa 13 Billionen übrig.

Warum das für Kosten und Kontext wichtig ist

🔹 API-Kosten werden pro Token berechnet. Ukrainischer Text ist 2-3 Mal teurer als englischer – weil er mehr Token benötigt.
🔹 Das Kontextfenster ist auf Token begrenzt. Auf Englisch passt 2-3 Mal mehr Sinn als in kyrillischer Schrift.
🔹 Die Qualität des Verständnisses hängt davon ab, wie gut der Text in sinnvolle Einheiten zerlegt wird.

Mehr darüber, wie Tokenisierung funktioniert, warum ein Wort 1 oder 10 Token kosten kann, was Glitch-Token sind und wie sie GPT brechen, sowie vollständige Preislisten für APIs im Jahr 2026 – lesen Sie in einem separaten Artikel: Was sind Token in ChatGPT, Claude und Gemini: Wie KI Ihren Text sieht und was es kostet (2026).

Fazit des Abschnitts: Tokenisierung ist kein technisches Detail, sondern die Grundlage der LLM-Ökonomie. Das Verständnis von Token hilft, API-Kosten zu optimieren, das Kontextfenster effizienter zu nutzen und unerwartetes Modellverhalten zu vermeiden.

📌 Mid-training: Eine verborgene Phase zwischen Pre- und Post-Training

Was ist Mid-training bei LLMs

Mid-training ist eine relativ neue Phase, die in den Jahren 2024–2025 zwischen Pre-training und Post-training aufkam. Das Modell verarbeitet hochspezialisierte Daten (Mathematik, Code, synthetische Reasoning-Sequenzen) nach demselben Algorithmus wie beim Pre-training, jedoch auf kleineren und qualitativ hochwertigeren Korpora. Meta verwendet für Llama 4 eine separate Mid-training-Phase mit synthetischen Reasoning-Daten.

Mid-training ist eine "Feinabstimmung" nach dem groben Pre-training: Das Modell kennt bereits die Sprache, jetzt wird ihm gezeigt, wie es Schritt für Schritt denken soll.

Das Konzept des Mid-trainings entstand als Antwort auf ein praktisches Problem: Post-training (SFT + RLHF) ist effektiv für das Modellverhalten, entwickelt aber schlecht tiefe Reasoning-Fähigkeiten. Und das Hinzufügen mathematischer Aufgaben zum Pre-training ist aufgrund ihres geringen Anteils im Gesamtkorpus ineffizient.

Die Lösung: Nach dem Haupt-Pre-training wird eine weitere Trainingsrunde gestartet – kleiner im Umfang, aber qualitativ hochwertiger und thematischer. So bereitet Meta Llama 4 auf Reasoning-Aufgaben vor: ein separates Mid-training mit synthetischen schrittweisen Überlegungen vor dem endgültigen Post-training.

Wie unterscheidet sich Mid-training von Fine-tuning?

Fine-tuning verändert das Verhalten und das Antwortformat. Mid-training verändert die internen Repräsentationen – "was" das Modell weiß, nicht "wie" es antwortet. Technisch gesehen ist es derselbe Next-Token-Prediction-Algorithmus, aber auf anderen Daten und für weniger Schritte.

Fazit des Abschnitts: Mid-training ist ein neuer Standard für Spitzenmodelle, der es ermöglicht, Reasoning-Fähigkeiten zu "integrieren", ohne das gesamte Pre-training neu zu gestalten.

📌 SFT: Wie ein "Vorhersager" zum Assistenten wird

Was ist SFT beim LLM-Training

Supervised Fine-Tuning (SFT) ist das Training anhand von "Anfrage → qualitativ hochwertige Antwort"-Paaren, die von Menschen oder stärkeren Modellen vorbereitet wurden. Nach dem Pre-training kann das Modell Text generieren, weiß aber nicht, wie ein Assistent zu antworten hat. SFT lehrt es: Fragen zu beantworten, anstatt Text fortzusetzen; nützlich zu sein, anstatt nur glaubwürdig.

SFT ist der Unterschied zwischen "einem Modell, das alles schreiben kann" und "einem Modell, das auf Ihre Anfrage antwortet".

Nach dem Pre-training, wenn Sie "Wie mache ich ein Omelett?" schreiben, kann das Modell mit einer Fortsetzung im Stil eines kulinarischen Blogs, einer Wikipedia-Seite oder eines Rezepts in Form einer Zutatenliste antworten – je nachdem, was am häufigsten in den Trainingsdaten vorkam. SFT fixiert das Format: Die Antwort sollte direkt, nützlich und im Dialogformat sein.

SFT-Daten sind Tausende oder Zehntausende von "Prompt → Antwort"-Paaren. Sie werden von menschlichen Annotatoren (teuer) vorbereitet oder von stärkeren Modellen generiert (billiger, aber mit dem Risiko, Fehler zu erben). OpenAI verwendete ~13.000 SFT-Beispiele für das erste InstructGPT. Moderne Modelle verwenden Hunderttausende und mehr.

Instruction Tuning als Variante von SFT

Instruction Tuning ist SFT, bei dem Prompts als explizite Anweisungen formuliert sind ("Übersetzen Sie diesen Text", "Schreiben Sie einen Lebenslauf", "Korrigieren Sie die Fehler"). Dies verwandelt ein grundlegendes Sprachmodell in einen "nützlichen Assistenten". FLAN von Google und InstructGPT von OpenAI sind die ersten groß angelegten Beispiele dieses Ansatzes.

✔️ SFT lehrt das Format und den Ton von Antworten
✔️ Instruction Tuning lehrt, spezifischen Befehlen zu folgen
✔️ Ohne SFT ist das Modell technisch kompetent, aber "versteht" nicht, was von ihm verlangt wird

Fazit des Abschnitts: SFT ist eine relativ günstige Phase (im Vergleich zum Pre-training), aber entscheidend: Sie macht das Modell zu einem "Assistenten" und nicht nur zu einem Textgenerator.

📌 RLHF: Menschliche Bewertung als Trainingssignal

Wie RLHF funktioniert

RLHF (Reinforcement Learning from Human Feedback) ist eine Methode, bei der Menschen mehrere Antworten eines Modells vergleichen und die bessere auswählen. Aus diesen Vergleichen wird ein Belohnungsmodell trainiert – ein separates neuronales Netz, das gelernt hat, menschliche Präferenzen vorherzusagen. Dann lernt das Hauptmodell durch RL, die Bewertung des Belohnungsmodells zu maximieren. RLHF verwandelte GPT-3 in ChatGPT.

RLHF löste ein Problem, das SFT nicht bewältigen kann: dem Modell beizubringen, nicht nur "korrekt zu antworten", sondern so zu antworten, wie Menschen es für nützlich halten.

Die Mechanik von RLHF besteht aus drei Schritten. Erstens sehen Annotatoren dieselbe Anfrage mit zwei oder mehr Antwortvarianten des Modells und wählen die bessere aus. Zweitens wird das Belohnungsmodell anhand dieser Vergleiche trainiert – es sagt voraus, welche Antwort ein Mensch wählen würde. Drittens lernt das Hauptmodell durch den PPO-Algorithmus (Proximal Policy Optimization), Antworten zu generieren, die das Belohnungsmodell hoch bewertet.

OpenAI zeigte ein beeindruckendes Ergebnis: Ein Modell mit 1,3 Milliarden Parametern, trainiert durch RLHF, übertraf ein Modell mit 175 Milliarden Parametern, das nur durch SFT trainiert wurde. Das bedeutet, dass Alignment für die praktische Nützlichkeit wichtiger ist als die Größe.

Das Belohnungsmodell – der unsichtbare Richter

Das Belohnungsmodell ist ein separates neuronales Netz, das trainiert wurde, menschliche Bewertungen vorherzusagen. Es sieht die Anfrage und die Antwort und gibt eine Zahl aus – wie "gut" diese Antwort ist. Während des RLHF versucht das Hauptmodell, diesen Score zu maximieren, ohne zu weit von der Basis-SFT-Version abzuweichen (dies wird durch eine KL-Divergenz-Strafe kontrolliert).

Warum RLHF teuer und komplex ist

Klassisches PPO-basiertes RLHF erfordert, dass vier große Modelle gleichzeitig im Speicher gehalten werden: das Hauptmodell (Policy Model), eine eingefrorene Kopie des SFT-Modells (Reference Model), das Belohnungsmodell und ein Kritiker/Wert-Modell. Für Spitzenmodelle mit Milliarden von Parametern erfordert dies Tausende von GPUs und spezielle Infrastruktur. Menschliche Annotatoren verursachen erhebliche Kosten: Schätzungen zufolge kosten 600 hochwertige Annotationen etwa 60.000 US-Dollar.

✔️ RLHF lehrt das Modell menschliche Präferenzen, nicht nur korrekte Antworten
✔️ Das Belohnungsmodell ersetzt Menschen während des Trainings – ist aber selbst auf menschlichen Bewertungen trainiert
✔️ PPO benötigt 4 Modelle im Speicher – der Hauptgrund, warum nach Alternativen gesucht wird

Kurzer Vergleich: RLHF vs. RLVR

Methode	Was optimiert wird	Einschränkungen
RLHF (Reinforcement Learning from Human Feedback)	Menschliche Präferenzen – subjektive Qualität, Ton, Stil, Sicherheit	Subjektivität Unterschiedliche Annotatoren haben unterschiedliche Meinungen. Teuer und langsam.
RLVR (Reinforcement Learning with Verifiable Rewards)	Objektive Belohnung – Korrektheit von Mathematik, Code, exakten Fakten	Begrenzte Domänen Funktioniert nur dort, wo es einen automatischen Verifizierer gibt (Mathematik, Code, strukturierte Aufgaben).

Fazit: RLHF ist besser für kreative und subjektive Aufgaben (Texte schreiben, Tonfall, Sicherheit). RLVR – für Aufgaben mit eindeutig korrekter Antwort (Mathematik, Programmierung, Logik). In den Jahren 2025–2026 bewegt sich die Branche in Richtung einer Kombination beider Ansätze.

📌 DPO, GRPO und RLVR: Post-RLHF-Ära 2025–2026

Was ersetzt RLHF im Jahr 2026?

In den Jahren 2025–2026 ist das klassische RLHF nicht mehr die dominierende Methode. Der moderne Stack: SFT für grundlegende Ausrichtung → DPO oder SimPO für Präferenz-Ausrichtung → GRPO/DAPO mit verifizierten Belohnungen für Reasoning. DPO eliminiert die Notwendigkeit eines separaten Belohnungsmodells. RLVR (Reinforcement Learning with Verifiable Rewards) ersetzt menschliche Annotatoren durch automatische Verifizierer für Mathematik und Code.

Das Rezept "Pretrain → RLHF mit menschlichen Labels" ist kein Standard mehr. Jedes große Modell aus dem Jahr 2025 verwendet einen anderen Post-Training-Stack.

DPO: Ausrichtung ohne Belohnungsmodell

Direct Preference Optimization (Rafailov et al., 2023) löst die gleiche Aufgabe wie RLHF, jedoch ohne ein separates Belohnungsmodell und ohne RL-Optimierung. DPO formuliert die Ausrichtungsaufgabe als Klassifizierung: Das Modell sieht Paare von (ausgewählte Antwort, abgelehnte Antwort) und lernt direkt, die Wahrscheinlichkeit der ausgewählten Antwort zu erhöhen. Das Ergebnis ist vergleichbar mit RLHF, aber 40–75 % günstiger im Rechenaufwand. Meta verwendet DPO als Teil des Ausrichtungs-Stacks von Llama 4.

GRPO: RL ohne Critic-Modell

Group Relative Policy Optimization (DeepSeek, 2024) ist ein Algorithmus, der PPO in RLHF ersetzt. Anstelle eines separaten Critic/Value-Modells sampelt GRPO mehrere Antworten auf eine Anfrage und vergleicht sie miteinander. Dies eliminiert eines der vier Modelle im Speicher, während die Qualität erhalten bleibt oder verbessert wird. GRPO wird bereits in Nemotron 3 Super von NVIDIA und DeepSeek R1 eingesetzt.

RLVR: Verifizierer statt Mensch

Reinforcement Learning with Verifiable Rewards ist die wichtigste Änderung im Jahr 2025. Die Idee ist einfach: Für Mathematik, Code und strukturierte Aufgaben ist keine menschliche Bewertung erforderlich – ein automatischer Verifizierer reicht aus. Ein Unit-Test oder ein mathematischer Prüfer liefert ein binäres Signal (richtig/falsch) – schneller, günstiger und stabiler als menschliches Feedback. DeepSeek R1-Zero wurde durch reines RLVR ohne jegliche SFT-Beispiele trainiert – und das Modell entwickelte selbstständig die Fähigkeit zur Selbstreflexion und zum Chain-of-Thought.

DAPO: RLVR für lange Antworten

DAPO von ByteDance/Tsinghua (2025) löst ein spezifisches Problem: die Instabilität von GRPO beim Training von Reasoning-Modellen mit langen Chain-of-Thought-Antworten. DAPO trainierte Qwen2.5-32B auf 50 Punkte bei AIME 2024 und übertraf damit DeepSeek-R1-Zero bei 50 % weniger Trainingsschritten. Das System ist vollständig Open Source.

Methode	Belohnungsmodell	Critic-Modell	Menschliche Labels	Anwendung 2026
PPO-RLHF	✅ Benötigt	✅ Benötigt	✅ Benötigt	Selten, nur in großen Laboren
DPO	❌ Nicht benötigt	❌ Nicht benötigt	✅ Benötigt (Paare)	Standard für Ausrichtung
GRPO	✅ Benötigt	❌ Nicht benötigt	Teilweise	Reasoning-Modelle
RLVR	❌ Verifizierer	❌ Nicht benötigt	❌ Nicht benötigt	Mathematik, Code, Reasoning

Fazit: Der moderne Ausrichtungs-Stack ist modular: SFT → DPO → GRPO/RLVR. Jede Komponente löst eine separate Aufgabe und kann je nach Budget und Zielen ersetzt werden.

📌 Data Contamination: Wenn Tests in das Training gelangen

Was ist Data Contamination bei LLMs?

Data Contamination ist eine Situation, in der Testbeispiele aus Benchmarks in die Trainingsdaten eines Modells gelangen. Das Ergebnis: Das Modell erzielt hohe Punktzahlen nicht, weil es "intelligent" ist, sondern weil es "die Antworten gesehen hat". Dies ist ein ernstes Problem für die Bewertung der tatsächlichen Fähigkeiten von LLMs in den Jahren 2025–2026.

95 % bei MMLU bedeuten nicht immer "intelligentes Modell". Manchmal bedeutet es "das Modell hat diese Fragen während des Trainings gesehen".

Das Problem ist systemisch: CommonCrawl enthält Milliarden von Seiten, darunter Foren, in denen Menschen Benchmark-Fragen diskutieren, akademische Websites mit Testbeispielen und Repositories mit Datensätzen. Eine qualitativ hochwertige Filterung ist schwierig: Formal kann ein MMLU-Test in einem Artikel zitiert werden, der alle Qualitätsfilter besteht.

Übrigens scannt Common Crawl (woher die Daten für das Training von GPT-5, Gemini und anderen Modellen stammen) aktiv Websites über seinen Bot CCBot. Wenn Sie möchten, dass Ihre Inhalte in KI-Wissensdatenbanken und nicht nur in Contamination-Tests gelangen, sollten Sie verstehen, wie dieser Crawler funktioniert. Mehr darüber, warum CCBot selbst junge Websites besucht, wie Harmonic Centrality die Indexierungsprioritäten beeinflusst und ob es sich lohnt, KI-Bots zu blockieren – lesen Sie in meinem Artikel: Das Zeitalter der KI-Crawler: Wie CCBot Ihre Website in eine Wissensdatenbank für GPT-5 und Gemini verwandelt.

In den Jahren 2024–2025 haben mehrere unabhängige Studien Anzeichen von Contamination bei Top-Modellen gefunden. Meta und Google veröffentlichen "Contamination Reports" zusammen mit den Releases von Llama und Gemini – aber die Methodik zur Erkennung bleibt Gegenstand von Diskussionen.

So überprüfen Sie Contamination selbst

Sie benötigen keinen Zugriff auf die Trainingsdaten eines Modells, um Contamination zu vermuten. Hier sind drei praktische Methoden:

🔍 N-Gramm-Überlappung: Wenn die Antwort des Modells auf eine Testfrage eindeutige Phrasen aus dem Trainingsdatensatz enthält (z. B. die genaue Formulierung von arXiv oder GitHub), ist dies ein Warnsignal. Je länger die Übereinstimmung, desto höher die Wahrscheinlichkeit von Contamination.
📅 Fragen nach dem Knowledge Cutoff: Stellen Sie dem Modell Fragen zu einem Ereignis, das definitiv nach seinem angegebenen Cutoff stattgefunden hat. Wenn es mit genauen Daten, Details oder Zitaten antwortet, ist etwas faul. Ein "sauberes" Modell sollte sagen "Ich weiß es nicht" oder "Das ist nach meinem Trainingsdatum".
🎯 Membership Inference Attacks: Eine komplexere Methode: Vergleichen Sie das Verhalten des Modells bei Fragen, die mit hoher Wahrscheinlichkeit in den Trainingsdaten enthalten waren (z. B. die ersten Zeilen von "Hamlet"), mit denen, die definitiv nicht enthalten waren (aktuelle wissenschaftliche Preprints). Ein Unterschied in der Zuversicht oder Genauigkeit kann auf Contamination hinweisen.

Wie Entwickler damit umgehen

Lösungen: neue Benchmarks, die nach jedem Major-Release aktualisiert werden (LiveBench), "dynamische Benchmarks" mit Generierung neuer Aufgaben (LiveCodeBench), private Testnetzwerke, die vor der Bewertung nicht veröffentlicht werden. Mehr darüber, wie KI-Plattformen Daten verarbeiten und filtern – im Artikel Wie KI-Plattformen Quellen für Antworten auswählen.

Was tun, wenn Sie Contamination vermuten

Erstens, vertrauen Sie nicht auf einen einzigen Benchmark. Vergleichen Sie Modelle anhand von 3-5 verschiedenen Tests, vorzugsweise aus verschiedenen Domänen. Zweitens, testen Sie das Modell mit Ihren eigenen, nicht-öffentlichen Daten. Drittens, achten Sie auf Modelle, die ihre Contamination Reports veröffentlichen (Meta, Google) – dies ist ein Zeichen von Integrität, aber keine Garantie für Reinheit.

Fazit des Abschnitts: Data Contamination ist ein systemisches Problem, das den objektiven Vergleich von Modellen erschwert. Sich nur auf Benchmarks zu verlassen, ist eine falsche Strategie. Testen Sie das Modell immer mit Ihren eigenen Daten und verwenden Sie mehrere unabhängige Bewertungsquellen.

📌 Synthetische Daten: neuer Treibstoff für LLMs

Warum LLMs synthetische Daten benötigen

Synthetische Daten sind Trainingsbeispiele, die von anderen KI-Modellen generiert wurden und nicht von Menschen geschrieben wurden. Sie lösen den Mangel an qualitativ hochwertigen realen Daten, ermöglichen die Generierung unendlich vieler Beispiele für seltene Aufgaben und sind die Grundlage für die neue Ära des Lernens 2025–2026. Aber reine Synthetik übertrifft reale Daten nicht – optimale Mischungen aus Real + Synthetik.

Synthetische Daten ersetzen reale nicht – sie ergänzen sie dort, wo reale fehlen.

Die Phi-Serie von Microsoft (Phi-1, Phi-2, Phi-3) zeigte als erste, dass ein kleines Modell, das auf synthetischen Daten von "Lehrbuchqualität" trainiert wurde, mit viel größeren Modellen auf realen Daten konkurrieren kann. Phi-4 (14B Parameter) übertrifft Modelle, die 3-4 Mal größer sind, in vielen Reasoning-Benchmarks.

Die Studie Demystifying Synthetic Data in LLM Pre-training (2025) liefert eine praktische Schlussfolgerung: Eine Mischung aus synthetischen und realen Daten (33–67 % synthetisch) übertrifft stabil sowohl reine Synthetik als auch reine reale Daten einzeln. Der vollständige Ersatz realer Daten durch synthetische führt zu "Model Collapse" – einer allmählichen Verschlechterung der Qualität.

RLVR + Synthetik = geschlossener Kreislauf

Der vielversprechendste Trend im Jahr 2026: Das Modell generiert seine eigenen Trainingsaufgaben, bewertet die Antworten über einen Verifizierer (RLVR) und lernt aus den Ergebnissen. Keine Menschen im Kreislauf. So erreichte DeepSeek R1 Ergebnisse, die mit o1 vergleichbar sind, bei deutlich geringeren Kosten für menschliche Annotation.

Fazit: Synthetische Daten sind kein Ersatz für reale, sondern eine notwendige Ergänzung. Der optimale Ansatz für 2026 ist kuratierte reale Daten + gezielte Synthetik für die Schwachstellen des Modells.

📌 Wie viel kostet das Training: reale Zahlen

Wie viel kostet das Training eines Frontier LLM?

Laut dem Stanford AI Index 2025 und Epoch AI: GPT-4 kostete ~78 Mio. US-Dollar an Rechenleistung, Gemini Ultra – ~191 Mio. US-Dollar, Meta Llama 3.1 405B – ~170 Mio. US-Dollar. Dies sind nur die Rechenkosten; unter Berücksichtigung von F&E-Personal und Infrastruktur sind die tatsächlichen Zahlen höher.

Die Kosten für Rechenleistung verdoppeln sich alle fünf Monate. Aber die Kosten für Inferenz sinken jährlich um das 9- bis 900-fache – dank Quantisierung und MoE.

Modell	Compute-Kosten (Schätzung)	Parameter	Quelle
Original Transformer (2017)	~$900	65M	Stanford AI Index
GPT-3 (2020)	~$4.6M	175B	OpenAI / Epoch AI
GPT-4 (2023)	~$78M	Unbekannt (≈1.8T)	Stanford AI Index 2025
Gemini Ultra (2023)	~$191M	Unbekannt	Stanford AI Index 2025
Llama 3.1 405B (2024)	~$170M	405B dicht	Epoch AI
DeepSeek V3 (2024)	5,6 Mio. US-Dollar (angegeben)*	671B MoE (37B aktiv)	DeepSeek

*Dies sind nur die Rechenkosten für den finalen Pre-Training-Lauf auf einem H800 GPU-Cluster. Nicht enthalten sind Kosten für frühere Experimente, fehlgeschlagene Läufe, F&E-Personal, Infrastruktur und Datenkurierung. Laut Schätzungen unabhängiger Analysten sind die tatsächlichen Gesamtkosten 3-5 Mal höher.

Warum Inferenz billiger wird, Training aber teurer

Ein Paradoxon der Branche: Die Kosten für das Training von Frontier-Modellen steigen jährlich um das 2-3-fache, aber die Kosten für eine Anfrage an das Modell sinken drastisch. Laut dem Stanford AI Index 2025 sind die Kosten für eine Anfrage an ein Modell auf dem Niveau von GPT-3.5 von 20 US-Dollar pro Million Token im November 2022 auf 0,07 US-Dollar im Oktober 2024 gesunken – ein Rückgang um das 280-fache in 18 Monaten.

Wie Quantisierung die LLM-Ökonomie verändert

Quantisierung ist die Speicherung der Modellgewichte nicht in 16-Bit (FP16), sondern in 4- oder 8-Bit-Genauigkeit (Methoden GPTQ, AWQ, GGUF). Dies ermöglicht:

🚀 Llama 3 70B auf einer einzigen Consumer-GPU (24 GB VRAM) anstelle eines Clusters von 8×A100 auszuführen
🚀 Die Kosten für Inferenz um das 5-10-fache bei minimalem Qualitätsverlust (1-2 % bei Benchmarks) zu reduzieren
🚀 LLMs auf CPUs auszuführen (über llama.cpp) für Aufgaben ohne Latenzanforderungen

Gerade dank der Quantisierung sind die Kosten für Inferenz um das 280-fache gesunken – dieselbe Hardware führt nun Modelle aus, die vor einem Jahr nicht verfügbar waren.

Warum DeepSeek V3 so günstig ist: MoE + Optimierungen

DeepSeek V3 erreichte 5,6 Mio. US-Dollar dank dreier Faktoren:

⚡ MoE-Architektur: 671B Parameter, aber nur ~37B pro Token werden aktiviert – weniger Rechenleistung pro Schritt
⚡ FP8-Training: Verwendung von 8-Bit-Genauigkeit anstelle des Standard-FP16/BF16 – halb so viel Speicher und Rechenleistung
⚡ Chinesische Strom- und Hardwarepreise: H800 sind dort günstiger als H100 in den USA/Europa

Wie viel die Nutzung verschiedener Modelle über API im Jahr 2026 kostet, erfahren Sie ausführlich in unserem Artikel über die Kosten von KI (Link wird nach der Veröffentlichung verfügbar sein).

✔️ Training von Frontier-Modellen: 78–191 Mio. US-Dollar und mehr nur für Rechenleistung
✔️ Fine-Tuning von Open-Source-Modellen: 50.000–500.000 US-Dollar (oder 10–100 US-Dollar mit LoRA auf einer einzigen GPU)
✔️ Inferenz: von 0,03 US-Dollar (DeepSeek V3) bis 15 US-Dollar (o1) pro Million Token, je nach Modell

Fazit des Abschnitts: Das Training von Frontier-Modellen wird teurer, aber der Zugriff auf bereits trainierte Modelle wird dank Quantisierung und MoE günstiger. Für die meisten Unternehmen sind die Inferenzkosten wichtiger als die Trainingskosten. Und wenn Sie ein Fine-Tuning durchführen möchten, kostet LoRA auf einer einzigen GPU weniger als ein Abendessen in einem Restaurant.

📌 Knowledge Cutoff: Warum KI "in der Zeit eingefroren" ist

Was ist Knowledge Cutoff bei LLMs?

Knowledge Cutoff ist das Datum, nach dem ein Modell kein Wissen über Ereignisse in der Welt hat. Dies ist eine direkte Folge des Pre-Trainings: Das Modell lernt aus einem statischen Datensatz, der bis zu einem bestimmten Zeitpunkt gesammelt wurde. Nach Abschluss des Trainings werden die Gewichte eingefroren. ChatGPT weiß nichts über die Nachrichten von gestern, genauso wenig wie ein vor einem Jahr gedrucktes Buch.

Knowledge Cutoff ist kein Fehler, sondern ein architektonisches Merkmal. Das Modell hat neue Ereignisse nicht "vergessen" – es hat sie einfach nie gesehen.

Nach dem Pre-Training ist das Modell "eingefroren": Seine Gewichte sind fixiert, und neue Informationen gelangen nicht automatisch hinein. Wenn ein wichtiges Ereignis stattfindet – Wahlen, eine wissenschaftliche Entdeckung, ein neues Produkt – weiß das Modell nichts davon, wenn diese Informationen nach dem Cutoff erschienen sind.

Aktuelle Knowledge Cutoffs per 2026: Claude Sonnet 4.5 – Anfang 2025, GPT-4o – Oktober 2023, Gemini 2.5 Pro – Anfang 2025. Modelle werden nicht kontinuierlich aktualisiert – ein neues Major-Release erscheint alle paar Monate oder seltener.

Wie das Problem gelöst wird: RAG und Websuche

Zwei Hauptlösungen. Erstens – Retrieval-Augmented Generation (RAG): Vor der Antwort erhält das Modell relevante Dokumente aus einer aktuellen Wissensdatenbank und verwendet sie im Kontext. Zweitens – Websuche: Das Modell kann Informationen in Echtzeit suchen (wie ChatGPT mit aktivierter Suche oder Perplexity). Mehr über den Unterschied zwischen LLM und RAG – im Artikel LLM vs. RAG im Jahr 2026: Warum es nicht dasselbe ist und wann man was verwenden sollte.

Fazit: Knowledge Cutoff ist eine grundlegende Einschränkung des statischen Lernens. Für Aufgaben, die aktuelle Informationen erfordern, ist entweder RAG oder Websuche über LLM erforderlich.

📌 Open-Source vs. Geschlossene Modelle: Wann was wählen

Open-Source oder geschlossene LLM – was ist besser

Die Wahl hängt von der Aufgabe, dem Budget und den Datenschutzanforderungen ab. Geschlossene Modelle (GPT, Claude, Gemini) liefern bessere Out-of-the-Box-Ergebnisse, sind aber teurer im Inference und abhängig vom Anbieter. Open-Source (Llama 4, Mistral, DeepSeek, Qwen) bieten volle Kontrolle, die Möglichkeit zur lokalen Bereitstellung und null Inference-Kosten, erfordern aber ein technisches Team.

Im Jahr 2026 hat sich die Qualitätslücke zwischen Open- und Closed-Modellen erheblich verringert. Llama 4 Scout konkurriert bei vielen Aufgaben mit GPT-4o-Klasse.

Noch 2022 waren Open-Source-Modelle deutlich schwächer als geschlossene. In den Jahren 2023–2024 haben Llama 2, Mistral und DeepSeek die Lücke erheblich geschlossen. In den Jahren 2025–2026 konkurrieren Llama 4 von Meta und DeepSeek V3/R1 bei den meisten praktischen Aufgaben mit den Top-geschlossenen Modellen.

Kriterium	Open-Source (Llama 4, DeepSeek, Mistral)	Geschlossen (GPT, Claude, Gemini)
Inference-Kosten	0 $ (lokal) oder sehr günstig (API)	1,25–15 $ / 1 Mio. Tokens
Datenschutz	Vollständig (lokale Bereitstellung)	Daten durchlaufen den Anbieter
Anpassung	Fine-Tuning, volle Kontrolle	Begrenzt (Prompt-Ebene oder Fine-Tuning-API)
Out-of-the-box-Qualität	Sehr gut (2026)	Am besten (Frontier-Modelle)
Technische Anforderungen	DevOps/ML-Team erforderlich	API-Schlüssel + ein paar Codezeilen

Wann Open-Source wählen

Die lokale Bereitstellung über Ollama ist sinnvoll, wenn Sie Datenschutzanforderungen haben (Medizin, Finanzen, Recht), ein großes Anfragevolumen vorliegt, bei dem die Inference-Kosten kritisch sind, oder die Notwendigkeit eines Fine-Tunings für eine spezifische Domänenaufgabe besteht.

Für preisgünstige Konfigurationen: Auch auf bescheidener Hardware können nützliche Modelle ausgeführt werden. Detaillierte Informationen darüber, welche Modelle auf Laptops mit 8 GB RAM laufen, welche Aufgaben sie lösen (Code, Text, Reasoning) und wie Sie das Maximum aus begrenzten Ressourcen herausholen – lesen Sie im Artikel Ollama auf 8 GB RAM: Welche Modelle funktionieren im Jahr 2026.

Ein allgemeiner Überblick über lokales KI, Vergleiche mit Cloud-Lösungen und Anwendungsfälle – im Artikel Ollama im Jahr 2026.

Fazit des Abschnitts: Im Jahr 2026 gibt es keinen eindeutigen Gewinner – es gibt das richtige Werkzeug für die jeweilige Aufgabe. Geschlossene Modelle – für einen schnellen Start und maximale Qualität. Open-Source – für Kontrolle, Datenschutz und Skalierbarkeit.

📌 Mixture of Experts (MoE): Warum mehr Parameter nicht teurere Inferenz bedeuten

Was ist MoE in LLMs

Mixture of Experts (MoE) ist eine Architektur, bei der ein Modell aus vielen "Experten" (einzelnen MLP-Blöcken) besteht, aber für jedes Token nur eine kleine Untermenge davon aktiviert wird. Dies ermöglicht ein Modell mit Hunderten von Milliarden Parametern (DeepSeek V3 – 671B), wobei die Inferenz so viel kostet wie bei einem Modell, das 5-10 Mal kleiner ist. MoE ist einer der Hauptgründe, warum die Kosten für die Inferenz schneller sinken, als die Größe der Modelle wächst.

Ohne MoE wären wir längst an eine Grenze gestoßen: Ein Modell mit einer Billion Parametern würde 1000 $ pro Million Tokens kosten. MoE macht große Modelle wirtschaftlich rentabel.

Stellen Sie sich vor, Sie haben 100 Spezialisten anstelle eines riesigen Gehirns. Für eine Physikfrage aktivieren Sie nur 2-3 Physiker und nicht alle 100. So funktioniert MoE: Für jedes Token entscheidet ein "Gating Network", welche 1-2 Experten (von Dutzenden oder Hunderten) die Daten erhalten. Die anderen bleiben inaktiv.

Wer nutzt MoE im Jahr 2026:

✔️ DeepSeek V3 / R1 – 671B Parameter, aktiviert ~37B pro Token
✔️ Mixtral 8x7B / 8x22B – 8 Experten, 2 aktiviert
✔️ GPT-4 (laut unbestätigten Berichten) – 16 Experten, 111B Parameter, 2 aktiviert
✔️ Qwen 2.5-MoE – 64 Experten, 14B aktiviert

Warum MoE die Spielregeln ändert

Vor MoE mussten Sie die Parameter erhöhen (GPT-3: 175B), wenn Sie ein besseres Modell wollten, und erhielten eine lineare Steigerung der Inferenzkosten. MoE durchbricht diese Verbindung: Sie können 671B Parameter haben (DeepSeek V3), aber die Inferenz kostet so viel wie bei ~37B Parametern. Das ist 5-18 Mal günstiger.

Ein einfaches Beispiel: Wäre DeepSeek V3 ein dichtes Modell, würden seine Inferenzkosten etwa 15–20 US-Dollar pro Million Tokens betragen. Der tatsächliche Preis der DeepSeek API beträgt etwa 0,27 US-Dollar (Eingang) / 1,10 US-Dollar (Ausgang). Das ist dank MoE.

Die Kehrseite: Das Training von MoE ist schwieriger

MoE ist hervorragend für die Inferenz, verursacht aber Probleme beim Training:

⚡ Ungleichmäßige Lastverteilung: Einige Experten können "beliebter" sein als andere, was zusätzliche Loss-Funktionen zur Balance erfordert.
⚡ Größerer Speicherbedarf: Alle 671B Parameter müssen trotzdem in die GPU passen (oder auf mehrere Geräte verteilt werden).
⚡ Feinabstimmung: Standard-Fine-Tuning funktioniert schlechter; spezielle Methoden sind erforderlich (MoE-spezifisches LoRA oder Fine-Tuning nur des Gating Networks).

Fazit: MoE ist die "Geheimwaffe" der großen Modelle 2025–2026. Sie erklärt, wie DeepSeek mit 10-mal geringeren Kosten mit GPT-4o konkurriert und warum Open-Source-Modelle riesig, aber dennoch zugänglich sein können.

❓ Häufig gestellte Fragen (FAQ)

Wie lange dauert das Training eines GPT-ähnlichen Modells?

Das Pre-Training eines Frontier-Modells dauert mehrere Wochen bis Monate auf einem Cluster mit Tausenden von GPUs. GPT-4 wurde schätzungsweise mehrere Monate auf Tausenden von A100 trainiert. Der vollständige Zyklus vom Beginn des Pre-Trainings bis zur Veröffentlichung beträgt 6–18 Monate, einschließlich Post-Training, Evaluierungen und Sicherheitstests.

Kann man seine eigene LLM von Grund auf trainieren?

Technisch ja, aber wirtschaftlich ist es nur für große Organisationen erschwinglich. Das Pre-Training eines kleinen Modells (7B Parameter) kostet zwischen 50.000 und 500.000 US-Dollar. Für die meisten Unternehmen ist es sinnvoller, ein Open-Source-Basismodell (Llama 4, Mistral) zu nehmen und es für ihre Aufgabe feinabzustimmen – das kostet zwischen einigen hundert und einigen tausend Dollar.

Was ist Fine-Tuning und wie unterscheidet es sich vom Training von Grund auf?

Fine-Tuning ist das nachträgliche Training eines bereits trainierten Modells auf einem neuen, eng gefassten Datensatz. Das Modell behält das Wissen aus dem Pre-Training bei, passt sich aber an eine neue Aufgabe oder einen neuen Stil an. Im Gegensatz zum Training von Grund auf erfordert Fine-Tuning um Größenordnungen weniger Daten und Rechenleistung. LoRA und QLoRA ermöglichen Fine-Tuning sogar auf Consumer-GPUs.

Warum kennt ChatGPT keine aktuellen Nachrichten?

Aufgrund des Knowledge Cutoffs: Das Modell wurde bis zu einem bestimmten Datum mit Daten trainiert und erhält keine neuen Informationen automatisch. ChatGPT löst dies durch die Integration von Websuche (Search), aber das Basismodell bleibt "eingefroren". Ohne Suche oder RAG weiß eine LLM nichts über Ereignisse nach dem Cutoff.

Sind synthetische Daten für das Training sicher?

Synthetische Daten sind bei richtiger Anwendung sicher – als Ergänzung zu echten Daten. Ein vollständiger Ersatz von echten Daten durch synthetische Daten führt zu einem "Model Collapse": Jede nachfolgende Modellgeneration verschlechtert sich leicht, da sie auf den Ausgaben der vorherigen trainiert wird. Die optimale Lösung ist eine Mischung aus echten und synthetischen Daten im Verhältnis von 33–67 % synthetisch.

Was ist RLVR und warum ist es besser als RLHF?

RLVR (Reinforcement Learning with Verifiable Rewards) verwendet einen automatischen Verifizierer anstelle von menschlichen Bewertern. Für Aufgaben mit einer eindeutigen richtigen Antwort (Mathematik, Code, Logik) ist der Verifizierer schneller, günstiger und stabiler als ein Mensch. RLHF bleibt für Aufgaben ohne eindeutige "richtige Antwort" notwendig – kreatives Schreiben, subjektive Vorlieben, Tonnuancen.

Warum ein Modell auf Code trainieren, wenn es textbasiert ist?

Code ist auch für allgemeine LLMs ein besonders wertvoller Datensatz. Er ist strukturiert, logisch, verifiziert (Code funktioniert oder nicht) und enthält konzentrierte Ursache-Wirkungs-Beziehungen. Modelle, die auf einem größeren Anteil von Code trainiert wurden, zeigen auch außerhalb der Programmierung bessere Ergebnisse bei Reasoning-Aufgaben.

✅ Schlussfolgerungen

🔹 Das Training von LLMs ist ein Fließband mit vier Phasen: Pre-Training (Sprache) → Mid-Training (Spezialisierung) → SFT (Format) → Alignment (Verhalten). Keine davon kann übersprungen werden.
🔹 Klassisches RLHF ist 2025 gestorben. Es wurde durch einen modularen Stack ersetzt: DPO für Alignment, GRPO/RLVR für Reasoning – günstiger, schneller und stabiler.
🔹 Kosten für das Training von Frontier-Modellen: 78–191 Mio. US-Dollar an Rechenleistung (Stanford AI Index 2025). Die Inferenzkosten sinken jedoch um das 9- bis 900-fache pro Jahr – dank Quantisierung und MoE.
🔹 Synthetische Daten sind kein Allheilmittel. Optimale Mischung: 33–67 % synthetisch + der Rest echte Daten. Reine Synthetik führt zu "Model Collapse".
🔹 Knowledge Cutoff ist kein Fehler, sondern ein Merkmal. Das Modell "vergisst" keine Nachrichten – es hat sie nie gesehen. Lösbar durch RAG oder Websuche.
🔹 Open-Source hat geschlossene fast eingeholt. Llama 4, DeepSeek und Qwen konkurrieren mit GPT-4o und Claude bei den meisten praktischen Aufgaben.

Hauptgedanke: Das Training von LLMs im Jahr 2026 ist kein monolithischer Prozess, sondern ein modularer Stack, bei dem sich jede Komponente separat entwickelt. Das Verständnis dieses Stacks ermöglicht es nicht nur, das richtige Modell für die Aufgabe auszuwählen, sondern auch Marketingaussagen über das "beste Modell der Welt" kritisch zu bewerten.

🎯 Scharfer Thesenpunkt zum Merken: Wären da nicht Sicherheitsvorschriften und rechtliche Risiken, hätten geschlossene Modelle für 80 % der Geschäftsanwendungen bereits ihren Sinn verloren. Open-Source ist günstiger, kontrollierbarer und fast genauso gut. Die Wahl eines geschlossenen Modells ist heute oft eine Wahl der Bequemlichkeit und Marke, nicht des technischen Vorteils.

Nächster Artikel der Reihe: LLM-Kontextfenster – warum KI vergisst und wie viel das kostet.

Lesen Sie auch: Embeddings in einfachen Worten: Wie KI Bedeutung versteht, nicht nur Wörter – ein grundlegender Leitfaden, wie Text in Zahlen umgewandelt wird und warum dies die Grundlage für RAG und semantische Suche bildet.

Embedding-Modelle für RAG im Jahr 2026 – ein vollständiger Leitfaden zur Auswahl mit einem Vergleich von über 10 Modellen, Preisen und einem realen Anwendungsfall.

Kategorien