Sie schreiben „Hallo“ in ChatGPT – und denken, Sie hätten ein Wort gesendet.
Tatsächlich hat die KI 3-4 Zahlen erhalten. Genau so funktionieren Tokens – die unsichtbaren
Einheiten, mit denen alle großen Sprachmodelle denken.
Spoiler: Ein Wort in kyrillischer Schrift sind bereits 3-4 Tokens
gegenüber 1-2 für Englisch, Code-Formatierung frisst bis zu einem Viertel
der Tokens, und einige Wörter brechen GPT buchstäblich.
⚡ Kurz gesagt
- ✅ Token ≠ Wort: Ein englisches Wort – ungefähr 1 Token, ein Wort in lateinischer Schrift – 3-4 Tokens.
- ✅ BPE: Der Tokenizer baut ein Wörterbuch aus der Zusammenführung häufiger Zeichenpaare – effizient für Englisch, teuer für Kyrillisch.
- ✅ Glitch-Tokens: ~4,3 % des Wörterbuchs von GPT-4 und Llama 2 enthalten "kaputte" Tokens, die unvorhersehbares Verhalten verursachen.
- ✅ Preise 2026 sinken: DeepSeek V3.2 kostet 0,14 $/1 Mio. Input-Tokens, GPT-4o – 2,50 $/1 Mio.
- 🎯 Sie erhalten: Verständnis von Tokens von den Grundlagen bis zur API-Praxis, plus eine Preistabelle zur Auswahl des Anbieters.
- 👇 Unten – detaillierte Erklärungen, Beispiele und Tabellen
📚 Inhalt des Artikels
🎯 1. Warum KI keine Wörter liest – sie liest Tokens
Was ist ein Token in LLMs
Ein Token ist kein Wort und kein Zeichen, sondern ein Textfragment beliebiger Länge: ein Teil eines Wortes, ein ganzes Wort oder sogar mehrere Wörter zusammen.
GPT-5, Claude und Gemini sehen Ihre Anfrage als eine Folge von numerischen Identifikatoren aus ihrem eigenen Wörterbuch.
Das Wort „Hello“ ist 1 Token (ID: 9906), und „authorization“ sind bereits 2 Tokens, obwohl es auch ein Wort ist.
Ein Computer kann keine Buchstaben lesen. Er kann Zahlen zählen. Ein Token ist eine Brücke zwischen menschlicher Sprache und der numerischen Welt eines neuronalen Netzes.
Wenn Sie eine Nachricht an ChatGPT senden, gelangt sie nicht direkt zum neuronalen Netz.
Zuerst durchläuft der Text einen Tokenizer – ein spezielles Programm, das Ihre Zeichenkette in Fragmente zerlegt und jedes durch eine Zahl aus dem Wörterbuch des Modells ersetzt.
Zum Beispiel sieht das Modell den Satz „The cat sat on the mat“ ungefähr so: [791, 8415, 9137, 389, 279, 2450] – 6 Zahlen anstelle von 6 Wörtern.
Das Modell liest genau diese Zahlen, verarbeitet sie durch Hunderte von Transformatorebenen und wandelt die Zahlen am Ausgang über den Tokenizer wieder in Text um.
Warum nicht einfach Buchstaben oder Wörter?
Ein buchstabenbasierter Ansatz (ein Zeichen = eine Einheit) ergibt zu lange Sequenzen – das neuronale Netz verarbeitet sie aufgrund der quadratischen Komplexität der Aufmerksamkeit (Attention) schlecht. Mehr dazu – im Artikel über das Kontextfenster.
Ein wörterbuchbasierter Ansatz (ein Wort = ein Token) funktioniert ebenfalls nicht: Es gibt Hunderttausende von Wörtern in der englischen Sprache, plus Zahlen, Namen, Code, Emojis. Das Wörterbuch wäre unendlich.
Daher hat sich ein Kompromiss durchgesetzt – Subword-Tokenisierung: Wortteile („run“, „ning“, „##s“), ganze häufige Wörter („the“, „is“), seltene Wörter werden in Teile zerlegt. Genau damit beschäftigt sich der BPE-Algorithmus (Abschnitt 3).
- ✔️ Wörterbuch von GPT-5.4 / GPT-4o: ~200.000 Tokens (
o200k_base)
- ✔️ Wörterbuch von Llama 3 / 4: ~128.000 Tokens
- ✔️ Wörterbuch von DeepSeek V3: ~128.000 Tokens
Fazit des Abschnitts: KI liest weder Buchstaben noch Wörter – sie liest Tokens, und davon, wie effizient Ihr Text tokenisiert wird, hängen sowohl die Qualität der Antwort als auch Ihre API-Kosten ab.
📌 2. Warum Token ≠ Wort: Längenanomalien und Spezifikations-Tokens
Warum die Token-Länge unvorhersehbar ist
Die Länge eines Tokens hängt nicht von der Grammatik ab, sondern von der Häufigkeit: Je öfter eine bestimmte Zeichenfolge in den Trainingsdaten vorkam – desto größer ist die Wahrscheinlichkeit, dass sie zu einem Token wurde. Daher die Paradoxien: „GPT-4“ =
2 Tokens, „GPT4“ = 1. Der Bindestrich ändert alles.
Ein Token ist keine Längeneinheit, sondern eine Häufigkeitseinheit in den Trainingsdaten.
Der einfachste Weg, dies zu spüren, ist, bekannte Wörter im
OpenAI-Tokenizer zu überprüfen. Die Ergebnisse überraschen oft selbst erfahrene Entwickler.
Beispiele, die die Intuition brechen
| Zeichenkette |
Tokens |
Aufteilung |
Warum so |
ChatGPT |
3 |
Chat + G + PT |
Der Name ist neu, BPE hat ihn nicht ganz gesehen |
OpenAI |
2 |
Open + AI |
Beide Teile sind einzeln häufig |
tokenization |
3 |
token + iz + ation |
Das Wort ist seltener als seine Teile |
GPT-4 |
2 |
GPT + -4 |
Der Bindestrich bricht die Zusammenführung |
GPT4 |
1 |
GPT4 |
Ohne Bindestrich – ein Token |
cat |
1 |
cat |
Häufiges Wort |
cat (mit Leerzeichen) |
1 |
·cat |
Ein anderer Token als ohne Leerzeichen |
Die letzte Zeile ist besonders wichtig. Bei BPE ist das Leerzeichen am Anfang eines Wortes
Teil des Tokens, nicht ein separates Zeichen. Daher haben cat
und cat unterschiedliche numerische IDs. Das Modell sieht sie buchstäblich als
unterschiedliche Wörter – und verarbeitet sie je nach Position im Satz unterschiedlich.
Spezifikations-Tokens: Dienstsymbole des Modells
Zusätzlich zu den Text-Tokens verfügt jedes Modell über eine Reihe von Spezifikations-Tokens –
Dienstmarkierungen, die die Dialogstruktur kennzeichnen und das Verhalten des Modells steuern:
| Token |
Bedeutung |
Wo anzutreffen |
<|endoftext|> |
Dokumentenende |
GPT-4, GPT-4o |
[BOS] |
Sequenzanfang |
Llama, Mistral |
[EOS] |
Sequenzende |
Llama, Mistral |
[PAD] |
Batch-Ausrichtung |
Modelltraining |
[INST] / [/INST] |
Anweisungsanfang/ende |
Llama 2 Instruct |
<|im_start|> |
Nachrichtenanfang |
GPT-4, ChatML-Format |
Spezifikations-Tokens beeinflussen direkt das Verhalten des Modells: Wenn sie versehentlich oder absichtlich in die Benutzereingabe gelangen, kann das Modell den "Assistenten"-Modus verlassen und sich unvorhersehbar verhalten. Dies ist einer der Angriffsvektoren auf LLM-Systeme.
Fazit des Abschnitts: Ein Token ist eine statistische Einheit, keine linguistische. Leerzeichen, Bindestriche, Groß-/Kleinschreibung – all das verändert die Tokenisierung.
Das Verständnis davon verschafft einen Vorteil beim Schreiben von Prompts und beim Entwerfen von LLM-basierten Systemen.
📌 3. Wie BPE funktioniert: Zeichenverschmelzung auf den Fingern
Byte Pair Encoding Algorithmus
BPE baut ein Wörterbuch auf, beginnend mit einzelnen Bytes und fügt iterativ die häufigsten Paare zusammen.
Dies ist ein gieriger Kompressionsalgorithmus: Wenn „ing“ häufiger vorkommt als jedes andere Paar – wird es zu einem Token.
Der Prozess wird Tausende Male wiederholt, bis das Wörterbuch die gewünschte Größe erreicht.
BPE ist wie das Zusammenfügen von Wörtern aus Lego-Steinen: Zuerst gibt es nur einzelne Buchstaben-Steine, dann fängt man an, die beliebtesten Kombinationen zusammenzufügen.
Kurze Geschichte: Von der Kompression zu GPT
BPE entstand nicht in der KI. 1994 veröffentlichte Philip Gage den Algorithmus als Datenkompressionsmethode im Magazin
The C Users Journal.
Die Idee war einfach: Finde das häufigste Byte-Paar in einer Datei, ersetze es durch ein neues Byte, wiederhole.
2016 adaptierten die Forscher Rico Sennrich, Barry Haddow und Alexandra Birch BPE für die maschinelle Übersetzung in der Arbeit
"Neural Machine Translation of Rare Words with Subword Units" (Sennrich et al., 2016).
Anstatt Bytes zur Speicherung zu komprimieren – Zeichen für neuronale Netze in Subwörter zu komprimieren.
Diese Arbeit wurde zum Fundament der Tokenisierung in allen modernen LLMs.
2019 machte OpenAI den nächsten Schritt in GPT-2: Er ging von symbolischem BPE zu Byte-Level BPE über.
Der Unterschied ist entscheidend: Anstelle einzelner Unicode-Zeichen arbeitet der Algorithmus mit 256 Basis-Bytes.
Das bedeutet, dass jeder Text in jeder Sprache garantiert kodiert wird – es gibt keine „unbekannten Zeichen“.
Alle modernen Modelle – GPT-4o, Claude, Llama 3, DeepSeek – verwenden genau Byte-Level BPE oder seine Varianten.
Schritt-für-Schritt-Beispiel für die Zusammenführung
Stellen Sie sich vor, wir bauen einen Tokenizer auf einem einzigen Satz: "low low low lower lower".
Schritt 0. Wörterbuch: l, o, w, e, r (jeder Buchstabe einzeln)
Text: l-o-w l-o-w l-o-w l-o-w-e-r l-o-w-e-r
Schritt 1. Häufigstes Paar: "l"+"o" kommt 5 Mal vor → wir fügen es zu "lo" zusammen
Text: lo-w lo-w lo-w lo-w-e-r lo-w-e-r
Schritt 2. Häufigstes Paar: "lo"+"w" kommt 5 Mal vor → wir fügen es zu "low" zusammen
Text: low low low low-e-r low-e-r
Schritt 3. Häufigstes Paar: "e"+"r" kommt 2 Mal vor → wir fügen es zu "er" zusammen
Text: low low low low-er low-er
Ergebnis des Wörterbuchs: l, o, w, e, r, lo, low, er, lower
Dies ist ein klassisches Beispiel aus der Originalarbeit von Sennrich. Bei realen Daten wird der Prozess Zehntausende Male auf einem Korpus von Hunderten von Gigabytes wiederholt.
Das endgültige Wörterbuch enthält je nach Modell zwischen 30.000 und 200.000 Tokens.
Von BPE zu echten Tokenizern: Was GPT und Llama hinzufügen
Kein modernes Modell verwendet "nacktes" BPE. Jeder Anbieter fügt seine eigenen Modifikationen hinzu:
- ✔️ Regex-Vortokenisierung: Bevor BPE ausgeführt wird, wird der Text mit einem regulären Ausdruck in Kategorien zerlegt – Buchstaben, Zahlen, Satzzeichen, Leerzeichen.
Dies verhindert „Verschmelzungen“ über Kategoriegrenzen hinweg: Eine Zahl und ein Wort werden nicht zu einem Token. GPT-4 und GPT-4o verwenden unterschiedliche Regex-Muster, was das Ergebnis beeinflusst.
- ✔️ Vordefiniertes Wörterbuch:
tiktoken (OpenAI-Bibliothek) fügt häufige Wörter direkt zum Wörterbuch hinzu.
Wenn ein Wort bereits im Wörterbuch vorhanden ist – wird es ganz zurückgegeben, auch wenn die BPE-Zusammenführungsregeln es nicht erstellt hätten.
- ✔️ Wachstum des Wörterbuchs: GPT-2 hatte ~50.000 Tokens, GPT-4 – ~100.000 (
cl100k_base), und GPT-4o – ~200.000 (o200k_base).
Ein größeres Wörterbuch bedeutet eine effizientere Tokenisierung, insbesondere für nicht-lateinische Sprachen und Code.
- ✔️ SentencePiece: Llama und Mistral verwenden
SentencePiece von Google – eine alternative Implementierung, die BPE- und Unigram-Algorithmen unterstützt und direkt mit Unicode arbeitet, ohne vorherige Wortzerlegung.
Warum BPE erfolgreich ist
Der Algorithmus erkennt automatisch morphologische Einheiten (Wortstämme, Suffixe, Präfixe) ohne jegliches linguistisches Wissen.
Häufige Wörter werden zu einem Token, seltene werden in bekannte Teile zerlegt – das Modell stößt nie auf ein „unbekanntes Wort“.
Das ist die Stärke von BPE: Offenes Vokabular mit einem festen Wörterbuch.
Möchten Sie sehen, wie das im Code funktioniert? Andrej Karpathy (ehem. OpenAI) hat eine Lernimplementierung
minBPE erstellt, und
Sebastian Raschka
hat einen detaillierten Leitfaden mit dem Aufbau eines Tokenizers von Grund auf geschrieben – beide Ressourcen sind ideal für ein tieferes Verständnis.
Mehr darüber, wie Tokens innerhalb eines Transformators verarbeitet werden, lesen Sie in unserem Artikel über Transformatoren und Attention (in Vorbereitung).
Fazit des Abschnitts: BPE ist ein eleganter Kompressionsalgorithmus aus dem Jahr 1994, der zur Grundlage der Tokenisierung aller modernen LLMs wurde. Sein Hauptnachteil ist die ungleichmäßige Abdeckung von Sprachen, da das Wörterbuch auf englischzentrierten Daten aufgebaut ist. Aber selbst mit diesem Nachteil bleibt BPE der Industriestandard – Alternativen haben sich noch nicht als skalierbar erwiesen.
📌 4. Warum nicht-englische Sprache in der KI "teurer" ist
Ungleichmäßigkeit von BPE für verschiedene Sprachen
BPE wird auf einem Korpus trainiert, in dem 90 %+ des Textes Englisch und Code sind. Daher erhalten englische Wörter ganze Tokens, während Wörter in anderen Sprachen – Kyrillisch, chinesische Schriftzeichen, arabische Schrift – in kleine Teile zerlegt werden.
Ein nicht-englisches Wort kostet im Durchschnitt 2-5 Tokens gegenüber 1-2 für sein englisches Äquivalent.
In der Praxis bedeutet dies: Derselbe Text in einer nicht-englischen Sprache wird teurer verarbeitet und nimmt mehr Platz im Kontextfenster ein.
Wenn das Kontextfenster eines Modells 128.000 Tokens beträgt, dann passt auf Englisch 2-3 Mal mehr Text hinein als auf Kyrillisch und 3-4 Mal mehr als auf Arabisch.
Warum passiert das: drei Ebenen des Problems
Die sprachliche Ungleichheit der Tokenisierung ist kein Zufall, sondern das Ergebnis von drei sich gegenseitig verstärkenden Faktoren:
1. Ungleichgewicht der Trainingsdaten.
Die meisten LLMs werden auf englischzentrierten Korpora trainiert. Zum Beispiel gibt Llama 3 an, dass
95 % der Trainingsdaten Englisch und Code sind, und nur 5 % alle anderen Sprachen zusammen.
BPE hat beim Training einfach nicht genug Text in anderen Sprachen „gesehen“, um große Blöcke als separate Tokens zu identifizieren.
2. Vorteil von UTF-8 für die lateinische Schrift.
Byte-Level BPE arbeitet mit Bytes, und UTF-8 kodiert lateinische Buchstaben mit einem Byte, kyrillische mit zwei und chinesische Schriftzeichen mit drei.
Selbst wenn BPE sprachlich perfekt ausbalanciert wäre, hätte die lateinische Schrift auf der Kodierungsebene einen strukturellen Vorteil.
3. Morphologische Komplexität.
Sprachen mit reicher Morphologie (slawische, türkische, finno-ugrische) erzeugen deutlich mehr einzigartige Wortformen aus einem einzigen Stamm.
Das englische „run“ hat etwa 5 Formen, während das entsprechende Verb im Türkischen oder Finnischen Dutzende hat.
Für BPE ist jede seltene Form eine potenzielle Zerlegung in Teile.
Vergleich der Tokenisierung: ein Wort in verschiedenen Sprachen
| Wort |
Sprache |
Tokens (GPT-4o) |
| authorization | Englisch | 2 |
| авторизація | Kyrillisch | 4–6 |
| 授权 | Chinesisch | 2–3 |
| autorización | Spanisch | 3 |
| Genehmigung | Deutsch | 3–4 |
| intelligence | Englisch | 2 |
| інтелект | Kyrillisch | 4–5 |
| 智能 | Chinesisch | 2 |
| inteligencia | Spanisch | 3 |
| token | Englisch | 1 |
| токен | Kyrillisch | 3–4 |
Sie können Ihre eigenen Wörter im tokenizer.openai.com überprüfen – er zeigt die Aufteilung und die genaue Anzahl der Tokens für GPT-4o.
Wie viel kostet das: „Token-Tarif“ in realen Zahlen
Die Studie
"Do All Languages Cost the Same?" (Ahia et al., EMNLP 2023)
analysierte 22 Sprachen und zeigte: Benutzer vieler Sprachen zahlen tatsächlich zu viel für die API und erhalten dabei schlechtere Ergebnisse.
Einige Sprachen benötigen bis zu 5 Mal mehr Tokens für denselben Inhalt.
Die Studie
"The Token Tax" (2025)
ging weiter: Wenn eine Sprache doppelt so viele Tokens benötigt, bedeutet dies eine 4-fache Erhöhung der Trainingskosten (aufgrund der quadratischen Komplexität von Attention O(n²)) und eine entsprechende Erhöhung der Latenz bei der Inferenz.
Es gibt auch gute Nachrichten: OpenAI hat die Situation mit jedem neuen Tokenizer erheblich verbessert.
Laut einer Analyse der 50.000 häufigsten Wörter in 12 Sprachen sank die Anzahl der Tokens pro Wort für Hindi von 6,55 (GPT-2, 2021) auf 1,89 (GPT-4o, 2024) – eine Verbesserung um 71 %.
Für Russisch – von 5,16 auf 1,96 (-62 %).
Aber selbst danach ist Hindi immer noch 63 % teurer als Englisch.
Was tun Entwickler, die mit nicht-englischen Sprachen arbeiten
- ✔️ Berücksichtigen Sie den Faktor x2-4 bei der Berechnung des API-Budgets für nicht-lateinische Sprachen
- ✔️ Prompt Engineering ist kritischer für nicht-englische Sprachen – jedes zusätzliche Wort kostet mehr und verbraucht mehr Kontext
- ✔️ Wählen Sie ein Modell mit einem besseren Wörterbuch: GPT-4o (
o200k_base, 200K Tokens) ist für mehrsprachige Aufgaben deutlich effizienter als ältere Modelle mit kleineren Wörterbüchern
- ✔️ Erwägen Sie spezialisierte Modelle: Für eine bestimmte Sprache sind lokale oder mehrsprachige Modelle (z. B.
Qwen für Chinesisch oder
multilingual-e5-large für Embedding-Aufgaben) oft besser tokenisiert
- ✔️ Prompt Caching: Wenn der System-Prompt in einer nicht-englischen Sprache groß ist – reduziert Prompt Caching die Kosten wiederholter Anfragen um 80-90 %.
Mehr dazu – in unserem Artikel über LLMs für Unternehmen
Fazit: Sprachliche Ungleichheit bei der Tokenisierung ist ein dokumentiertes und messbares Problem, das alle nicht-lateinischen Sprachen betrifft. Es beeinflusst direkt das API-Budget, die effiziente Nutzung des Kontextfensters und sogar die Qualität der Modellantworten. Der Trend ist positiv – die Wörterbücher wachsen von 50K auf 200K+ Tokens, und die Lücke schließt sich – aber eine vollständige Gleichheit ist noch nicht erreicht.
📌 5. Glitch-Token: Warum "SolidGoldMagikarp" GPT kaputt macht
Was sind Glitch-Token?
Glitch-Token sind Token aus dem Vokabular eines Modells, für die das neuronale Netz kein normales Verhalten gelernt hat.
Sie sind in das Vokabular gelangt (weil sie in den Trainingsdaten des Tokenizers enthalten waren), fehlten aber im Haupttrainingskorpus des Modells oder waren dort extrem selten.
Die Folge: Wenn das Modell auf ein solches Token trifft, generiert es eine unvorhersehbare, chaotische oder beleidigende Ausgabe.
Stellen Sie sich eine Bibliothek vor, in der es eine Karte für ein Buch gibt – aber das Buch selbst fehlt im Regal. Der Bibliothekar (das Modell) verliert die Orientierung und sagt etwas Unsinniges.
Entdeckung 2023: SolidGoldMagikarp
Im Januar 2023 veröffentlichten die Forscher Jessica Rumbelow und Matthew Watkins im Rahmen des SERI-MATS-Programms
auf LessWrong
eine unerwartete Entdeckung: Wenn man ChatGPT bittet, das Wort "SolidGoldMagikarp" zu wiederholen, antwortet das Modell "distribute".
Oder es weigert sich ganz, schreit, beleidigt – das Verhalten ist absolut unvorhersehbar.
Der Grund dafür war: "SolidGoldMagikarp" ist der Nickname eines Reddit-Benutzers, der Hunderttausende von Beiträgen in einem Thread zum Zählen von Zahlen gemacht hat.
Der GPT-Tokenizer hat auf diesem Text "gelernt" und den Nickname als eigenständiges Token extrahiert.
Aber beim Training des Modells selbst wurde dieser Reddit-Inhalt herausgefiltert – und das Token blieb ohne jeglichen Sinn im Vokabular "hängen".
Noch seltsamer verhielt sich das Token petertodd (mit einem Leerzeichen davor).
Wenn GPT-3 gebeten wurde, es zu wiederholen, gab das Modell chaotische Antworten –
von mystischen Gedichten bis hin zu aggressiven Ausrufen.
Wie sich herausstellte, ist Peter Todd ein kanadischer Kryptograph, dessen Name aufgrund seiner Arbeit mit Bitcoin Gegenstand massiver Angriffe auf Reddit war. Diese Kommentare gelangten in die Daten des Tokenizers, aber nicht in den Trainingskorpus des Modells.
Eine detaillierte Untersuchung dieses Phänomens ist auf
LessWrong: The 'petertodd' phenomenon beschrieben.
Warum das gefährlich ist: Vom Kuriosum zur Schwachstelle
Auf den ersten Blick sind Glitch-Token ein lustiges Artefakt. Aber für Produktionssysteme stellen sie reale Risiken dar:
- ✔️ Umgehung von Sicherheitsfiltern: Ein Glitch-Token kann das Modell aus dem Assistentenmodus "werfen", und es ignoriert den System-Prompt und die Guardrails.
- ✔️ Unvorhersehbare Halluzinationen: Anstatt sich zu weigern, generiert das Modell chaotische Inhalte – von Unsinn bis hin zu beleidigendem Text.
- ✔️ Verletzung des Determinismus: Selbst bei temperature=0 brechen Glitch-Token die Reproduzierbarkeit – dasselbe Modell liefert unterschiedliche Antworten auf dieselbe Anfrage.
- ✔️ Angriffsvektor: Ein Angreifer kann absichtlich Glitch-Token in die Eingabedaten einfügen, um die Funktionsweise eines LLM-Systems zu stören.
GlitchMiner: Das Ausmaß des Problems im Jahr 2026
In den Jahren 2024–2025 entwickelten Forscher ein automatisiertes Framework zur Suche nach Glitch-Token –
GlitchMiner (arXiv),
angenommen auf der AAAI 2026 Konferenz.
Das Tool verwendet Gradientenoptimierung, um Token mit einer anomal hoch empfundenen Vorhersageentropie zu finden.
Die Ergebnisse: Ungefähr 4,3 % der Token in den Vokabularen von GPT-4, Llama 2 und DeepSeek sind potenzielle Glitch-Token.
Für ein Vokabular von 100.000 Token sind das etwa 4.300 "kaputte" Einheiten.
Was die Anbieter getan haben
OpenAI reagierte schnell: Bereits am 14. Februar 2023 erhielt ChatGPT einen Patch, der direkte Kollisionen mit bekannten Glitch-Token verhindert.
Beim Übergang von GPT-3 (r50k_base, ~50K Token) zu GPT-4 (cl100k_base, ~100K) und weiter zu GPT-4o (o200k_base, ~200K)
wurde das Vokabular komplett neu aufgebaut – alte Glitch-Token verschwanden.
Aber das Problem verschwand nicht mit ihnen. Die Untersuchung
neuer Glitch-Token in GPT-4
zeigte, dass jeder neue Tokenizer seinen eigenen Satz anomaler Token erzeugt.
Token wie ForCanBeConverted, YYSTACK, JSBracketAccess
wurden in cl100k_base gefunden und zeigen ein ähnliches unvorhersehbares Verhalten.
Dies deutet darauf hin, dass Glitch-Token eine systemische Eigenschaft des BPE-Ansatzes sind und kein einmaliger Bug.
Was ein Entwickler tun sollte
- ✔️ Testen Sie das Modell vor der Produktion auf Glitch-Token:
NVIDIA Garak –
ein Open-Source-Scanner für LLM-Schwachstellen, der ein spezielles Modul
probes.glitch zur automatischen Prüfung enthält.
- ✔️ Filtern Sie Eingabedaten: Wenn Ihr System beliebigen Text von Benutzern akzeptiert, fügen Sie eine Prüfung auf bekannte Glitch-Token in der Eingabepipeline hinzu.
- ✔️ Verwenden Sie GlitchMiner für eine tiefere Analyse:
GlitchMiner auf GitHub ermöglicht das Auffinden anomaler Token in jedem Modell mit zugänglichen Gewichten.
- ✔️ Überwachen Sie die Ausgabe: Protokollieren Sie Fälle, in denen das Modell untypisch antwortet – dies kann ein Zeichen für eine Kollision mit einem Glitch-Token sein.
Fazit: Glitch-Token sind keine theoretische Schwachstelle, sondern ein dokumentiertes systemisches Problem, das in allen großen Modellen vorhanden ist und mit jedem neuen Tokenizer reproduziert wird. Anbieter patchen bekannte Fälle, aber der BPE-Ansatz selbst erzeugt neue Anomalien. Für Produktionssysteme sollte das Testen auf Glitch-Token Teil der Sicherheits-Pipeline sein.
📌 6. Formatierung frisst Token
Wie Formatierung die Anzahl der Token beeinflusst
Leerzeichen, Einrückungen, Zeilenumbrüche, Klammern – all das wird tokenisiert. In Code mit Einrückungen kann die Tabulatorzeichen einen erheblichen Teil der Token der gesamten Datei ausmachen.
Markdown-Formatierung (Sterne, Rauten, Bindestriche) fügt ebenfalls Token hinzu. Dies wirkt sich direkt auf die Kosten einer API-Anfrage aus.
Jedes Leerzeichen in Ihrem Code ist potenziell ein Token, für das Sie bezahlen.
Studien zur Tokenisierung von Python-Code zeigen: Einrückungen, Leerzeichen und Sonderzeichen machen 15 bis 25 % der Gesamtzahl der Token in einer typischen Datei aus.
Für große Codebasen ist dies bei der Nutzung von APIs kein unerheblicher Geldbetrag.
Praktische Auswirkungen für Entwickler
- ✔️ Minimieren Sie Einrückungen in System-Prompts (4 Leerzeichen → 2 Leerzeichen oder Tabulator).
- ✔️ JSON ohne Zeilenumbrüche verbraucht weniger Token als "pretty-printed" JSON.
- ✔️ Markdown-Überschriften (###) und Listen (- item) fügen Token hinzu – vermeiden Sie sie in System-Prompts, wo sie nicht benötigt werden.
- ✔️ Wiederholende Muster (z. B. dasselbe Präfix in jedem Array-Element) werden von BPE effektiv komprimiert.
Prompt Caching – Wie man spart
Alle großen Anbieter (OpenAI, Anthropic, Google) unterstützen Prompt Caching:
Wenn das Präfix Ihres Prompts zwischen Anfragen nicht geändert wird, kostet die erneute Verarbeitung 80–90 % weniger.
Für Produkte mit einem großen System-Prompt ist dies der einfachste Weg, Kosten zu senken.
Mehr dazu in unserem Artikel über LLMs für Unternehmen.
Fazit des Abschnitts: Formatierung ist nicht kostenlos. Die Optimierung von Prompts unter Berücksichtigung von Token kann die Kosten um 15–30 % senken, ohne Qualitätsverlust.
💼 7. Wie viel kostet ein Token in der API 2026
Token-Preise im Jahr 2026
Die APIs von LLM-Anbietern rechnen separat für Input-Token (Ihre Anfrage) und Output-Token (Antwort des Modells) ab.
Output ist 3- bis 10-mal teurer, da die Generierung sequenziell und teurer ist als das parallele Lesen.
Im Jahr 2026 sind die Preise im Vergleich zu 2025 um etwa 80 % gesunken, dank des Wettbewerbs von DeepSeek und Open-Source-Modellen.
DeepSeek hat den Markt aufgemischt: Frontier-Qualität zu einem Preis, der vor einem Jahr noch unmöglich schien.
Aktuelle Preise für März 2026 (Quellen:
TLDL LLM API Pricing, März 2026,
CostGoat LLM Pricing,
PricePerToken.com):
Haupt- (Chat-) Modelle
| Modell |
Input ($/1M) |
Output ($/1M) |
Kontext |
Kommentar |
| GPT-5.4 (OpenAI) |
$2.50 |
$10.00 |
128K |
OpenAIs Flaggschiff, ersetzt GPT-4o |
| GPT-5 mini (OpenAI) |
$0.25 |
$2.00 |
128K |
Budget-Option für einfache Aufgaben |
| GPT-5 nano (OpenAI) |
$0.05 |
$0.40 |
128K |
Das Günstigste von OpenAI |
| Claude Sonnet 4.6 (Anthropic) |
$3.00 |
$15.00 |
200K |
Top für komplexe Anweisungen und Code |
| Claude Haiku 4.5 (Anthropic) |
$0.25 |
$1.25 |
200K |
Budget-Claude, aktualisierter Preis |
| Gemini 2.5 Pro (Google) |
$1.25 |
$10.00 |
1M |
Größter Kontext unter den Hauptmodellen |
| Gemini 2.5 Flash (Google) |
$0.30 |
$2.50 |
1M |
Hervorragendes Preis-Leistungs-Verhältnis |
| Gemini 2.0 Flash-Lite (Google) |
$0.075 |
$0.30 |
1M |
Das Günstigste unter den großen Anbietern |
| DeepSeek V3.2 |
$0.14 |
$0.28 |
128K |
Chat + Reasoning in einem Modell |
| Grok 3 mini (xAI) |
$0.30 |
$0.50 |
128K |
Bestes Output/Input-Verhältnis |
Reasoning-Modelle: Denken ist teurer
Reasoning-Modelle (o3, DeepSeek R1) generieren "thinking tokens" – interne Überlegungen, für die Sie ebenfalls bezahlen.
Das bedeutet, dass die Ausgabe für eine Reasoning-Aufgabe 5- bis 20-mal länger sein kann als die endgültige Antwort.
Mehr über Reasoning – in unserem Artikel (in Vorbereitung).
| Modell |
Input ($/1M) |
Output ($/1M) |
Anmerkung |
| O3 Pro (OpenAI) |
$150.00 |
$600.00 |
Das teuerste Modell auf dem Markt |
| O3 (OpenAI) |
$10.00 |
$40.00 |
Reasoning-Flaggschiff |
| DeepSeek R1 |
$0.55 |
$2.19 |
Reasoning zum Preis eines Chat-Modells |
Wie eine reale Anfrage berechnet wird
Stellen Sie sich vor: Sie senden einen System-Prompt (500 Token) + eine Frage (50 Token) und erhalten eine Antwort (200 Token).
Auf Claude Sonnet 4.6: (550 × $3.00 + 200 × $15.00) / 1 000 000 = ~$0.0047 pro Anfrage.
Bei 10.000 Anfragen pro Tag – $47/Tag oder ~$1.400/Monat.
Dieselbe Aufgabe auf DeepSeek V3.2: (550 × $0.14 + 200 × $0.28) / 1 000 000 = ~$0.00013 pro Anfrage.
Bei 10.000 Anfragen/Tag – $1.3/Tag oder ~$40/Monat. Der Unterschied – 35-mal.
Wichtig für nicht-lateinische Sprachen: Wenn Ihre Anfragen in Kyrillisch, Chinesisch oder Arabisch sind – multiplizieren Sie die Token mit einem Faktor von 2–4×
(siehe Abschnitt 4 über sprachliche Ungleichheit).
Dies erhöht Ihre Rechnung direkt – und macht die Wahl eines günstigeren Modells noch kritischer.
Wie man bei der API spart: 5 bewährte Methoden
- ✔️ Prompt Caching – Wenn sich der System-Prompt zwischen Anfragen nicht ändert, reduziert das Caching die Input-Kosten um 80–90 %. OpenAI, Anthropic und Google unterstützen diese Funktion.
DeepSeek bietet Cache Hits für $0.028/1M – das ist ein Rabatt von 90 % auf den Basispreis.
- ✔️ Batch API – Senden Sie nicht-interaktive Anfragen in Stapeln. Anthropic bietet 50 % Rabatt auf Batch-Anfragen, OpenAI – ähnlich.
- ✔️ Model Routing – Verwenden Sie ein günstiges Modell (Gemini Flash, DeepSeek V3.2) für einfache Anfragen und ein teureres (Claude Sonnet, GPT-5.4) nur für komplexe. Ein Router auf Basis eines Anfrageklassifikators kann 60–80 % sparen.
- ✔️ Komprimieren Sie Prompts – Entfernen Sie unnötige Formatierungen, minimieren Sie JSON, vermeiden Sie Wiederholungen im System-Prompt (mehr dazu in Abschnitt 6 über Formatierung).
- ✔️ Lokales KI – Für nicht-kritische Aufgaben kosten Ollama + ein Open-Source-Modell (Llama 4 Maverick, DeepSeek V3) $0/Monat für die API. Mehr dazu in unserem Artikel über Ollama.
Interaktive Rechner zur Kostenberechnung:
LangCopilot Token Calculator (41 Modelle, aktualisiert März 2026) und
LLM Pricing Calculator.
Detaillierte Kostenberechnung von KI für verschiedene Geschäftsszenarien – in unserem Artikel über KI-Kosten (in Vorbereitung).
Siehe auch LLM vs RAG: Die richtige Architektur kann die Anzahl der Token um eine Größenordnung reduzieren.
Fazit: Die Preise sind im letzten Jahr um ca. 80 % gefallen, aber der Unterschied zwischen den Modellen kann für dieselbe Aufgabe 35–100× betragen. Reasoning-Modelle sind aufgrund von "thinking tokens" um eine Größenordnung teurer. Für Produktionssysteme reduziert die Kombination aus Prompt Caching + Model Routing + Batch API die Kosten um das 5- bis 10-fache.
💼 8. Die Zukunft der Tokenisierung: SuperBPE, BoundlessBPE, BLT
Wohin sich die Tokenisierung bewegt
In den Jahren 2025–2026 entstanden mehrere konkurrierende Richtungen: Multi-Word-Tokens (SuperBPE, BoundlessBPE), Bereinigung bestehender Vokabulare (LiteToken) und die vollständige Abschaffung von Tokens zugunsten von Bytes (BLT von Meta).
Keiner hat BPE in der Produktion ersetzt, aber der Druck wächst.
BPE ist wie eine QWERTY-Tastatur: nicht optimal, aber alle sind daran gewöhnt. Es gibt Alternativen, der Übergang ist langsam.
SuperBPE und BoundlessBPE – Tokens mehr als ein Wort
Klassisches BPE verbindet niemals Tokens über Wortgrenzen hinweg: "New" und "York" bleiben immer getrennt.
Zwei neue Ansätze, die auf der Konferenz
COLM 2025 angenommen wurden, heben diese Einschränkung auf:
- ✔️ SuperBPE (Liu et al., 2025) – zweistufiges BPE: zuerst Standard-Subword-Training, dann eine zweite Stufe ohne Einschränkungen an Wortgrenzen. Ergebnis: 33 % weniger Tokens, +4,0 % durchschnittliche Verbesserung auf 30 Benchmarks und +8,2 % auf MMLU – nur durch bessere Tokenisierung
- ✔️ BoundlessBPE (Schmidt et al., 2025) – eine einstufige Variante, bei der häufige Phrasen ("of the", "machine learning") zu einem einzigen Token werden. Kompressionsverbesserung: bis zu 20 % mehr Bytes pro Token
LiteToken – Müll aus dem Vokabular entfernen
LiteToken (arXiv, Februar 2026) –
ein leichter Algorithmus zum Entfernen von "Zwischenfusionsresten" aus BPE-Vokabularen.
Dies sind Tokens, die während des Trainings in das Vokabular aufgenommen wurden, aber im realen Text nie eigenständig verwendet werden.
Für DeepSeek-V3 reduzierte LiteToken das 3-Gramm-Vokabular um ca. 22 % ohne erneutes Training des Modells – Plug-and-Play.
Kleineres Vokabular = weniger Parameter und geringeres Risiko von Glitch-Tokens (Abschnitt 5).
BLT von Meta – ganz ohne Tokenizer
Der radikalste Ansatz ist der Byte Latent Transformer (BLT, Meta AI).
Anstelle eines festen Vokabulars verarbeitet BLT Rohbytes und gruppiert sie dynamisch zu "Patches" basierend auf der Entropie des nächsten Bytes:
wo der Text vorhersagbar ist – ein großer Patch, wo er komplex ist – ein kleinerer.
In Tests bis zu 8B Parametern erreicht BLT die Qualität von Llama 3 bei halbierten Inference-FLOPs.
Der Hauptvorteil für mehrsprachige Aufgaben: Bytes sind für jede Sprache gleich, daher verschwindet das Problem der Sprachungleichheit (Abschnitt 4) auf Architekturebene.
Aber eine Nuance bleibt: UTF-8 kodiert lateinische Buchstaben mit 1 Byte und Kyrillisch mit 2, daher ist vollständige Gleichheit immer noch nicht garantiert.
Code und Gewichte: GitHub facebookresearch/blt.
Fazit: BPE herrscht noch, aber Alternativen zeigen bereits konkrete Ergebnisse: +8 % auf MMLU (SuperBPE), −22 % Vokabular (LiteToken), 2× weniger FLOPs (BLT). 2026–2027 könnten die Jahre des Übergangs werden – besonders wenn BLT seine Skalierbarkeit bei größeren Modellen beweist.
📌 9. Praxis: Überprüfen Sie Ihren Text
Der beste Weg, Tokens zu verstehen, ist, sie in Ihrem eigenen Text zu sehen. Hier sind die Werkzeuge:
Versuchen Sie, denselben Satz auf Ukrainisch und Englisch einzugeben und vergleichen Sie die Anzahl der Tokens – der Unterschied wird Sie überraschen.
❓ Häufig gestellte Fragen (FAQ)
Wie viele Tokens hat ein Wort?
Abhängig von der Sprache und der Häufigkeit des Wortes. Ein kurzes, häufiges englisches Wort ("the", "is", "cat") – 1 Token.
Ein langes oder seltenes – 2–3. Ein ukrainisches oder anderes kyrillisches Wort mittlerer Länge – 3–6 Tokens in den meisten Modellen.
Ein durchschnittlicher Token für Englisch entspricht etwa 4 Zeichen oder ¾ eines Wortes.
Warum zählt ChatGPT Tokens und nicht Wörter?
Wörter sind ein menschliches Konzept, das von der Sprache abhängt. Tokens sind die operative Einheit des neuronalen Netzes, unabhängig von jeder Grammatik.
Mit Tokens ist es einfacher, die Rechenkosten zu zählen, das Kontextfenster zu verwalten und Modelle miteinander zu vergleichen.
Was ist ein Glitch-Token und ist es gefährlich für meine Anwendung?
Ein Glitch-Token ist ein Token aus dem Vokabular, für das das Modell kein normales Verhalten hat (untertrainiertes Embedding-Gewicht).
Für eine normale Chat-Anwendung ist das Risiko minimal – Benutzer geben solche Zeichenfolgen selten ein.
Aber für Sicherheitssysteme, Klassifikatoren und alles, wo die Eingabe nicht kontrolliert wird – es lohnt sich, auf bekannte Glitch-Tokens zu testen.
Werkzeug: GlitchMiner auf GitHub.
Wie kann ich die Anzahl der Tokens in einer Anfrage reduzieren?
Die effektivsten Methoden: unnötige Formatierungen entfernen (Einrückungen, Markdown, wo nicht benötigt), JSON komprimieren (ohne Pretty-Print), überflüssige Wiederholungen im System-Prompt entfernen, Prompt-Caching für unveränderliche Teile verwenden.
Für Code – Kommentare und Leerzeilen minimieren, wo immer möglich.
Kosten Input- und Output-Tokens gleich?
Nein. Output-Tokens sind je nach Anbieter 3- bis 10-mal teurer, da die Generierung sequenziell ist (jeder Token hängt vom vorherigen ab) und mehr GPU-Zeit erfordert.
Zum Beispiel bei Claude Sonnet 4.6: Input – 3 $/1M, Output – 15 $/1M (5x Unterschied).
Bei GPT-4o: Input – 2,50 $/1M, Output – 10 $/1M (4x Unterschied).
Was kommt nach BPE?
Die vielversprechendste Richtung sind Byte-Modelle wie BLT von Meta, die überhaupt keinen Tokenizer benötigen.
Aber bisher bleibt BPE der Standard in allen Top-Modellen. Der Übergang, falls er stattfindet, wird mehrere Jahre dauern, nachdem die Skalierbarkeit bewiesen wurde.
✅ Schlussfolgerungen
- 🔹 Ein Token ist kein Wort und kein Symbol, sondern eine statistische Einheit der Häufigkeit. Alle LLMs – ChatGPT, Claude, Gemini – sehen Ihren Text als Zahlenfolge.
- 🔹 BPE erstellt ein Vokabular durch iteratives Zusammenführen häufiger Paare – effizient für Englisch, teuer für Kyrillisch (x3–4).
- 🔹 ~4,3 % der Tokens in den Vokabularen von GPT-4, Llama 2 und DeepSeek sind potenzielle Glitch-Tokens, die unvorhersehbares Verhalten verursachen (GlitchMiner, AAAI 2026).
- 🔹 API-Preise sind im letzten Jahr um ~80 % gefallen: von 10 $/1M (2025) auf 0,14–2,50 $/1M (2026). Die Wahl des Modells kann im Preis um das 20-fache variieren.
- 🔹 Die Zukunft – BLT von Meta (ganz ohne Tokenizer) und LiteToken (saubereres BPE), aber BPE dominiert noch einige Jahre.
Hauptgedanke:
Tokens sind das Fundament, auf dem alles steht: das Kontextfenster, die API-Kosten, die Qualität der Arbeit mit nicht-lateinischen Sprachen und sogar die Systemsicherheit. Sie zu verstehen bedeutet zu verstehen, was tatsächlich im Inneren der KI geschieht.
Lesen Sie auch in der Serie "Wie LLMs funktionieren":