Künstliche Intelligenz hat gelernt, Code schneller zu schreiben, als Menschen ihn überprüfen können. Die Warteschlange für Code-Reviews hat sich auf mehrere Tage verlängert, und die Qualität der Überprüfungen ist gesunken – einfach weil es physisch nicht genügend Reviewer gibt.
Spoiler: Anthropic hat beschlossen, den Review-Prozess selbst zu automatisieren: Das neue Tool Claude Code Review startet fünf parallele KI-Agenten, die Fehler finden, noch bevor der Code von einem Menschen gesehen wird.
⚡ Kurz gesagt
- ✅ Problem: KI generiert mehr Code, als Entwickler manuell überprüfen können
- ✅ Lösung: Fünf parallele Agenten suchen gleichzeitig nach verschiedenen Fehlerklassen
- ✅ Ergebnis bei Anthropic: Der Anteil sorgfältig geprüfter Pull-Requests stieg von 16% auf 54%
- 🎯 Sie erfahren: Wie es funktioniert, wie viel es kostet und wie die Konkurrenz reagiert
- 👇 Unten – Details, Zahlen und Marktkontext
📚 Artikelinhalt
🎯 Warum es entstand: KI erzeugt zu viel Code
Warum Reviews zum Engpass wurden
Tools wie GitHub Copilot und Claude Code ermöglichen es einem Entwickler
Code dreimal schneller zu generieren – und innerhalb von Anthropic stieg die Produktivität noch
stärker: Der Code-Output pro Ingenieur erhöhte sich pro Jahr um 200%.
Doch die Überprüfung dieses Codes müssen Menschen im gleichen Tempo wie zuvor durchführen. Die Warteschlange für
Reviews wurde zu einem Flaschenhals, der den gesamten Entwicklungszyklus verlangsamt.
„Wenn Ingenieure die Hürde für die Erstellung neuer Features senken, steigt die Nachfrage nach Reviews drastisch
an“ – Cat Wu, Head of Product Claude Code, Anthropic
(TechCrunch).
Stellen Sie sich ein Fließband in einer Fabrik vor: Die Maschinen wurden doppelt so schnell, aber die Qualitätskontrolle
blieb dieselbe. Früher oder später wird das Lager mit ungeprüften Teilen überfüllt sein.
Genau das passiert derzeit in der Softwareentwicklung weltweit.
Warum manuelle Reviews nicht mehr skalieren
Mit KI-Assistenten schreiben Entwickler Code 3–4 Mal schneller als noch vor zwei Jahren.
Reviewer können physisch jedoch nur etwa so viel qualitativ überprüfen wie zuvor.
Das Ergebnis ist entweder eine Warteschlange oder oberflächliche „Querlesen“-Reviews. Vor dem Start
von Claude Code Review erhielten nur 16% der Pull-Requests
bei Anthropic aussagekräftige Kommentare von Reviewern.
Praxisbeispiel
Große Technologieunternehmen – Uber, Salesforce, Accenture – sind bereits mit diesem Problem konfrontiert.
Sie nutzen Claude Code zur Codegenerierung und suchen gleichzeitig nach Wegen, dessen Überprüfung zu automatisieren.
Genau ihre Nachfrage beschleunigte die Einführung von Claude Code Review: Laut Cat Wu entstand das Produkt
aufgrund der „enormen Marktnachfrage“ von Enterprise-Kunden.
- ✔️ KI hat die Geschwindigkeit des Codierens um das 3–4-fache erhöht, bei Anthropic um 200% pro Jahr
- ✔️ Die Durchsatzkapazität menschlicher Reviews blieb unverändert
- ✔️ Der Engpass verlagerte sich vom Schreiben zur Überprüfung
Fazit: Claude Code Review ist die Antwort auf ein spezifisches und
schmerzhaftes Problem, das gerade durch den Erfolg der KI-Codegenerierung entstanden ist.
📌 Wie Code Review funktioniert: Fünf Agenten statt einem
Parallele Überprüfung statt sequenzieller
Anstatt dass ein Agent den gesamten Code sequenziell durchliest, startet Claude Code Review
mehrere spezialisierte Agenten gleichzeitig. Jeder sucht nach seiner Problemklasse.
Anschließend werden die Ergebnisse zusammengeführt, Duplikate entfernt und die Funde nach
Kritikalität geordnet – und dem Reviewer als ein strukturierter Kommentar in GitHub präsentiert.
Das Tool findet Fehler, noch bevor der Code von einem menschlichen Reviewer gesehen wird – und
genau darin liegt sein Hauptwert
(
Anthropic).
Das Funktionsprinzip ähnelt der Arbeitsweise in großen Unternehmen, wo mehrere Teams parallel
an einem Produkt arbeiten: eines prüft die Sicherheit, ein anderes die Performance, ein drittes die
Einhaltung der Codestandards. Claude Code Review tut dasselbe, aber automatisch.
Was intern geschieht
Nach dem Öffnen eines Pull-Requests startet das System parallele Agenten – jeder
spezialisiert auf seinen Fehlertyp: logische Bugs, Sicherheitslücken, Performance-Probleme.
Anschließend erfolgt ein Verifizierungsschritt, der Fehlalarme aussortiert.
Die Funde werden farblich markiert:
Rot – kritisch, Gelb – sollte überprüft werden,
Violett – Problem existiert im alten Code neben den Änderungen.
Der Reviewer sieht einen zusammenfassenden Kommentar + Inline-Annotationen zu spezifischen Zeilen.
Überzeugende Zahlen
Der Effekt skaliert mit der Größe des PR. Bei großen Änderungen (1000+ Codezeilen)
84% der Überprüfungen finden reale Probleme, durchschnittlich 7,5 Issues
pro PR. Bei kleinen PRs (weniger als 50 Zeilen) – 31% der Überprüfungen liefern Kommentare.
Dabei lehnen Entwickler weniger als 1% der Funde als irrelevant ab – ein Genauigkeitswert,
mit dem sich kein klassischer Linter rühmen kann.
Wichtiges Detail: Agenten ersetzen den Menschen nicht
Agenten genehmigen oder lehnen Pull-Requests nicht ab – das bleibt dem Menschen überlassen.
Cat Wu erklärt dies so: Das Tool konzentriert sich ausschließlich auf logische Fehler und
nicht auf den Codestil – „damit Entwickler nur das erhalten, worauf sofort reagiert werden sollte“.
Der Reviewer verbringt seine Zeit mit Lösungen, nicht mit der Problemsuche.
- ✔️ Durchschnittliche Überprüfungszeit – etwa 20 Minuten
- ✔️ Der Anteil sorgfältig geprüfter PRs innerhalb von Anthropic stieg von 16% auf 54%
- ✔️ 84% der großen PRs (1000+ Zeilen) erhalten aussagekräftige Findings
- ✔️ Weniger als 1% der Funde werden als falsch abgelehnt – das letzte Wort hat immer der Mensch
Fazit: Die Multi-Agenten-Architektur löst das Hauptproblem – sie
skaliert mit der Code-Menge, während menschliche Reviews dies nicht tun.
💡
Möchten Sie tiefer eintauchen? Im nächsten Artikel –
die Architektur von innen: wie die Parallelität funktioniert, wie sie sich
von SonarQube und ESLint unterscheidet und wie viel Token beim Skalieren kosten.
Unter der Haube von Claude Code Review: Wie die Multi-Agenten-Architektur Code-Reviews verändert
📌 Was es kostet und wem es zur Verfügung steht
Kurze Antwort: $15–25 pro Überprüfung, nur für Enterprise
Die Kosten für ein Review betragen je nach Codeumfang zwischen $15 und $25 – der Preis
ist tokenbasiert, d.h. ein größerer PR kostet mehr. Das Tool ist als Research Preview
für Kunden von Claude for Teams und Claude for Enterprise verfügbar.
Für kleine Unternehmen und einzelne Entwickler ist es vorerst nicht verfügbar.
Cat Wu sagt direkt: „This product is very much targeted towards our
larger scale enterprise users“ – Unternehmen wie Uber, Salesforce,
Accenture, die bereits Claude Code nutzen und nun Hilfe bei dem von ihm generierten
PR-Fluss benötigen
(TechCrunch).
Es gibt auch eine Annehmlichkeit für Administratoren: Teamleiter können Code Review
sofort für das gesamte Team aktivieren – und es wird automatisch bei jedem PR gestartet.
Es kann auch ein monatliches Ausgabenlimit festgelegt werden, um die Kosten vorhersehbar zu machen.
Teuer oder günstig: Der richtige Vergleich
Die Kosten von $15–25 mit CodeRabbit ($12/Monat pro Benutzer) oder dem
kostenlosen GitHub Copilot zu vergleichen, ist der falsche Blickwinkel, sagt Anthropic.
Der richtige Vergleich ist mit den Kosten eines Produktionsvorfalls.
Innerhalb von Anthropic hat das Tool bereits einen echten Bug gefangen:
Eine harmlose Änderung in einer Zeile hätte den Authentifizierungsmechanismus
des gesamten Dienstes zerstören sollen. Ein solcher Fehler in der Produktion
kostet mehr als einen Monat Code Review.
- ✔️ Preis: $15–25 pro Überprüfung, tokenbasiertes Modell
- ✔️ Zugang: Research Preview für Teams- und Enterprise-Kunden
- ✔️ Monatliches Ausgabenlimit zur Budgetkontrolle vorhanden
- ✔️ Erste Kunden: Uber, Salesforce, Accenture
- ✔️ Claude Code Run-Rate-Umsatz überstieg $2,5 Mrd. seit dem Start
📌 Was Anthropic dazu sagt
Tiefe, nicht Geschwindigkeit – und das ist eine bewusste Entscheidung
Anthropic positioniert Code Review als Werkzeug für tiefgehende Analyse, nicht
für schnelles Feedback. Das Produkt durchlief Monate interner Tests vor dem
öffentlichen Start am 9. März 2026. Das Unternehmen hat den Fokus bewusst
eingeschränkt: nur logische Fehler, kein Stil.
«We decided we're going to focus purely on logic errors. This way we're catching
the highest priority things to fix» – Cat Wu, Head of Product Claude Code
(TechCrunch).
Die Erklärung ist einfach: Entwickler haben längst gelernt, automatisierte
Tools zu ignorieren, die sie mit Kommentaren zu Einzügen und Variablennamen überhäufen.
Wenn ein Tool zu viel Lärm macht, wird es ausgeschaltet. Anthropic hat beschlossen,
anders zu spielen: weniger Kommentare, aber jeder davon – umsetzbar.
Vom internen Test zum Produkt
Vor dem Start testete Anthropic Code Review monatelang an eigenen Prozessen.
Das Ergebnis: Der Anteil sorgfältig geprüfter PRs stieg von 16% auf 54%. Während des
Tests fing das Tool einen echten Bug: Ein Entwickler änderte eine Zeile
in einem Produktionsdienst, und genau diese „unschuldige“ Korrektur hätte den
Authentifizierungsmechanismus brechen sollen. Ein menschlicher Reviewer hätte dies übersehen.
Der Agent nicht.
Anpassung an das Team
Teams können ihre eigenen Überprüfungsregeln über die Datei CLAUDE.md konfigurieren –
projektspezifische Standards hinzufügen, auf die die Agenten achten sollen.
Dies macht das Tool an den spezifischen Stack und die Teamkultur anpassbar, anstatt
nur einen universellen Regelsatz zu bieten.
- ✔️ Start: 9. März 2026, Research Preview
- ✔️ Fokus: ausschließlich logische Fehler, kein Stil
- ✔️ Internes Ergebnis: 16% → 54% sorgfältiger Reviews
- ✔️ Anpassung: CLAUDE.md-Datei für eigene Regeln
Anthropic: Anthropic hat bewusst Breite
zugunsten von Tiefe geopfert – und interne Daten bestätigen, dass diese Wette gerechtfertigt ist.
📌 Der Markt reagiert: OpenAI und GitHub Copilot schlafen nicht
GitHub Copilot führt bereits Reviews durch – aber anders
GitHub Copilot Code Review existiert und hat bereits über 60 Millionen Reviews gesammelt.
Aber sein Ansatz ist anders: schneller und breiter, nicht unbedingt tiefer. Anthropic
und GitHub haben unterschiedliche Nischen desselben Marktes besetzt – und beide Nischen sind real.
Der Unterschied zwischen den Akteuren liegt nicht darin, ob Reviews automatisiert werden sollen, sondern darin,
wie tief, wie schnell und zu welchem Preis.
GitHub Copilot Code Review ist nicht mehr nur eine IDE-Vorschlagshilfe.
Laut GitHub hat das Tool bis Anfang 2026
über 60 Millionen Reviews durchgeführt und in 71% davon umsetzbare Kommentare hinterlassen.
Copilot kann bereits ein ganzes Repository auf Kontext analysieren, integriert sich mit
CodeQL und ESLint, und das Wichtigste – für viele Teams ist es bereits im Abonnementpreis enthalten.
Wo liegt der Wettbewerbsvorteil von Anthropic
Der Hauptunterschied liegt in der Tiefe und dem Fokus. Claude Code Review benötigt in
durchschnittlich 20 Minuten pro PR und konzentriert sich auf große, komplexe Änderungen:
Bei PRs mit über 1000 Zeilen findet es in 84% der Fälle Probleme. Copilot ist schneller
(Sekunden statt Minuten), positioniert sich aber als „erster Durchlauf“ und nicht
als tiefgehende Analyse. Die Frage, die der Markt entscheiden wird: Ist die Tiefe $15–25
pro Review wert, wenn Copilot bereits im Abonnement enthalten ist?
Ein ehrlicher Blick auf die Einschränkungen
Claude Code Review hat derzeit noch erhebliche Einschränkungen: Integration nur mit GitHub
(kein GitLab, kein Bitbucket), nur für Teams und Enterprise verfügbar –
individuelle Entwickler und kleine Teams sind vorerst ausgeschlossen. Und noch eine Ironie:
Früher fanden Sicherheitsforscher kritische Schwachstellen in Claude Code selbst.
Ein Tool, das Code überprüft, ist selbst nicht vor Bugs gefeit.
- ✔️ GitHub Copilot: 60+ Mio. Reviews, 71% mit umsetzbaren Kommentaren, im Abonnement enthalten
- ✔️ Claude Code Review: tiefere Analyse, 20 Min. pro PR, $15–25, nur GitHub
- ✔️ OpenAI Codex: Agenten-Tools entwickeln sich, direkter Review-Analog fehlt noch
- ⚠️ Einschränkungen: nur GitHub, nur Teams/Enterprise, Research Preview
Anthropic und GitHub Copilot: – keine direkten
Konkurrenten, sondern unterschiedliche Ansätze: der eine setzt auf Tiefe und Enterprise, der andere auf Skalierung
und Integration in den bereits vertrauten Workflow.
❓ Häufig gestellte Fragen (FAQ)
Wird Claude Code Review menschliche Reviewer ersetzen?
Nein, zumindest nicht jetzt. Agenten können Pull-Requests nicht genehmigen oder ablehnen – das bleibt dem Menschen überlassen. Das Tool übernimmt die routinemäßige Problemsuche, während sich der Reviewer auf Lösungen und architektonische Fragen konzentriert.
Ist das Tool für kleine Teams geeignet?
Bei $15–25 pro Review – wahrscheinlich nicht, wenn Sie 2–3 Entwickler und 5 PRs pro Woche haben. Die Einsparungen ergeben sich bei Skalierung: Dutzende PRs täglich, aktive Nutzung von KI zur Codegenerierung, große Teams.
Welche Programmiersprachen werden unterstützt?
Anthropic veröffentlicht keine vollständige Liste, aber Claude Code funktioniert traditionell gut mit Python, JavaScript, TypeScript, Go und den wichtigsten Webentwicklungssprachen. Für spezifische Unternehmenssprachen kann die Unterstützung begrenzt sein.
Wie sicher ist es, Code an externe KI zu übermitteln?
Dies ist eine berechtigte Frage, die gestellt werden sollte. Anthropic bietet vertragliche Vertraulichkeitsbedingungen für Unternehmen an, aber jedes Unternehmen muss die Risiken gemäß seinen Sicherheitsanforderungen und seiner Gerichtsbarkeit selbst bewerten.
✅ Fazit
- 🔹 Die KI-Codegenerierung hat ein neues Problem geschaffen – menschliche Reviews können nicht mithalten, und Claude Code Review ist der erste Versuch, dies systematisch zu lösen
- 🔹 Die Multi-Agenten-Architektur mit parallelen Überprüfungen erhöhte den Anteil sorgfältig geprüfter PRs innerhalb von Anthropic von 16% auf 54%
- 🔹 Der Preis von $15–25 pro Review ist für große Teams gerechtfertigt, aber für kleine Unternehmen noch hoch
- 🔹 Anthropic besetzt eine neue Nische – die tiefgehende Post-Factum-Analyse von PRs – und konkurriert nicht direkt mit GitHub Copilot
Hauptgedanke:
Claude Code Review ist kein Tool, um Reviewer loszuwerden, sondern ein Tool, damit Reviewer mit dem Tempo mithalten können, das die KI selbst vorgibt.