Що таке multi-agent перевірка коду від Anthropic?

Multi-agent перевірка коду — це система, у якій кілька AI-агентів одночасно аналізують програмний код. Кожен агент перевіряє різні аспекти: помилки, безпеку, стиль або логіку програми. Після цього результати об’єднуються у фінальний звіт для розробника.

Як працює multi-agent code review?

У такій системі кілька AI-агентів отримують один і той самий код і аналізують його паралельно. Кожен агент може спеціалізуватися на певному типі перевірки — наприклад, пошуку багів, перевірці безпеки або оптимізації. Потім результати об’єднуються, щоб сформувати більш точний аналіз.

Навіщо розробникам multi-agent перевірка коду?

Multi-agent перевірка допомагає швидше знаходити помилки, покращувати якість коду та автоматизувати частину процесу code review. Це особливо актуально зараз, коли багато коду генерується за допомогою AI і потребує додаткової перевірки.

Чи може AI повністю замінити code review розробників?

AI може значно прискорити перевірку коду і допомогти знайти технічні помилки, але він не повністю замінює досвідчених розробників. Люди все ще потрібні для оцінки архітектури, бізнес-логіки та складних дизайнерських рішень у програмному забезпеченні.

Чому multi-agent підхід стає популярним у AI-розробці?

Multi-agent системи дозволяють розподілити складні завдання між кількома AI-моделями. Це підвищує точність аналізу, дозволяє спеціалізувати агентів на різних задачах і робить результати більш надійними у порівнянні з одним AI.

NEWS 11 März 2026 9 Min. Lesezeit 995 Aufruf

Anthropic hat Multi-Agenten-Code-Review gestartet: Was das für Entwickler bedeutet

Aktualisiert: 21 March 2026

Sprache: 🇺🇦 🇺🇸 🇩🇪 🇪🇸

Vadim Kharovyuk

CEO & Founder of WebsCraft. 8 years in web development, focused on bringing AI into real products.

Anthropic hat Multi-Agenten-Code-Review gestartet: Was das für Entwickler bedeutet

Künstliche Intelligenz hat gelernt, Code schneller zu schreiben, als Menschen ihn überprüfen können. Die Warteschlange für Code-Reviews hat sich auf mehrere Tage verlängert, und die Qualität der Überprüfungen ist gesunken – einfach weil es physisch nicht genügend Reviewer gibt. Spoiler: Anthropic hat beschlossen, den Review-Prozess selbst zu automatisieren: Das neue Tool Claude Code Review startet fünf parallele KI-Agenten, die Fehler finden, noch bevor der Code von einem Menschen gesehen wird.

⚡ Kurz gesagt

✅ Problem: KI generiert mehr Code, als Entwickler manuell überprüfen können
✅ Lösung: Fünf parallele Agenten suchen gleichzeitig nach verschiedenen Fehlerklassen
✅ Ergebnis bei Anthropic: Der Anteil sorgfältig geprüfter Pull-Requests stieg von 16% auf 54%
🎯 Sie erfahren: Wie es funktioniert, wie viel es kostet und wie die Konkurrenz reagiert
👇 Unten – Details, Zahlen und Marktkontext

📚 Artikelinhalt

📌 Warum es entstand: KI erzeugt zu viel Code
📌 Wie Code Review funktioniert: Fünf Agenten statt einem
📌 Was es kostet und wem es zur Verfügung steht
📌 Was Anthropic dazu sagt
📌 Der Markt reagiert: OpenAI und GitHub Copilot schlafen nicht
❓ Häufig gestellte Fragen (FAQ)
✅ Fazit

🎯 Warum es entstand: KI erzeugt zu viel Code

Warum Reviews zum Engpass wurden

Tools wie GitHub Copilot und Claude Code ermöglichen es einem Entwickler Code dreimal schneller zu generieren – und innerhalb von Anthropic stieg die Produktivität noch stärker: Der Code-Output pro Ingenieur erhöhte sich pro Jahr um 200%. Doch die Überprüfung dieses Codes müssen Menschen im gleichen Tempo wie zuvor durchführen. Die Warteschlange für Reviews wurde zu einem Flaschenhals, der den gesamten Entwicklungszyklus verlangsamt.

„Wenn Ingenieure die Hürde für die Erstellung neuer Features senken, steigt die Nachfrage nach Reviews drastisch an“ – Cat Wu, Head of Product Claude Code, Anthropic (TechCrunch).

Stellen Sie sich ein Fließband in einer Fabrik vor: Die Maschinen wurden doppelt so schnell, aber die Qualitätskontrolle blieb dieselbe. Früher oder später wird das Lager mit ungeprüften Teilen überfüllt sein. Genau das passiert derzeit in der Softwareentwicklung weltweit.

Warum manuelle Reviews nicht mehr skalieren

Mit KI-Assistenten schreiben Entwickler Code 3–4 Mal schneller als noch vor zwei Jahren. Reviewer können physisch jedoch nur etwa so viel qualitativ überprüfen wie zuvor. Das Ergebnis ist entweder eine Warteschlange oder oberflächliche „Querlesen“-Reviews. Vor dem Start von Claude Code Review erhielten nur 16% der Pull-Requests bei Anthropic aussagekräftige Kommentare von Reviewern.

Praxisbeispiel

Große Technologieunternehmen – Uber, Salesforce, Accenture – sind bereits mit diesem Problem konfrontiert. Sie nutzen Claude Code zur Codegenerierung und suchen gleichzeitig nach Wegen, dessen Überprüfung zu automatisieren. Genau ihre Nachfrage beschleunigte die Einführung von Claude Code Review: Laut Cat Wu entstand das Produkt aufgrund der „enormen Marktnachfrage“ von Enterprise-Kunden.

✔️ KI hat die Geschwindigkeit des Codierens um das 3–4-fache erhöht, bei Anthropic um 200% pro Jahr
✔️ Die Durchsatzkapazität menschlicher Reviews blieb unverändert
✔️ Der Engpass verlagerte sich vom Schreiben zur Überprüfung

Fazit: Claude Code Review ist die Antwort auf ein spezifisches und schmerzhaftes Problem, das gerade durch den Erfolg der KI-Codegenerierung entstanden ist.

📌 Wie Code Review funktioniert: Fünf Agenten statt einem

Parallele Überprüfung statt sequenzieller

Anstatt dass ein Agent den gesamten Code sequenziell durchliest, startet Claude Code Review mehrere spezialisierte Agenten gleichzeitig. Jeder sucht nach seiner Problemklasse. Anschließend werden die Ergebnisse zusammengeführt, Duplikate entfernt und die Funde nach Kritikalität geordnet – und dem Reviewer als ein strukturierter Kommentar in GitHub präsentiert.

Das Tool findet Fehler, noch bevor der Code von einem menschlichen Reviewer gesehen wird – und genau darin liegt sein Hauptwert ( Anthropic).

Das Funktionsprinzip ähnelt der Arbeitsweise in großen Unternehmen, wo mehrere Teams parallel an einem Produkt arbeiten: eines prüft die Sicherheit, ein anderes die Performance, ein drittes die Einhaltung der Codestandards. Claude Code Review tut dasselbe, aber automatisch.

Was intern geschieht

Nach dem Öffnen eines Pull-Requests startet das System parallele Agenten – jeder spezialisiert auf seinen Fehlertyp: logische Bugs, Sicherheitslücken, Performance-Probleme. Anschließend erfolgt ein Verifizierungsschritt, der Fehlalarme aussortiert. Die Funde werden farblich markiert: Rot – kritisch, Gelb – sollte überprüft werden, Violett – Problem existiert im alten Code neben den Änderungen. Der Reviewer sieht einen zusammenfassenden Kommentar + Inline-Annotationen zu spezifischen Zeilen.

Überzeugende Zahlen

Der Effekt skaliert mit der Größe des PR. Bei großen Änderungen (1000+ Codezeilen) 84% der Überprüfungen finden reale Probleme, durchschnittlich 7,5 Issues pro PR. Bei kleinen PRs (weniger als 50 Zeilen) – 31% der Überprüfungen liefern Kommentare. Dabei lehnen Entwickler weniger als 1% der Funde als irrelevant ab – ein Genauigkeitswert, mit dem sich kein klassischer Linter rühmen kann.

Wichtiges Detail: Agenten ersetzen den Menschen nicht

Agenten genehmigen oder lehnen Pull-Requests nicht ab – das bleibt dem Menschen überlassen. Cat Wu erklärt dies so: Das Tool konzentriert sich ausschließlich auf logische Fehler und nicht auf den Codestil – „damit Entwickler nur das erhalten, worauf sofort reagiert werden sollte“. Der Reviewer verbringt seine Zeit mit Lösungen, nicht mit der Problemsuche.

✔️ Durchschnittliche Überprüfungszeit – etwa 20 Minuten
✔️ Der Anteil sorgfältig geprüfter PRs innerhalb von Anthropic stieg von 16% auf 54%
✔️ 84% der großen PRs (1000+ Zeilen) erhalten aussagekräftige Findings
✔️ Weniger als 1% der Funde werden als falsch abgelehnt – das letzte Wort hat immer der Mensch

Fazit: Die Multi-Agenten-Architektur löst das Hauptproblem – sie skaliert mit der Code-Menge, während menschliche Reviews dies nicht tun.

💡 Möchten Sie tiefer eintauchen? Im nächsten Artikel – die Architektur von innen: wie die Parallelität funktioniert, wie sie sich von SonarQube und ESLint unterscheidet und wie viel Token beim Skalieren kosten. Unter der Haube von Claude Code Review: Wie die Multi-Agenten-Architektur Code-Reviews verändert

📌 Was es kostet und wem es zur Verfügung steht

Kurze Antwort: $15–25 pro Überprüfung, nur für Enterprise

Die Kosten für ein Review betragen je nach Codeumfang zwischen $15 und $25 – der Preis ist tokenbasiert, d.h. ein größerer PR kostet mehr. Das Tool ist als Research Preview für Kunden von Claude for Teams und Claude for Enterprise verfügbar. Für kleine Unternehmen und einzelne Entwickler ist es vorerst nicht verfügbar.

Cat Wu sagt direkt: „This product is very much targeted towards our larger scale enterprise users“ – Unternehmen wie Uber, Salesforce, Accenture, die bereits Claude Code nutzen und nun Hilfe bei dem von ihm generierten PR-Fluss benötigen (TechCrunch).

Es gibt auch eine Annehmlichkeit für Administratoren: Teamleiter können Code Review sofort für das gesamte Team aktivieren – und es wird automatisch bei jedem PR gestartet. Es kann auch ein monatliches Ausgabenlimit festgelegt werden, um die Kosten vorhersehbar zu machen.

Teuer oder günstig: Der richtige Vergleich

Die Kosten von $15–25 mit CodeRabbit ($12/Monat pro Benutzer) oder dem kostenlosen GitHub Copilot zu vergleichen, ist der falsche Blickwinkel, sagt Anthropic. Der richtige Vergleich ist mit den Kosten eines Produktionsvorfalls. Innerhalb von Anthropic hat das Tool bereits einen echten Bug gefangen: Eine harmlose Änderung in einer Zeile hätte den Authentifizierungsmechanismus des gesamten Dienstes zerstören sollen. Ein solcher Fehler in der Produktion kostet mehr als einen Monat Code Review.

✔️ Preis: $15–25 pro Überprüfung, tokenbasiertes Modell
✔️ Zugang: Research Preview für Teams- und Enterprise-Kunden
✔️ Monatliches Ausgabenlimit zur Budgetkontrolle vorhanden
✔️ Erste Kunden: Uber, Salesforce, Accenture
✔️ Claude Code Run-Rate-Umsatz überstieg $2,5 Mrd. seit dem Start

📌 Was Anthropic dazu sagt

Tiefe, nicht Geschwindigkeit – und das ist eine bewusste Entscheidung

Anthropic positioniert Code Review als Werkzeug für tiefgehende Analyse, nicht für schnelles Feedback. Das Produkt durchlief Monate interner Tests vor dem öffentlichen Start am 9. März 2026. Das Unternehmen hat den Fokus bewusst eingeschränkt: nur logische Fehler, kein Stil.

«We decided we're going to focus purely on logic errors. This way we're catching the highest priority things to fix» – Cat Wu, Head of Product Claude Code (TechCrunch).

Die Erklärung ist einfach: Entwickler haben längst gelernt, automatisierte Tools zu ignorieren, die sie mit Kommentaren zu Einzügen und Variablennamen überhäufen. Wenn ein Tool zu viel Lärm macht, wird es ausgeschaltet. Anthropic hat beschlossen, anders zu spielen: weniger Kommentare, aber jeder davon – umsetzbar.

Vom internen Test zum Produkt

Vor dem Start testete Anthropic Code Review monatelang an eigenen Prozessen. Das Ergebnis: Der Anteil sorgfältig geprüfter PRs stieg von 16% auf 54%. Während des Tests fing das Tool einen echten Bug: Ein Entwickler änderte eine Zeile in einem Produktionsdienst, und genau diese „unschuldige“ Korrektur hätte den Authentifizierungsmechanismus brechen sollen. Ein menschlicher Reviewer hätte dies übersehen. Der Agent nicht.

Anpassung an das Team

Teams können ihre eigenen Überprüfungsregeln über die Datei CLAUDE.md konfigurieren – projektspezifische Standards hinzufügen, auf die die Agenten achten sollen. Dies macht das Tool an den spezifischen Stack und die Teamkultur anpassbar, anstatt nur einen universellen Regelsatz zu bieten.

✔️ Start: 9. März 2026, Research Preview
✔️ Fokus: ausschließlich logische Fehler, kein Stil
✔️ Internes Ergebnis: 16% → 54% sorgfältiger Reviews
✔️ Anpassung: CLAUDE.md-Datei für eigene Regeln

Anthropic: Anthropic hat bewusst Breite zugunsten von Tiefe geopfert – und interne Daten bestätigen, dass diese Wette gerechtfertigt ist.

📌 Der Markt reagiert: OpenAI und GitHub Copilot schlafen nicht

GitHub Copilot führt bereits Reviews durch – aber anders

GitHub Copilot Code Review existiert und hat bereits über 60 Millionen Reviews gesammelt. Aber sein Ansatz ist anders: schneller und breiter, nicht unbedingt tiefer. Anthropic und GitHub haben unterschiedliche Nischen desselben Marktes besetzt – und beide Nischen sind real.

Der Unterschied zwischen den Akteuren liegt nicht darin, ob Reviews automatisiert werden sollen, sondern darin, wie tief, wie schnell und zu welchem Preis.

GitHub Copilot Code Review ist nicht mehr nur eine IDE-Vorschlagshilfe. Laut GitHub hat das Tool bis Anfang 2026 über 60 Millionen Reviews durchgeführt und in 71% davon umsetzbare Kommentare hinterlassen. Copilot kann bereits ein ganzes Repository auf Kontext analysieren, integriert sich mit CodeQL und ESLint, und das Wichtigste – für viele Teams ist es bereits im Abonnementpreis enthalten.

Wo liegt der Wettbewerbsvorteil von Anthropic

Der Hauptunterschied liegt in der Tiefe und dem Fokus. Claude Code Review benötigt in durchschnittlich 20 Minuten pro PR und konzentriert sich auf große, komplexe Änderungen: Bei PRs mit über 1000 Zeilen findet es in 84% der Fälle Probleme. Copilot ist schneller (Sekunden statt Minuten), positioniert sich aber als „erster Durchlauf“ und nicht als tiefgehende Analyse. Die Frage, die der Markt entscheiden wird: Ist die Tiefe $15–25 pro Review wert, wenn Copilot bereits im Abonnement enthalten ist?

Ein ehrlicher Blick auf die Einschränkungen

Claude Code Review hat derzeit noch erhebliche Einschränkungen: Integration nur mit GitHub (kein GitLab, kein Bitbucket), nur für Teams und Enterprise verfügbar – individuelle Entwickler und kleine Teams sind vorerst ausgeschlossen. Und noch eine Ironie: Früher fanden Sicherheitsforscher kritische Schwachstellen in Claude Code selbst. Ein Tool, das Code überprüft, ist selbst nicht vor Bugs gefeit.

✔️ GitHub Copilot: 60+ Mio. Reviews, 71% mit umsetzbaren Kommentaren, im Abonnement enthalten
✔️ Claude Code Review: tiefere Analyse, 20 Min. pro PR, $15–25, nur GitHub
✔️ OpenAI Codex: Agenten-Tools entwickeln sich, direkter Review-Analog fehlt noch
⚠️ Einschränkungen: nur GitHub, nur Teams/Enterprise, Research Preview

Anthropic und GitHub Copilot: – keine direkten Konkurrenten, sondern unterschiedliche Ansätze: der eine setzt auf Tiefe und Enterprise, der andere auf Skalierung und Integration in den bereits vertrauten Workflow.

❓ Häufig gestellte Fragen (FAQ)

Wird Claude Code Review menschliche Reviewer ersetzen?

Nein, zumindest nicht jetzt. Agenten können Pull-Requests nicht genehmigen oder ablehnen – das bleibt dem Menschen überlassen. Das Tool übernimmt die routinemäßige Problemsuche, während sich der Reviewer auf Lösungen und architektonische Fragen konzentriert.

Ist das Tool für kleine Teams geeignet?

Bei $15–25 pro Review – wahrscheinlich nicht, wenn Sie 2–3 Entwickler und 5 PRs pro Woche haben. Die Einsparungen ergeben sich bei Skalierung: Dutzende PRs täglich, aktive Nutzung von KI zur Codegenerierung, große Teams.

Welche Programmiersprachen werden unterstützt?

Anthropic veröffentlicht keine vollständige Liste, aber Claude Code funktioniert traditionell gut mit Python, JavaScript, TypeScript, Go und den wichtigsten Webentwicklungssprachen. Für spezifische Unternehmenssprachen kann die Unterstützung begrenzt sein.

Wie sicher ist es, Code an externe KI zu übermitteln?

Dies ist eine berechtigte Frage, die gestellt werden sollte. Anthropic bietet vertragliche Vertraulichkeitsbedingungen für Unternehmen an, aber jedes Unternehmen muss die Risiken gemäß seinen Sicherheitsanforderungen und seiner Gerichtsbarkeit selbst bewerten.

✅ Fazit

🔹 Die KI-Codegenerierung hat ein neues Problem geschaffen – menschliche Reviews können nicht mithalten, und Claude Code Review ist der erste Versuch, dies systematisch zu lösen

🔹 Die Multi-Agenten-Architektur mit parallelen Überprüfungen erhöhte den Anteil sorgfältig geprüfter PRs innerhalb von Anthropic von 16% auf 54%

🔹 Der Preis von $15–25 pro Review ist für große Teams gerechtfertigt, aber für kleine Unternehmen noch hoch

🔹 Anthropic besetzt eine neue Nische – die tiefgehende Post-Factum-Analyse von PRs – und konkurriert nicht direkt mit GitHub Copilot

Hauptgedanke:

Claude Code Review ist kein Tool, um Reviewer loszuwerden, sondern ein Tool, damit Reviewer mit dem Tempo mithalten können, das die KI selbst vorgibt.

Kategorien