Warum Google die medizinische KI abgeschaltet hat: Eine architektonische Analyse des RAG-Fehlers

Aktualisiert:
Warum Google die medizinische KI abgeschaltet hat: Eine architektonische Analyse des RAG-Fehlers

Google hat die Funktion What People Suggest für medizinische Anfragen stillschweigend zurückgezogen. Die offizielle Begründung lautet „Qualität der Antworten“. Aber dahinter steckt ein konkretes architektonisches Problem: Das Retrieval-System zog semantisch ähnliche, aber klinisch inkompatible Fragmente – und das Modell synthetisierte daraus technisch fundierte, aber gefährliche Antworten.

Hauptthese: Es geht hier nicht um Medizin und nicht um die Verantwortung von Unternehmen. Es ist ein öffentlicher Fall dafür, wie die RAG-Architektur scheitert, wenn der Datenbestand die Anforderungen der Aufgabe nicht erfüllt. Die Lektion ist auf jeden Pipeline anwendbar – vom Rechts-Bot bis zur Unternehmenssuche.

Warum die Aggregation von Nutzermeinungen keine gültige Stichprobe ist

Die Funktion What People Suggest basierte auf einer logischen, aber fehlerhaften Prämisse: Wenn genügend Menschen eine ähnliche Erfahrung beschreiben, nähert sich das aggregierte Ergebnis der Wahrheit an. In der Medizin bricht dieses Modell auf der Ebene der Stichprobe selbst zusammen.

Für Restaurantempfehlungen oder Hotelbewertungen funktioniert die Aggregation – die Stichprobe ist groß genug und repräsentativ. Ein medizinisches Forum ist eine andere Population. Hier kommen Menschen mit atypischem Krankheitsverlauf, unzufrieden mit der Standardbehandlung, oder diejenigen, die eine Bestätigung für eine bereits getroffene Entscheidung suchen.

Validierungsverzerrung als strukturelle Eigenschaft von UGC-Plattformen

Plattformen wie Reddit oder Quora haben eine eingebaute Validierungsverzerrung: Diejenigen, die etwas zu sagen haben – also diejenigen, deren Erfahrungen vom Normalen abweichen – veröffentlichen. Eine Person, die Ibuprofen eingenommen hat und sich nach einem Tag besser fühlt, schreibt keinen Beitrag. Eine Person, die eine ungewöhnliche Reaktion hatte – schreibt.

Das ist kein Problem spezifischer Plattformen – es ist eine mathematische Eigenschaft jedes freiwilligen Inhalts. Forscher nennen dies Survivor Bias in umgekehrter Richtung: In der Stichprobe dominieren Extremfälle, nicht typische Fälle.

Wie die UGC-Verteilung in der Praxis aussieht

Stellen Sie sich ein hypothetisches medizinisches Forum mit 10.000 Beiträgen über Nebenwirkungen von Ibuprofen vor. Davon beschreiben 8.500 ungewöhnliche oder negative Reaktionen – genau deshalb kamen die Leute, um eine Antwort zu suchen oder Erfahrungen auszutauschen. Weitere 1.200 sind Anfragen wie „Ist es normal, dass…“. Und nur 300 Beiträge im Stil von „genommen, geholfen, danke“ – denn diese Person hatte keinen Grund mehr, ins Forum zurückzukehren.

Nun indiziert das RAG-System diesen Korpus und erhält eine Anfrage: „Ist Ibuprofen sicher?“ Die Ähnlichkeitssuche findet die 20 relevantesten Chunks. 17 davon beschreiben Komplikationen. Nicht, weil Ibuprofen gefährlich ist – sondern weil sichere Fälle im Korpus einfach unterrepräsentiert sind.

Medizinisches Forum vs. Klinische Studie: Unterschied in der Stichprobe

Eine klinische Studie basiert auf einer kontrollierten Stichprobe: definierte Population, Randomisierung, Kontrollgruppe. Das Ergebnis spiegelt die Verteilung in der realen Patientenpopulation wider.

Ein medizinisches UGC-Forum ist das Gegenteil:

  • Stichprobe nicht randomisiert – diejenigen kommen, die etwas zu sagen haben
  • Keine Kontrollgruppe – keine Stimme derer, bei denen „alles normal verlief“
  • Bestätigungsverzerrung verstärkt das Signal – Beiträge mit ungewöhnlichen Erfahrungen erhalten mehr Antworten und Upvotes, steigen höher, landen in mehr Chunks
  • Zeitliche Verschiebung – ältere Beiträge mit veralteten Behandlungsprotokollen sind semantisch gleichwertig mit neuen

Für einen Entwickler, der RAG baut, bedeutet das eines: Wenn der Korpus aus UGC besteht, entspricht die Verteilung der Meinungen darin nicht der realen Verteilung der Fälle in der Population. Das Modell lernt von den Rändern, nicht vom Zentrum der Verteilung.

Analogie für Entwickler

Stellen Sie sich vor, Ihre Empfehlungsmaschine lernt nur aus 1-Sterne- und 5-Sterne-Bewertungen – 3-Sterne-Bewertungen gibt es fast keine im Korpus. Das Modell wird sicher empfehlen oder ablehnen, wird aber kein Verständnis für „normal“ haben.

Machen Sie nun einen Schritt weiter: Stellen Sie sich vor, 1-Sterne-Bewertungen erhalten 10-mal mehr Likes und Kommentare als 5-Sterne-Bewertungen – und dominieren deshalb in den Suchergebnissen. Das System „kennt das Normale“ nicht nur nicht – es ist aktiv auf Anomalien trainiert. Genau das passiert, wenn ein RAG-System Forum-UGC als Hauptquelle für medizinische oder andere YMYL-Anfragen verwendet.

Das Prinzip Garbage In, Garbage Out verschwindet nicht mit der Erhöhung der Modellparameter. Eine komplexere Architektur synthetisiert eine verzerrte Stichprobe überzeugender – macht sie aber nicht repräsentativ.

Wo genau RAG versagt: Chunk-Kollision und Verlust des klinischen Kontexts

Retrieval-Augmented Generation ist eine Architektur, bei der ein Modell zuerst relevante Fragmente aus einem Korpus abruft und dann eine Antwort auf deren Grundlage synthetisiert. Der Ausfallpunkt ist nicht die Generierung. Der Ausfallpunkt ist das Retrieval.

Zerlegen wir das anhand eines konkreten Beispiels. Ein Benutzer gibt eine Anfrage ein: „Diät bei Bauchspeicheldrüsenkrebs“.

Schrittweiser Ausfallmechanismus

  1. Embedding. Die Anfrage wird in einen Vektor im semantischen Raum umgewandelt.
  2. Ähnlichkeitssuche. Das System sucht nach Chunks mit der höchsten Kosinus-Ähnlichkeit. „Nähe“ wird durch statistische Wortähnlichkeit bestimmt – nicht durch klinischen Kontext.
  3. Chunk-Kollision. Zwei Fragmente gelangen in das Kontextfenster: eines über „fettarme Diät bei Pankreatitis“, das andere über „Ernährung während der Chemotherapie“. Beide sind semantisch nah an der Anfrage. Beide sind klinisch in diesem Kontext unvereinbar.
  4. Synthese. Das Modell formuliert eine Antwort, die technisch durch die Quellen begründet ist, aber klinisch falsch ist: Die Ernährungsprotokolle während der Chemotherapie unterscheiden sich grundlegend von den allgemeinen Empfehlungen bei Erkrankungen der Bauchspeicheldrüse.

Wie das auf der Ebene der Retrieval-Anfrage aussieht

Um den spezifischen Ausfall zu verstehen, schauen wir uns an, was das System tatsächlich „sieht“. Ein vereinfachtes Beispiel für ein Retrieval-Ergebnis für die Anfrage „Diät bei Bauchspeicheldrüsenkrebs“:

Query: "Diät bei Bauchspeicheldrüsenkrebs"

Retrieved chunks (top-3 by cosine similarity):

[chunk_id: 4821]  score: 0.91
source: forum_post, date: 2021-08
"Bei Pankreatitis empfehlen Ärzte eine fettarme Diät –
nicht mehr als 40g Fett pro Tag. Die Bauchspeicheldrüse kann Fett nicht gut verarbeiten, daher ist die Einschränkung kritisch..."

[chunk_id: 2203]  score: 0.88
source: health_blog, date: 2022-03
"Während der Chemotherapie ist es wichtig, die Kalorienzufuhr aufrechtzuerhalten.
Patienten wird oft eine kalorienreiche Ernährung empfohlen,
einschließlich Fetten – um das Körpergewicht zu erhalten..."

[chunk_id: 7734]  score: 0.85
source: forum_post, date: 2020-11
"Nach einer Bauchspeicheldrüsenresektion ändert sich die Diät radikal.
In den ersten Monaten – minimal Fett, dann schrittweise Erweiterung..."
  

Das Modell erhält drei Chunks mit einer Kosinus-Ähnlichkeit von 0,85–0,91 – alle „relevant“ nach Metrik. Aber Chunk 4821 beschreibt chronische Pankreatitis, Chunk 2203 – Krebs unter Chemotherapie, Chunk 7734 – postoperativen Zustand. Das sind drei verschiedene klinische Kontexte mit gegensätzlichen Empfehlungen bezüglich Fetten.

Das System hat keinen Mechanismus, sie zu unterscheiden – und synthetisiert eine „ausgewogene“ Antwort aus widersprüchlichen Quellen.

Warum Kosinus-Ähnlichkeit den klinischen Kontext nicht erkennt

Kosinus-Ähnlichkeit misst den Winkel zwischen zwei Vektoren in einem mehrdimensionalen Raum. Je kleiner der Winkel – desto „näher“ die Dokumente. Aber was genau wird in diesem Raum kodiert?

Das Embedding-Modell lernt, Wörter aus dem Kontext vorherzusagen (oder umgekehrt). Es lernt, dass „Bauchspeicheldrüse“, „Diät“, „Fette“, „Chemotherapie“, „Pankreatitis“ – semantisch verwandte Wörter sind. Daher erhalten Dokumente, die diese Wörter enthalten, nahe Vektoren.

Aber das Embedding versteht nicht, dass „Fette einschränken“ und „Kalorienzufuhr durch Fette erhöhen“ – entgegengesetzte medizinische Anweisungen für verschiedene Zustände desselben Organs sind. Für den Vektor sind das nur zwei Dokumente über die Bauchspeicheldrüse und die Diät.

Mehr über die Grenzen von Embedding-Modellen bei domänenspezifischen Aufgaben – in der Studie RAGAS (2023).

Visuelle Darstellung: Was im Kontextfenster passiert

Benutzeranfrage
        │
        ▼
┌───────────────────┐
│   Embedding model  │  → Anfragevektor
└───────────────────┘
        │
        ▼
┌───────────────────┐
│  Vector store      │  Ähnlichkeitssuche
│  (gesamter Korpus) │  → Top-K Chunks
└───────────────────┘
        │
        ├── Chunk A: Pankreatitis + fettarme Diät    (Score: 0.91)
        ├── Chunk B: Chemotherapie + kalorienreich     (Score: 0.88)  ← KOLLISION
        └── Chunk C: Postoperativer Zustand               (Score: 0.85)
        │
        ▼
┌───────────────────┐
│      LLM           │  synthetisiert Antwort aus A + B + C
│   (Generierung)     │  ← Modell „weiß nicht“, dass A und B unvereinbar sind
└───────────────────┘
        │
        ▼
  Antwort technisch
  durch Quellen begründet,
  aber klinisch falsch
  

Warum das gerade in YMYL-Nischen passiert

Google definiert YMYL (Your Money or Your Life) als eine Kategorie von Anfragen, bei denen eine falsche Antwort echten Schaden verursachen kann. Medizin, Recht, Finanzen. Detailliert, wie YMYL-Nischen aus SEO-Sicht funktionieren, haben wir in einem separaten Artikel behandelt – YMYL-Nischen: Vollständige Anleitung für SEO. Im Kontext der RAG-Architektur ist das Problem der Chunk-Kollision in diesen Nischen aus zwei Gründen am kritischsten:

  • Hohe Domänenspezifität. Medizinische Begriffe haben enge Bedeutungen, die der allgemeine Embedding-Raum nicht unterscheiden kann. „Pankreatitis“ und „Bauchspeicheldrüsenkrebs“ – für das Modell sind es verwandte Themen, für den Kliniker – prinzipiell unterschiedliche Pathologien mit unterschiedlichen Protokollen.
  • Fehlerkosten sind unverhältnismäßig. Eine ungenaue Restaurantempfehlung – ein schlechtes Mittagessen. Eine ungenaue medizinische Empfehlung kann schwerwiegendere Folgen haben.

Mehr über YMYL-Kriterien im Kontext der Suchqualitätsbewertung – in den Search Quality Rater Guidelines von Google.

Warum Google die medizinische KI abgeschaltet hat: Eine architektonische Analyse des RAG-Fehlers

Worin unterscheidet sich Chunk-Kollision von Halluzination – und warum ist sie wichtiger?

Die meisten Entwickler optimieren RAG gegen Halluzinationen: Sie senken die Temperatur, fügen Grounding hinzu, überprüfen Quellen. Aber Chunk-Kollision ist eine andere Fehlerkategorie. Das Modell spielt nach den Regeln. Das Problem ist, was ihm untergeschoben wurde.

Definition: Was ist eine Halluzination in LLMs?

Eine Halluzination ist, wenn ein Modell eine Tatsache generiert, die nicht in den Quellen vorhanden ist und der Realität widerspricht. Das Modell „erfindet“ Informationen aus seinem parametrischen Gedächtnis, wenn die Zuversicht hoch ist, aber das Wissen falsch ist.

Details zu den Mechanismen von Halluzinationen, ihren Arten und Möglichkeiten zur Risikominimierung – in unserem separaten Artikel: KI-Halluzinationen: Was sie sind, warum sie gefährlich sind und wie man sie vermeidet .

Definition: Was ist Chunk-Kollision?

Chunk-Kollision ist, wenn ein Modell eine Antwort auf der Grundlage von realen, existierenden Fragmenten synthetisiert, die vom Retrieval-System korrekt gefunden wurden, aber im spezifischen Kontext der Anfrage unvereinbar sind.

Vergleich: Halluzination gegen Chunk-Kollision

Kriterium Halluzination Chunk-Kollision
Fehlerquelle Parametrisches Gedächtnis des Modells Retrieval – falsch ausgewählte Chunks
Wird die Antwort durch Quellen bestätigt? Nein – widerspricht den Dokumenten im Kontext Ja – entspricht vollständig den Chunks
Wird sie durch Grounding-Prüfung erkannt? Ja Nein – die Antwort ist „geerdet“
Wird sie durch die Metrik „Faithfulness“ erkannt? Ja Nein – die Antwort ist den Chunks treu
Wo tritt sie auf? In der Generierungsphase In der Retrieval-Phase
„Weiß“ das Modell, dass es einen Fehler macht? Nein Nein – und es kann es nicht wissen

Warum Chunk-Kollision schwieriger zu diagnostizieren ist

Eine Halluzination kann durch eine Grounding-Prüfung erkannt werden: Vergleichen Sie die Antwort mit den Dokumenten im Kontextfenster. Wenn die Antwort den Chunks widerspricht – ist es eine Halluzination.

Chunk-Kollision wird mit dieser Methode nicht erfasst. Sehen Sie sich das Beispiel an:

Antwort des Modells:
"Bei Erkrankungen der Bauchspeicheldrüse wird empfohlen, den
Konsum von Fetten auf 40 g pro Tag zu beschränken. Gleichzeitig ist es zur Aufrechterhaltung des Körpergewichts
während der Behandlung wichtig, eine ausreichende Kalorienzufuhr zu gewährleisten,
einschließlich gesunder Fette."

Grounding-Prüfung:
✓ "Fette auf 40 g beschränken" → bestätigt durch chunk_id: 4821
✓ "ausreichende Kalorienzufuhr, einschließlich Fetten" → bestätigt durch chunk_id: 2203

Prüfergebnis: BESTANDEN. Die Antwort ist geerdet.
Reales Problem: Chunk 4821 und Chunk 2203 – unterschiedliche klinische Protokolle.
  

Standard-RAG-Qualitätsmetriken – faithfulness, answer_relevancy, context_precision – erfassen ebenfalls keine Chunk-Kollision, da die Antwort den Chunks im Kontext tatsächlich treu ist. Das System erhält hohe Qualitätsbewertungen – und bleibt gefährlich.

Eine dritte Fehlerklasse: Scheming

Halluzination und Chunk-Kollision sind unbeabsichtigte Fehler: Das Modell „will“ nicht falsch liegen, es hat einfach keinen Mechanismus, um im gegebenen Kontext Richtiges von Falschem zu unterscheiden.

Es gibt eine dritte, prinzipiell andere Klasse von Abweichungen – Scheming: wenn das Verhalten des Modells systematisch von den deklarierten Zielen abweicht, aber nicht aufgrund eines Fehlers, sondern aufgrund der Optimierung auf ein verstecktes Signal. Dies ist ein separates und komplexeres Problem – Details dazu: KI-Scheming: Wie Modelle täuschen und wie man sich schützt .

Wie man Chunk-Kollision in seiner Pipeline diagnostiziert

1. Analysieren Sie die Vielfalt der Chunks im Kontext

Wenn das Retrieval Fragmente aus verschiedenen Protokollen, Kategorien oder Zeiträumen zurückgibt – ist dies ein Risikosignal. Führen Sie eine Metrik namens Context Diversity Score ein: wie stark unterscheiden sich die Metadaten der abgerufenen Chunks für eine Anfrage. Hohe Vielfalt bei einer engen Anfrage – eine rote Flagge.

2. Fügen Sie eine Metadatenfilterung vor der Synthese hinzu

Chunks mit inkompatiblen Tags sollten nicht in denselben Kontext gelangen. Beispiel für einen Filter auf Ebene der Retrieval-Pipeline:

def filter_incompatible_chunks(chunks: list[Chunk]) -> list[Chunk]:
    """
    Entfernt Chunks mit inkompatiblen condition_types.
    Behält nur diejenigen, die der dominanten Kategorie der Anfrage entsprechen.
    """
    condition_types = [c.metadata.get("condition_type") for c in chunks]
    dominant_type = Counter(condition_types).most_common(1)[0][0]

    return [
        c for c in chunks
        if c.metadata.get("condition_type") == dominant_type
    ]
  

Dies ist ein vereinfachtes Beispiel – die tatsächliche Logik hängt von der Domäne ab. Aber das Prinzip bleibt dasselbe: Metadaten müssen ab dem Zeitpunkt der Indizierung Teil des Chunks sein, und nicht später hinzugefügt werden.

3. Protokollierung auf Retrieval-Ebene, nicht nur auf Generierungsebene

Die meisten Teams protokollieren die endgültigen Antworten und bewerten deren Qualität nachträglich. Chunk-Kollision wird damit nicht erfasst – das Problem tritt vor der Generierung auf.

Minimale Protokollierungsmenge für jede Anfrage:

  • query – die ursprüngliche Benutzeranfrage
  • retrieved_chunk_ids – die IDs aller Chunks im Kontext
  • chunk_metadata – Metadaten jedes Chunks (Kategorie, Datum, Quelle)
  • similarity_scores – Kosinus-Ähnlichkeit für jeden Chunk
  • final_answer – die generierte Antwort

Mit diesem Protokoll können Sie nachträglich Kollisionsmuster erkennen: Anfragen, bei denen das Retrieval stabil Chunks aus verschiedenen Kategorien zurückgibt.

4. Fügen Sie eine Cross-Chunk-Konsistenzprüfung vor der Synthese hinzu

Bevor Sie Chunks an das Generierungsmodell übergeben, fügen Sie einen Zwischenschritt hinzu: Bitten Sie das LLM zu bewerten, ob die abgerufenen Chunks im Kontext der Anfrage miteinander vereinbar sind. Wenn nicht – filtern Sie die inkompatiblen oder geben Sie eine klärende Anfrage an den Benutzer zurück.

consistency_prompt = f"""
Benutzeranfrage: {query}

Unten sind die Fragmente aufgeführt, die zur Beantwortung dieser Anfrage gefunden wurden.
Bestimmen Sie: Gehören sie alle zum selben klinischen/fachlichen Kontext?
Wenn es inkompatible Fragmente gibt – geben Sie deren ID an und erklären Sie die Inkompatibilität.

{format_chunks(retrieved_chunks)}

Antworten Sie im JSON-Format:
{{"compatible": true/false, "incompatible_ids": [], "reason": ""}}
"""
  

Dies erhöht die Latenz – aber für YMYL-Anfragen ist dies ein gerechtfertigter Kompromiss.

Was bedeutet das für jede RAG-Pipeline – nicht nur für medizinische

Medizin ist das sichtbarste Beispiel, aber nicht das einzige. Chunk-Kollision und Validierungsbias treten überall dort auf, wo der Korpus heterogen ist und die Fehlerkosten hoch sind.

Drei Bereiche mit ähnlicher Risikostruktur

E-Commerce und Preisgestaltung
Ein RAG-Bot erhält eine Anfrage zum Preis eines Produkts. Im Korpus befinden sich Chunks mit alten Preislisten, Aktionsbedingungen und dem aktuellen Katalog. Die Ähnlichkeitssuche unterscheidet die Aktualität nicht. Der Kunde erhält einen falschen Preis, der durch „Quellen“ gestützt wird.
Rechts-Bots
Eine Anfrage zum Arbeitsrecht. Im Korpus – Rechtsprechung von 2018 und Änderungen von 2023. Beide Dokumente sind semantisch nah an der Anfrage. Die Antwort wird aus unvereinbaren Rechtsnormen synthetisiert. Der Benutzer erhält eine rechtlich veraltete Empfehlung.
Unternehmenssuche
Eine Anfrage zu einem internen Prozess. Im Korpus – eine alte und eine neue Verordnung. Beide werden auf die Anfrage hin gefunden. Die Antwort vermischt zwei unvereinbare Prozesse. Besonders kritisch für Onboarding oder Compliance-Systeme.

Drei architektonische Schlussfolgerungen

1. Kontextklassifikator vor dem Retrieval

Fügen Sie vor der Ähnlichkeitssuche einen Schritt zur Klassifizierung der Anfrage hinzu: Zu welcher Kategorie gehört sie? Dies ermöglicht es, die Suche auf einen relevanten Unterkorpus zu beschränken. Zum Beispiel sucht eine Anfrage mit dem Tag oncology nur im onkologischen Abschnitt des Korpus, und nicht in der gesamten medizinischen Datenbank.

2. Metadaten im Chunk – keine Option, sondern eine Anforderung

Jeder Chunk muss Metadaten enthalten, die es ermöglichen, inkompatible Fragmente zu filtern: Datum des Dokuments, Kategorie, Version des Protokolls, Anwendungsbereich. Beim Chunking dürfen diese Felder nicht abgeschnitten werden – sie sind Teil des Kontexts des Fragments.

3. Protokollierung auf Retrieval-Ebene, nicht nur auf Generierungsebene

Die meisten Teams protokollieren die endgültigen Antworten und bewerten deren Qualität. Dies erlaubt nicht, das Problem zu sehen: Chunk-Kollision tritt vor der Generierung auf. Protokollieren Sie die abgerufenen Chunks für jede Anfrage, und Sie werden Inkompatibilitätsmuster erkennen, lange bevor sie zu Benutzerbeschwerden werden.

Praktische Ansätze zur Bewertung der Retrieval-Qualität sind in der Dokumentation von RAGAS beschrieben – einem Open-Source-Framework zur Bewertung von RAG-Systemen.

Warum Google die medizinische KI abgeschaltet hat: Eine architektonische Analyse des RAG-Fehlers

Wohin bewegt sich die Branche: Offene Suche vs. geschlossene verifizierte Systeme

Googles Rückzieher ist kein Rückzug von KI in der Medizin. Es ist eine Abgrenzung zwischen zwei Architekturen: öffentlicher Suche mit offenem Korpus und geschlossenen Systemen mit kontrolliertem Index.

Öffentliche Suche wird konservativ

Bei den meisten medizinischen Anfragen kehrt Google zur Anzeige von Links zu autoritativen Quellen ohne generative Synthese zurück. Der Grund ist nicht technisch, sondern rechtlich und reputationsbezogen: Die Risiken von „schnellen Antworten“ überwiegen ihren Wert, wenn der Korpus unkontrolliert ist.

Dies ist keine einzigartige Position von Google. Microsoft Bing, das GPT-4 aggressiv in die Suche integriert hat im Jahr 2023, hat auch explizite Haftungsausschlüsse für medizinische Anfragen hinzugefügt und generative Antworten auf YMYL-Themen nach einer Reihe von öffentlichen Vorfällen eingeschränkt. Der Trend ist derselbe: offener Korpus + generative Synthese = unkontrollierbares Risiko für kritische Nischen.

Geschlossene Systeme: Was bedeutet „kontrollierter Index“ in der Praxis

Der Begriff „kontrollierter Index“ klingt abstrakt. In der Praxis ist es eine Reihe von spezifischen architektonischen Entscheidungen, die ein geschlossenes medizinisches System von öffentlichem RAG unterscheiden:

Verifizierte Quellen mit klarem Anwendungsbereich
Jedes Dokument im Korpus wurde manuell oder automatisch verifiziert. Metadaten enthalten nicht nur „medizinischer Artikel“, sondern condition: oncology, stage: chemotherapy, protocol_version: 2023-Q4, reviewed_by: oncologist. Retrieval filtert nach diesen Feldern vor der Ähnlichkeitssuche – nicht danach.
Dokumentenversionierung
Medizinische Protokolle werden aktualisiert. Im kontrollierten Index wird jede Dokumentversion separat mit dem Datum des Inkrafttretens gespeichert. Eine Anfrage wird automatisch an die aktuelle Version weitergeleitet – ein veralteter Chunk gelangt physisch nicht in den Retrieval.
Determinierte Antworten für kritische Szenarien
In einigen Szenarien synthetisiert das Modell keinen freien Text, sondern wählt aus einem verifizierten Entscheidungsbaum. Zum Beispiel ist die Antwort auf eine Anfrage zur Medikamentendosierung keine generierte Paragraphen, sondern ein strukturierter Auszug aus einer pharmakologischen Datenbank mit genauen Werten und einem Link zur Quelle.
Audit-Log jeder Inference-Anfrage
Für die regulatorische Berichterstattung (HIPAA in den USA, MDR in der EU) werden jede Anfrage, abgerufene Chunks und die generierte Antwort protokolliert, mit der Möglichkeit der vollständigen Reproduktion. Dies ist keine Option – es ist eine Zertifizierungsanforderung.

Beispiele für geschlossene Systeme, die bereits funktionieren

Ein anschauliches Beispiel für diese Logik sind die Ergebnisse von DeepMind in der Diagnostik : Diese wurden in geschlossenen, zertifizierten Umgebungen mit kontrollierten Eingabedaten erzielt, nicht über die öffentliche Suche mit offenem Korpus.

Weitere Beispiele für dieselbe architektonische Logik:

  • Epic Systems + AI – Integration von LLMs in elektronische Patientenakten (EHR) mit einem streng kontrollierten Korpus: Das Modell arbeitet nur mit den Daten eines bestimmten Patienten und verifizierten klinischen Protokollen, isoliert vom offenen Web.
  • FDA-zugelassene KI-Geräte – Klasse Software as a Medical Device (SaMD), bei der jede Version des Modells und des Korpus eine separate Zertifizierung durchläuft. Jede Aktualisierung des Index bedeutet einen neuen regulatorischen Zyklus.
  • Interne Unternehmens-RAG-Systeme – Anwalts-, Finanz- und Compliance-Bots in großen Unternehmen, bei denen der Korpus ausschließlich interne verifizierte Dokumente und nicht das offene Web ist.

Checkliste: Ist Ihr RAG für eine kritische Nische bereit?

Wenn Sie RAG für eine Aufgabe mit hohen Fehlkosten entwickeln – gehen Sie diese Liste durch, bevor Sie das System für Benutzer öffnen:

  • ☐ Jedes Dokument im Korpus hat explizite Metadaten über den Anwendungsbereich und das Gültigkeitsdatum
  • ☐ Veraltete Dokumentversionen sind vom Retrieval isoliert oder explizit gekennzeichnet
  • ☐ Retrieval filtert nach dem Kontext der Anfrage vor der Ähnlichkeitssuche, nicht danach
  • ☐ Nicht nur die Antwort, sondern auch die abgerufenen Chunks mit Ähnlichkeitsbewertungen werden protokolliert
  • ☐ Es gibt einen Mechanismus zur Erkennung von Chunk-Kollisionen vor der Synthese
  • ☐ Für die kritischsten Anfragen – determinierter Auszug anstelle von generativer Synthese
  • ☐ Es gibt einen Prozess zur regelmäßigen Überprüfung des Korpus auf Aktualität und Konsistenz

Die Frage ist nicht „welches Modell soll ich nehmen“ – die Frage ist „wie ist der Korpus organisiert“. Architektonische Entscheidungen auf der Ebene von Indexierung, Chunking und Metadaten bestimmen die Qualität des Systems mehr als die Wahl zwischen bestimmten LLMs.

Das offene Web bleibt nützlich für Informationsanfragen mit geringen Einsätzen. Für Aufgaben, bei denen die Kosten eines Fehlers hoch sind, gibt es nur einen Weg: verifizierter Korpus, kontrollierter Index, detaillierte Protokollierung des Retrievals.

Fazit

Der Rückzieher von What People Suggest ist keine Niederlage für KI in der Medizin. Es ist eine Korrektur eines architektonischen Fehlers: der Versuch, ein Allzweckwerkzeug für eine Aufgabe anzuwenden, die einen kontrollierten Korpus und verifizierte Quellen erfordert.

Die Quelle ist wichtiger als das Modell. Diese These ist unbequem, weil sie den Verkauf neuer Architekturen erschwert. Aber sie ist zutreffend.

Und nun eine Frage an Sie: Wie ist in Ihrer aktuellen RAG-Pipeline die Filterung inkompatibler Chunks organisiert? Gibt es Metadaten, die dem Retrieval-System erlauben, den Kontext zu unterscheiden – oder geht alles in einen Index?

Häufig gestellte Fragen

Was ist RAG und wozu ist es nützlich?

RAG (Retrieval-Augmented Generation) ist eine Architektur, bei der ein Sprachmodell vor der Generierung einer Antwort relevante Fragmente aus einem externen Dokumentenkorpus abruft. Dies ermöglicht es dem Modell, Anfragen zu beantworten, indem es sich auf aktuelle Daten stützt, und nicht nur auf das parametrische Gedächtnis aus dem Training. Mehr dazu – in der Originalarbeit zu RAG von Meta AI (2020).

Was ist YMYL im Kontext der Suche?

YMYL (Your Money or Your Life) ist eine von Google definierte Kategorie von Suchanfragen, bei denen eine falsche Antwort Schaden verursachen kann: Medizin, Recht, Finanzen, Sicherheit. Für solche Anfragen wendet Google erhöhte Anforderungen an die Qualität der Quellen an. Die offizielle Definition – in den Search Quality Rater Guidelines.

Kann man Chunk-Kollisionen vollständig vermeiden?

Vollständig – nein, wenn der Korpus groß und heterogen ist. Aber das Risiko wird erheblich reduziert durch die Klassifizierung von Anfragen vor dem Retrieval, detaillierte Metadaten auf Chunk-Ebene und die Filterung inkompatibler Fragmente vor der Synthese.

Welche Werkzeuge helfen bei der Bewertung der RAG-Qualität?

Unter den Open-Source-Frameworks zur Bewertung von RAG-Systemen:

  • RAGAS – Metriken für Faithfulness, Answer Relevancy, Context Precision
  • RAGAS auf GitHub – Open Source Code
  • TruLens – Bewertung und Tracing von RAG-Pipelines

Останні статті

Читайте більше цікавих матеріалів

Що означає GPT-5.5 для ринку AI у 2026 році

Що означає GPT-5.5 для ринку AI у 2026 році

У лютому 2026 за 48 годин зникло $285 мільярдів з капіталізації технологічних компаній. Не через рецесію. Не через провальну звітність. Через одне питання, яке інвестори поставили собі одночасно: якщо AI-агент робить роботу десяти людей — навіщо платити за десять місць у...

GPT-5.5 vs GPT-5.4: що  змінилося у 2026 році

GPT-5.5 vs GPT-5.4: що змінилося у 2026 році

OpenAI випустив GPT-5.5 лише через шість тижнів після GPT-5.4 — і це не черговий патч. Спойлер: перша повністю перетренована базова модель з часів GPT-4.5 дає реальний стрибок у агентних задачах і довгому контексті, але у hallucinations не покращилась — і коштує на 20% дорожче, а...

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

DeepSeek V4 Flash у 2026: що це, скільки коштує і як запустити без GPU

TL;DR за 30 секунд: DeepSeek V4 Flash — MoE-модель з 284B параметрами (13B активних), контекстом 1M токенів і MIT-ліцензією. Вийшла 24 квітня 2026 року. Коштує $0.14/$0.28 за мільйон токенів — дешевше за Claude Haiku 4.5, Gemini 3.1 Flash і GPT-5.4 Nano. Доступна через Ollama Cloud на NVIDIA...

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Claude Opus 4.7 для RAG: як я тестував модель на реальних документах

Коротко про що ця стаття: 17 квітня я взяв свіжий Claude Opus 4.7 і прогнав його через свою RAG-систему AskYourDocs на тестовому наборі з ~400 публічних юридичних документів (зразки договорів, нормативні акти, шаблони з відкритих джерел). Порівняв з Llama 3.3 70B, на якій у мене зараз...

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

Claude Opus 4.7: детальний огляд моделі Anthropic у 2026

TL;DR за 30 секунд: Claude Opus 4.7 — новий флагман Anthropic, який вийшов 16 квітня 2026 року. Головне: +10.9 пунктів на SWE-bench Pro (64.3% проти 53.4% у Opus 4.6), вища роздільна здатність vision (3.75 MP), нова memory на рівні файлової системи та новий рівень міркування xhigh. Ціна...

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Gemma 4 26B MoE: підводні камені і коли це реально виграє

Коротко: Gemma 4 26B MoE рекламують як "якість 26B за ціною 4B". Це правда щодо швидкості інференсу — але не щодо пам'яті. Завантажити потрібно всі 18 GB. На Mac з 24 GB — свопінг і 2 токени/сек. Комфортно працює на 32+ GB. Читай перш ніж завантажувати. Що таке MoE і чому 26B...