KI-Erklärungen verbessern Diagnosen
Eine neue Studie aus München sorgt für Aufsehen: Künstliche Intelligenz kann Ärztinnen und Ärzte bei medizinischen Diagnosen deutlich unterstützen, aber nur dann, wenn sie ihre Empfehlung nachvollziehbar erklärt. Gerade in der Radiologie verbessern schrittweise Begründungen die diagnostische Genauigkeit spürbar. Knappe Antworten oder bloße Listen reichen dagegen nicht aus und können sogar gefährliches Fehlvertrauen erzeugen.
Hinter der Untersuchung steht ein Forschungsteam der LMU München, des LMU Klinikums, des Karlsruher Instituts für Technologie und der Universität Bayreuth. Im Rahmen eines randomisierten Experiments beurteilten 101 Radiologinnen und Radiologen reale klinische Fälle mit Bildern aus CT und MRT und formulierten ihre Diagnose jeweils als Freitext in großen Sprachmodellen wie ChatGPT. Dabei wurden sie in 4 Gruppen eingeteilt, eine ohne KI und 3 mit unterschiedlichen Formen von KI-Unterstützung.
Das Ergebnis ist klar: Am besten schnitten die Teilnehmenden mit schrittweisen KI-Erklärungen ab. Diese Form der Unterstützung lag bei der diagnostischen Genauigkeit 12,2 Prozentpunkte über der Kontrollgruppe ohne KI. Einfache Diagnoseausgaben und Differentialdiagnosen waren schwächer. Besonders kritisch: Wenn die KI falsch lag, folgten manche Teilnehmende den Differentialdiagnosen trotzdem häufiger, was auf Automationsbias hindeutet.
Die Studie zeigt damit nicht nur, dass KI helfen kann, sondern auch, worauf es bei ihrem Einsatz ankommt. Entscheidend ist nicht allein, ob ein System eine plausible Antwort liefert, sondern ob Ärztinnen und Ärzte die Begründung prüfen und mit ihrem Fachwissen abgleichen können. Schritt für Schritt erklärte Modelle machen Bildmerkmale, klinische Hinweise und Ausschlusskriterien sichtbar und helfen so, Fehler eher zu erkennen.
Die Forschenden warnen zugleich vor der trügerischen Wirkung kompakter Antworten. Gerade reine Listen oder knapp formulierte Vorschläge können den Eindruck erwecken, der diagnostische Raum sei bereits ausgeschöpft. Das kann dazu führen, dass bei seltenen oder komplexen Fällen weniger weitergedacht wird. Für die klinische Praxis lautet die Botschaft deshalb: Eine gute KI-Antwort ist nicht nur korrekt, sondern überprüfbar.
Über die Medizin hinaus sieht die Studie eine breitere Lehre für den Umgang mit KI-Systemen. Wer nicht nur nach einer Antwort fragt, sondern nach einer nachvollziehbaren Begründung, kann solche Systeme deutlich besser nutzen. Die Forschenden betonen außerdem, dass Sprachmodelle sowohl bei Diagnosen als auch bei ihren Erklärungen Fehler machen können.
Veröffentlicht: npj Digital Medicine. „The effect of medical explanations from large language models on diagnostic accuracy in radiology“.
22. Mai 2026