Harvard Studie: Nein, KI stellt keine besseren Diagnosen als Ärzte

Wer hätte, wenn er in lebensbedrohlichem Zustand in die Notaufnahme eingeliefert wird, nicht gerne einen Schutzengel? Eine Art höhere Macht; etwas, das den Ärzten über die Schulter schaut und sie sanft warnt, wenn sie etwas übersehen oder eine falsche Diagnose treffen? Eine aktuelle Studie von Forschern aus Harvard scheint zu belegen, dass Künstliche Intelligenz exakt diese Aufgabe übernehmen kann.

Diesen Eindruck könnte man zumindest bei den Schlagzeilen bekommen, die die Studie gerade macht. „KI übertrifft Ärzte bei Studie zur Diagnose in der Notaufnahme.“ „KI schlägt Ärzte im Diagnose-Wettstreit.“ Sogar der ehemalige Gesundheitsminister Karl Lauterbach (SPD) schrieb auf Twitter, heute X: „In einer der besten Harvard-Kliniken wurde KI mit Ärzten in Notfallversorgung verglichen. Selbst unter diesen extremen Bedingungen gab die KI mehr korrekte Diagnosen als Ärzte.“

Alle diese Aussagen stimmen nicht. Und dennoch zeigt die Studie, dass es an der Zeit ist, sich Gedanken über die zukünftige Arbeitsteilung in der Medizin zu machen. Welche Aufgaben sollten in nicht allzu ferner Zukunft noch menschliche Ärzte übernehmen? Welche die KI? Das Schutzengel-Szenario ist dabei nur eines von vielen denkbaren. Und bei Weitem klingen nicht alle so wünschenswert.

KI sollte bloß Diagnoserätsel lösen

Was hat also die Studie wirklich gezeigt? Die Forscher haben dem Sprachmodell „o1-preview“ – also im Grunde der Technologie, die hinter dem Chatbot ChatGPT von OpenAI steckt – verschiedenste Diagnoserätsel gegeben. Das waren beispielsweise detaillierte Fallbeschreibungen, bei denen die KI weitere Untersuchungen vorschlagen oder Diagnosen stellen sollte. In den meisten Fällen schnitt die KI besser ab als Ärzte, die sich an den Aufgaben versuchten. Besonders eindrucksvoll war der Teil der Studie, bei dem die KI bloß häppchenweise Informationen zu echten Fällen aus der Notaufnahme bekam. Auch bei dieser anspruchsvollen Aufgabe war sie besser als Ärzte. Kann sie also bessere Diagnosen stellen als der Mensch?

Zumindest belegt die Studie das nicht. Denn es ging, wie die Autoren selbst schreiben, nur um Fallbeschreibungen in Textform. Mensch und KI bekamen diese Beschreibungen und mussten ihr Urteil fällen. Das entspricht nicht der Arbeitsweise eines echten Arztes, der Patienten in Augenschein nimmt, ihr Befinden (das sich vom Befund unterscheiden kann) als Mensch nachvollzieht, Signale wahrnimmt, die in keinem Protokoll auftauchen. Auch in dem Experiment mit Daten aus der Notaufnahme wissen wir gar nicht, ob die KI besser war als die echten behandelnden Ärzte vor Ort. Mit denen wurde sie gar nicht verglichen, sondern wieder bloß mit Ärzten, die im Nachhinein die Berichte aus der Notaufnahme sahen.

Wie soll die Zusammenarbeit von Mensch und Maschine aussehen?

Das heißt: Die Studie zeigt nicht, dass KI bessere Diagnosen stellt als Ärzte. Sie zeigt lediglich, dass die KI bestimmte Diagnoserätsel besser lösen kann. Das soll die Leistung der Studienautoren nicht schmälern. Sie haben einen weiteren Meilenstein in der technologischen Entwicklung dokumentiert. Mehr versprechen sie auch nicht. Zudem mahnen sie, dass man nun in Studien untersuchen müsste, wie eine Zusammenarbeit von Mensch und Maschine aussehen sollte. Das ist die entscheidende Frage unserer Zeit.

Eine Variante wäre das Schutzengel-Szenario: Die KI bekommt alle Informationen, die auch Ärzte in einer Notaufnahme oder einem Krankenhaus haben, aus den digitalen Akten des Patienten. Sie stellt eigene Diagnosen, schlägt Tests und Behandlungen vor (sie löst also Rätsel – das kann sie, wie die Studie gezeigt hat). Die Entscheidungen der Ärzte werden mit denen der KI abgeglichen. Wenn sie weit auseinanderliegen, werden die Ärzte darüber informiert und können ihre Entscheidung überdenken.

Werden Ärzte nur noch KI-Diagnosen absegnen?

Das mag alles einleuchtend klingen, ist jedoch erstens mit einem gewissen Risiko behaftet: Wenn sich die Ärzte beispielsweise zu stark auf den doppelten Boden, den die KI ihnen bietet, verlassen, könnten sie weniger Sorgfalt bei ihren Diagnosen an den Tag legen. Das wäre aber fatal, denn KI neigt im Allgemeinen zu groben Fehlern. Zweitens ist dieses Szenario teuer. Denn Ärzte, die zusätzlich noch KI-generierte Einsprüche zu ihren Diagnosen verwalten müssen, können weniger Patienten behandeln. Das muss man einem Klinikdirektor, der mit seinen Mitteln haushalten muss, erstmal beibringen, dass er mit KI-Hilfe für die gleiche Anzahl von Patienten mehr Ärzte und nicht weniger braucht.

Entsprechend gibt es am anderen Ende des Spektrums möglicher Szenarien die Variante Fließband: Die KI übernimmt die komplette Diagnose und liefert dem Arzt ihre Ergebnisse. Der Mensch prüft dann nur noch eine KI-Entscheidung nach der anderen und setzt seine Unterschrift drunter. Offiziell macht er das, um die Fehler zu finden, die der KI mit Sicherheit unterlaufen werden. Eigentlich geht es dabei aber nur darum, einen Verantwortlichen für die Fehler zu haben, die dennoch durchrutschten. Die KI wird nämlich keine Verantwortung übernehmen können. Hoffentlich meinte Karl Lauterbach nicht dieses Szenario, als er in seinem Tweet zur Studie von einem „neuen Zeitalter“ sprach.