KI-Forschung
Mensch-KI-Teams treffen genaueste Diagnosen
Gemischte Teams aus Menschen und Künstlicher Intelligenz (KI) sind besser im Finden von medizinischen Diagnosen als jeweils ungemischte Teams. KI-Systeme und Menschen machen systematisch unterschiedliche Fehler, die sich ausgleichen. Das hat ein internationales Forschungsteam unter der Leitung des Max-Planck-Instituts für Bildungsforschung in Berlin herausgefunden und Mitte Juni in der Fachzeitschrift Proceedings of the National Academy of Sciences veröffentlicht.
Kombinieren Ärztinnen und Ärzte ihre Expertise mit den Möglichkeiten von großen Sprachmodellen (Large Language Models), treffen sie demnach die genauesten offenen Diagnosen. Dies gelte insbesondere, wenn es sich bei den Diagnosen nicht um einfache Ja-Nein-Entscheidungen handele, sondern um komplexe Fragestellungen mit einer Vielzahl möglicher Lösungen. "Unsere Ergebnisse zeigen, dass die Zusammenarbeit zwischen Menschen und KI-Modellen ein großes Potential zur Verbesserung der Patientensicherheit hat", sagt Erstautor Dr. Nikolas Zöller laut Mitteilung des MPI für Bildungsforschung.
Im Rahmen der Studie haben die Forschenden demnach Daten des Human Diagnosis Project verwendet, das klinische Fallvignetten – also kurze Beschreibungen realitätsnaher Patientenbeschwerden – und die zugehörigen korrekten Diagnosen bereitstellt. Über 2.100 dieser Vignetten wurden von medizinischen Fachkräften sowie den fünf großen Sprachmodellen GPT-4, Gemini Pro, Claude 3, Mistral Large und Llama 2 70B eingeordnet. Das zentrale Experiment simulierte verschiedene Diagnoseteams: Einzelpersonen trafen Diagnosen allein, Gruppen von Menschen arbeiteten zusammen, KI-Modelle agierten separat und gemeinsam und schließlich gab es auch gemischte Teams aus Menschen und KI-Systemen. Die getroffenen Diagnosen wurden von Forschenden nach medizinischen Standards bewertet.
Wie Mensch und KI sich ergänzen
Dabei kam heraus, dass eine Kombination von Mensch und KI die Genauigkeit der Diagnose deutlich steigerte, wie die Forschenden berichten. Schon das Hinzufügen eines einzelnen KI-Modells zu einer Gruppe von Diagnostikerinnen und Diagnostikern – oder umgekehrt einer Ärztin oder eines Arztes zu einer Gruppe von großen Sprachmodellen – habe das Ergebnis erheblich verbessert. Die zuverlässigsten Ergebnisse aber seien von Teams aus mehreren Menschen und mehreren KI-Systemen erzielt worden.
Teams aus Sprachmodellen hätten durchschnittlich über dem Niveau von 85 Prozent der menschlichen Diagnostikerinnen und Diagnostiker gelegen. Es habe jedoch zahlreiche Fälle gegeben, in denen Menschen besser abschnitten – oft wenn die KI versagt habe. Dies liege daran, dass die Fehler von Menschen und KI komplementär seien. KI-Modelle könnten "halluzinieren" und falsche Informationen generieren. Auch reproduzierten sie bestehende gesellschaftliche oder medizinische Vorurteile (Bias). KI-Systeme sollten daher als "ergänzendes Werkzeug" begriffen werden, "das in der kollektiven Entscheidungsfindung sein volles Potential entfaltet", sagte Co-Autor Dr. Stefan Herzog, Senior Research Scientist am MPI für Bildungsforschung, laut Mitteilung.
Die Forschenden betonten die Grenzen ihrer Forschungsergebnisse: Die Versuche untersuchten textbasierte Fälle, keine echten Patientinnen und Patienten in realen klinischen Situationen. Auch garantiere eine korrekte Diagnose nicht unbedingt eine optimale Behandlung. Weitere Untersuchungen zur praktischen Umsetzung und zu ethischen Aspekten wie etwa den rassistischen Vorurteilen, die Sprachmodelle enthielten, seien erforderlich. Außerhalb der medizinischen Diagnose könnten Mensch-KI-Teams in Bereichen nützlich sein, in denen komplexe, risikoreiche Entscheidungen getroffen werden müssten, beispielsweise bei rechtlichen Fragen, in der Katastrophenhilfe oder der Klimapolitik.
cpy