Forschungsmethoden
Potential von KI in der Forschung – Hype und Enttäuschung
Die jüngste Welle von KI-Durchbrüchen habe zwar neue Werkzeuge hervorgebracht, aber diese bedeuteten keine grundlegende Veränderung dessen, was es bedeutet, eine Wissenschaftlerin oder ein Wissenschaftler zu sein. Das sagte Dr. Matt Clancy, Experte für Wissenschaft und Innovation laut dem Magazin Science Business auf der Konferenz Metascience 2025.
Der transformative Charakter von KI für die Forschung war ein zentrales Thema auf der Konferenz, die vor einigen Wochen im University College London stattfand. Bei dem metawissenschaftlichen Gipfel mit rund 650 Referentinnen und Referenten sowie Delegierten aus aller Welt wurde über die vielseitigen Anwendungsmöglichkeiten, deren Grenzen und die Geschichte der KI in der Forschung diskutiert. Insgesamt seien die Erwartungen jedoch eher gedämpft gewesen, so Science Business.
Trotz der Begeisterung über neue Tools wie große Sprachmodelle (LLM) und AlphaFold reiche die Geschichte von KI in der Wissenschaft mehr als ein halbes Jahrhundert zurück. Diese sei beispielsweise in den 90er Jahren in der Physik weit verbreitet gewesen, sagte Dr. Iulia Georgescu, Wissenschafts- und Innovationsmanagerin am britischen Institute of Physics, ebenfalls eher disruptive Erwartungen dämpfend.
Euphorie und Werbung
"Es ist beeindruckend, wie Künstliche Intelligenz (KI) die Forschung transformiert", postete EU-Kommissarin für Start-ups, Forschung und Innovation Ekaterina Sachariewa am 19. August auf einer Social-Media-Plattform. Sie bezieht sich in ihrem Statement exemplarisch auf 15 von der EU-Kommission veröffentlichte Fallstudien, in welchen dargelegt wird, wie der Einsatz von KI Entdeckungen in den Lebenswissenschaften beschleunigt hat. "Das disruptive Potential von KI wird gerade erst erkannt. Datenanalysen, die früher Wochen, Monate oder sogar Jahre dauerten, können heute deutlich schneller durchgeführt werden und führen zu schnelleren Ergebnissen. Die Biowissenschaften (…) sind bestens aufgestellt, um von dieser technologischen Revolution zu profitieren", heißt es dort. KI in der Wissenschaft im Allgemeinen und in den Biowissenschaften im Besonderen gehöre zu den politischen Prioritäten der Europäischen Kommission, wie Präsidentin Ursula von der Leyen im Mission Letter an die Kommissarin betont.
Die KI-Euphorie werblich unterstützend, launchte Microsoft Mitte Juli ein Web-Feature mit dem Titel "KI für die Wissenschaft: 5 Wege, wie sie zur Lösung großer Herausforderungen beiträgt – vom Labor bis zum praktischen Einsatz". Dr. Peter Lee, Leiter von Microsoft Research, äußert sich darin mit der Feststellung: "Wissenschaftliche Entdeckungen sind eine der wichtigsten Anwendungen von KI".
In der ersten Hälfte des Jahres 2025 habe Microsoft zahlreiche Forschungsarbeiten in Fachzeitschriften veröffentlicht, neue Tools eingeführt und sei Kooperationen in Bereichen wie Medizin, Energie, Biologie und Quantenphysik eingegangen. Das Ziel: Die Erforschung komplexer Fragen und die daraus entstehenden anwendungsorientierten Erkenntnisse mit Hilfe von "leistungsstarker und vertrauenswürdiger" KI zu beschleunigen. KI mache laut den Website-Angaben bereits jetzt "einen Unterschied" in den Forschungsbereichen Gesundheitswissenschaften, Klimaforschung oder generell bei der Analysierung komplexer Datensätze.
Erkannte Limits
Im Juli veröffentlichte das Massachusetts Institute of Technology wiederum eine Studie, die besagt, dass Werkzeuge generativer Künstlicher Intelligenz (KI) wie ChatGPT und Copilot primär die individuelle Produktivität steigern und selten zu strukturellen Veränderungen führen. Ein großes Manko ist laut Studienbericht die Tatsache, dass die meisten Systeme generativer KI das ihnen gegebene Feedback nicht für die Zukunft berücksichtigen, sich nicht an den Kontext anpassen und sich nicht mit der Zeit verbessern.
Am 19. August kamen Hilke Schellmann und sein Team von der Columbia Journalism Review nach einigen Experimenten mit den KI-Tools ChatGPT-4o, Claude Opus 4, Perplexity Pro und Gemini 2.5 zu dem Schluss, dass diese kurze Zusammenfassungen gut erstellen können. Beim Zusammenfassen längerer, komplexerer Inhalt würden sie allerdings versagen: "Nur etwa die Hälfte der Fakten, die in den von Menschen erstellten langen Zusammenfassungen enthalten waren, wurden in den von der KI generierten Fakten gefunden."
Das Team aus Journalistinnen und Journalisten prüfte zudem die fünf KI-Forschungstools Elicit, Semantic Scholar, ResearchRabbit, Inciteful und Consensus, indem sie Literaturübersichten angefordert hätten. "Wir verglichen die KI-generierten Übersichtsarbeiten mit von Menschen verfassten Literaturübersichten, die in vier preisgekrönten wissenschaftlichen Arbeiten aus den verschiedenen wissenschaftlichen Bereichen der Sozialwissenschaften, Informatik, Chemie und Medizin zu finden sind", beschreibt Schellmann das Vorgehen.
"Die Ergebnisse waren enttäuschend und in einigen Fällen alarmierend. Keines der Tools produzierte Literaturrecherchen mit signifikanten Überschneidungen zu den Benchmark-Arbeiten, mit Ausnahme eines Tests mit Semantic Scholar, bei dem etwa 50 Prozent der Zitate übereinstimmten", resümieren sie. In allen vier Tests hätten die meisten Tools weniger als 6 Prozent der gleichen Arbeiten identifiziert, die in den von Menschen verfassten Überprüfungen zitiert wurden. Nach Wiederholung der Tests seien zudem inkonsistente Ergebnisse festgestellt worden. Trotz der Grenzen des Experiments gebe vor allem die Inkonsistenz Anlass zur Sorge, wie diese Instrumente Relevanz oder Bedeutung in einem wissenschaftlichen Bereich definierten.
cva