Publikationen
Forschungsteam entwickelt KI-Filter für gefälschte Studien
Gefälschte Studien stellen vor allem die Krebsforschung seit einigen Jahren vor große Probleme, da sie durch erfundene Daten wissenschaftlichen Erkenntnisgewinn behindern oder im schlimmsten Fall Menschenleben gefährden. Forschende der Queensland University of Technology in Australien haben nun eine Technik entwickelt, die Krebsstudien auf ihre Authentizität prüfen kann. Auf Grundlage sprachlicher Besonderheiten soll die Künstliche Intelligenz (KI) bereits durch den Abgleich von Titeln und Abstracts Fälschungen erkennen. Dabei stützt sich die Studie auf frühere Forschungsergebnisse, nach denen sogenannte Paper Mill-Texte schon in den Abstracts eine geringere lexikalische Vielfalt aufweisen und stark auf Layout- sowie Textvorlagen beruhen.
Gegen Bezahlung produzieren Paper Mills Forschungstexte, um die Publikationsliste ihrer Kunden zu füllen. In einem Bericht der Zeitschrift Nature von 2023, auf den sich die Verfasserinnen und Verfasser der Studie beziehen, wurde der Anteil der Forschungsarbeiten in den Bereichen Biologie und Medizin aus dem Jahr 2022, die starke Ähnlichkeiten zu Paper Mill-Texten aufweisen, auf knapp drei Prozent geschätzt. Gerade in der molekularen Krebsforschung könne der Anteil jedoch deutlich höher sein, da der Publikationsdruck hoch, die Daten leicht zu fälschen und Peer-Review-Möglichkeiten begrenzt seien.
Forschungsteam testet 2,6 Millionen Artikel
Die Datengrundlage des neuen KI-Filters bilden 2.202 nachweislich gefälschte Studien aus der Retraction Watch-Datenbank, die zurückgezogene wissenschaftliche Artikel verzeichnet. Als Kontrollgruppe wurde dieselbe Anzahl echter Studien herangezogen. Damit authentische Studien internationaler Wissenschaftlerinnen und Wissenschaftler nicht aus sprachlichen Gründen als verdächtig markiert werden, speiste das Team gezielt englischsprachige Artikel internationaler Fachmagazine in die Kontrollgruppe ein, darunter Studien aus China, Taiwan, Schweden, Finnland und Norwegen. Um Paywalls zu umgehen, wurde das Modell ausschließlich mit Titeln und Abstracts trainiert.
Getestet wurde die KI schließlich anhand eines Datensatzes aus 2,6 Millionen Texten, die zwischen 1999 und 2024 in der Datenbank PubMed erfasst wurden, und aus insgesamt 11.632 Zeitschriften stammen. Dabei konzentrierten sich die Forschenden auf Zeitschriftenartikel und schlossen beispielsweise klinische Studien oder Literaturberichte aus, da deren Überprüfung andere KI-Modelle erfordern würde.
Auch Publikationsorgane mit großer Reichweite sind betroffen
Die KI stufte insgesamt 261.245 Artikel als verdächtig ein, das sind etwa 9,87 Prozent des Datensatzes. Dabei stieg die Anzahl der verdächtigen Publikationen pro Jahr seit 1999 exponentiell an und verzeichnete 2023 einen leichten Einbruch, bevor sie 2024 erneut stieg. Der kurzzeitige Rückgang ist nach Ansicht der Wissenschaftlerinnen und Wissenschaftler möglicherweise auf ein erhöhtes Problembewusstsein der Publikationsorgane in den letzten Jahren zurückzuführen. 36 Prozent der verdächtigen Texte stammten aus China, gefolgt von Iran mit 20 Prozent und Saudi-Arabien mit 16 Prozent. Thematisch verzeichneten Arbeiten zu Magenkrebs (22 Prozent), Knochenkrebs (21 Prozent) und Leberkrebs (20 Prozent) die höchsten Werte an mutmaßlich gefälschten Studien.
Bemerkenswert und bedenklich sei die Beobachtung, dass auch Verlage mit großer Reichweite zunehmend mit Paper Mill-Studien zu kämpfen hätten. Hier mache sich laut Autorinnen und Autoren unter anderem die "publish-or-perish"-Kultur der aktuellen Forschungslandschaft bemerkbar.
Weiterentwicklung des Modells nötig
Ihre Studienergebnisse einschränkend weisen die Autorinnen und Autoren auf die noch dünne Forschungslage zu Paper Mills hin. Auch erkenne die entwickelte KI nur Texte von Paper Mills, mit deren Arbeiten sie trainiert wurde, nicht aber solche von ihr noch unbekannten Einrichtungen.
Eine Weiterentwicklung des Modells sei auch beim Abgleich von Spracheigenschaften und -mustern nötig. So bestätigten die Ergebnisse zwar bisherige Studien, die einen hohen Anteil chinesischer Artikel unter den Paper Mill-Texten ausmachen. Es bestehe allerdings das Risiko, dass KI-Modelle Merkmale chinesischer Linguistik mit Paper Mill-Eigenschaften assoziieren und so authentische Texte als verdächtig markieren.
Der genaue Ablauf des KI-gesteuerten Abgleichs müsse ebenfalls weiter erforscht werden. Es sei beispielsweise nicht zu erkennen, ob die markierten Artikel tatsächlich Paper Mill-Eigenschaften aufweisen oder das Modell aufgrund anderer Faktoren anschlägt. So könnten beispielsweise authentische Texte, die sich wiederum stark an einem Paper Mill-Text orientieren, von der KI als Verdachtsfall eingestuft werden.
hae