Auf einer Illustration in gelb-braunen Farben ist eine Frauen-Silhouette zu sehen umringt von technischen Geräten wie einem Laptop.
pixabay/chenspec

Künstliche Intelligenz
ChatGPT erobert die wissenschaftliche Begutachtung

Eine Forschungsgruppe der Universität Stanford misst die Verwendung von ChatGPT im Peer-Review-Prozess. Die Qualitätseinbußen seien unberechenbar.

16.04.2024

Ein Forschungsteam um den PhD in Computerwissenschaften Weixin Liang von der kalifornischen Universität Stanford untersuchte in einer Fallstudie 146.000 Peer Reviews von vier großen KI-Konferenzen auf verwendete Adjektive. Beim Vergleich der Reviews, welche teils vor und teils nach der Veröffentlichung von ChatGPT erschienen waren, habe sich eine Häufung von rund 100 Adjektiven gezeigt, die auffällig oft von ChatGPT verwendet worden seien. 

Ihre Ergebnisse deuteten darauf hin, dass zwischen sieben und 17 Prozent der Texte in erheblichem Maße durch den Einsatz von ChatGPT zustandegekommen oder verändert worden sein könnten. 

Forschungsleiter Liang führt die Verwendung von ChatGPT unter anderem auf Zeitmangel beim Peer-Review-Prozess zurück. Außerdem sei laut Studie auffällig, dass es sich meist um Gutachten mit niedrigerer Bewertung gehandelt habe. Gegenüber "Nature" führte Liang aus, er wolle keine generelle Bewertung abgeben, ob es nun gut oder schlecht sei, KI-Tools zur Begutachtung zu nutzen. 

"Aber wir glauben, dass es für Transparenz und Rechenschaftspflicht wichtig ist, abzuschätzen, wie viel von diesem endgültigen Text durch KI generiert oder geändert worden sein könnte", erläutert er die Position, die er und sein Team vertreten. 

ChatGPT werde nachweislich für wissenschaftliche Texte genutzt 

Die Ergebnisse von Liangs Team werden durch eine Analyse von Andrew Gray, ein Beauftragter für Bibliometrie am University College London, insofern untermauert, dass er die Verwendung von KI-Tools für das Verfassen von wissenschaftlichen Arbeiten bestätigt hat. 

Gray spricht in seiner Auswertung von begutachteten Studien, die zwischen 2015 und 2023 veröffentlicht wurden, sogar von einer zunehmenden "ChatGPT-Kontamination", da schätzungsweise mindestens 60.000 Artikel – etwas mehr als 1 Prozent aller Artikel, die 2023 veröffentlicht wurden – durch den Einsatz von großen Sprachmodellen (LLM) unterstützt entstanden seien. 

Laut einer "Nature"-Umfrage aus 2023 unter mehr als 1.600 Wissenschaftlerinnen und Wissenschaftlern könnte es sich sogar um einen 30-prozentigen Anteil handeln, den die Verwendung von KI-Werkzeugen inzwischen beim Schreiben von wissenschaftlichen Arbeiten einnimmt. 15 Prozent seien es demnach beim Schreiben von Förderanträgen. 

Gray betont in seiner Arbeit das sich daraus ergebende ganz grundsätzliche Problem, dass KI-Sprachmodelle aus bestehenden Inhalten generiert würden. Gebe es in Zukunft immer mehr KI-gestützte publizierte Texte, so würde das Ausgangsmaterial der Sprachmodelle immer artifizieller und damit qualitativ minderwertiger. 

Themen-Schwerpunkt "Künstliche Intelligenz"

Künstliche Intelligenz greift zunehmend in das alltägliche Leben ein. Welche Chancen und Risiken birgt dies? Woran arbeitet die KI-Forschung? Welche Folgen hat KI in der Lehre? Ausgewählte Artikel zum Thema finden Sie im Schwerpunkt "Künstliche Intelligenz".

Gründe, warum ChatGPT keine Gutachten schreiben sollte 

"Wenn wir eine geschlossene Prozesskette für den KI-Einsatz haben, die vorne mit der 'maßgeschneiderten', KI-gestützten Produktion von Texten beginnt, optimiert für die späteren Bewertungskriterien, und hinten damit endet, dass Lehrende den Text auf Basis genau dieser Kriterien KI-gestützt bewerten lassen, stellt sich die Frage, ob wir das wirklich wollen oder ob es nicht die gesamte Prozesskette ad absurdum führt", beschrieb Doris Weßels, Professorin für Wirtschaftsinformatik an der Fachhochschule Kiel, kürzlich gegenüber "Forschung & Lehre" die absurd anmutende Tendenz zur Rundumnutzung von KI im wissenschaftlichen Schreibprozess. Sie hält darüber hinaus KI-Detektoren im Bereich textlicher Arbeit für unzuverlässig und setzt sich ähnlich wie Liang für eine Kennzeichnungspflicht ein. 

Dieses Urteil zur Fehleranfälligkeit von Detektoren fällt auch die Plagiatsforscherin Debora Weber-Wulff von der HTW Berlin, die selbst eine Studie zum Thema KI-Detektoren durchgeführt hat. Sie ist überzeugt, dass es keine dauerhaft verlässliche Methode gibt und jemals geben wird, KI-generierte Gutachten oder wissenschaftliche Arbeiten zu identifizieren. Eine solche "Zauber-Software" gebe es nicht. Laut "Nature" ist Weber-Wulff der Meinung, Peer-Review werde durch KI-Systeme korrumpiert. 

Weber-Wulffs Einschätzung nach sei ein KI-Sprachmodell darüber hinaus absolut nicht in der Lage, eine Begutachtung zu leisten. Es könne weder die Entscheidung treffen, ob die forschende Person ihre Überlegungen und Ergebnisse klar dargestellt habe, noch ob methodische Fehler erkennbar seien. Ein weiteres grundsätzliches Problem sei, dass OpenAI in den Nutzungsbedingungen für ChatGPT explizit festgelegt habe, dass man das Copyright am Text besitzen muss, den man dort eingibt. Das sei bei einer Begutachtung nicht der Fall. Außerdem "halluzinierten" KI-Sprachmodelle, das heißt, sie erfinden Zusammenhänge, Namen, Quellen. 

Ein Sprecher von "Springer Nature" sagte, der Verlag bitte die Gutachterinnen und Gutachter, keine Manuskripte in generative KI-Systeme hochzuladen, und wies darauf hin, dass diese "erhebliche Einschränkungen" beispielsweise bezüglich der qualitativen Verlässlichkeit hätten. Zudem könnten die Rezensionen urheberrechtlich geschützte Informationen enthalten, "die nicht außerhalb des Peer-Review-Prozesses weitergegeben werden sollten", heißt es in den redaktionellen Richtlinien von "Nature" zum Einsatz von KI-Sprachmodellen.

cva