Studie
KI bewertet Prüfungsaufgaben großzügiger
Künstliche Intelligenz (KI) eignet sich für eine kritische Zweitkorrektur im Rahmen universitärer Prüfungen. Zu diesem Ergebnis kommt die Studie eines Forschungsteams der Universität Passau aus den Bereichen Wirtschaftswissenschaften und Informatik. Die Wissenschaftlerinnen und Wissenschaftler konzentrierten sich auf die Leistung von KI bei der Bewertung von Freitextaufgaben. Dieser Korrekturschritt bindet viele Ressourcen, weil jede Antwort individuell bewertet werden muss. Die Studie erschien in der Fachzeitschrift Scientific Reports, zuerst hatte die Süddeutsche Zeitung berichtet.
Laut Studie kommt das Sprachmodell ChatGPT von OpenAI beim Einordnen von Freitextaufgaben zu ähnlichen Bewertungen wie menschliche Prüferinnen und Prüfer. So wurden bei der Erstellung einer Rangfolge der studentischen Antworten vergleichbare Ergebnisse erzielt. Etwas anders sah es bei der Bewertung der Textantworten nach einem Punktesystem aus: Hier urteilte ChatGPT großzügiger und wich teilweise um fast eine Note nach oben ab. KI könne die menschliche Korrektur noch nicht ersetzen, schlussfolgert das Forschungsteam. Für eine Zweitkorrektur sei sie aber durchaus einsetzbar.
KI bevorzugt keine KI-generierten Antworten
Um nicht von der Annahme ausgehen zu müssen, dass die menschliche Korrektur immer richtig liegt, wendete das Passauer Forschungsteam eine neue Methode an: Sie ließen für sechs Fragen je 50 Antworten durch geschulte Korrekturassistentinnen sowie durch ChatGPT bewerten. Übereinstimmungen zwischen den Bewertungen seien als Maßstab für die Nähe zu einer vermuteten Wahrheit genutzt worden. Im nächsten Schritt habe man eine Prüferin durch KI ersetzt. Wurden dadurch höhere Übereinstimmungen erzielt, sei dies als Hinweis auf eine überlegene Leistung der KI interpretiert worden.
Bei einzelnen Fragen hat ChatGPT laut Studie tatsächlich besser abgeschnitten. Außerdem habe sich die KI als robust und vielseitig einsetzbar erwiesen. "In unseren Tests blieb die Qualität von GPT-4 auch bei unpräzisen oder fehlerhaften Instruktionen weitgehend stabil", erläutert Abdullah Al Zubaer, der für die Programmierung der technischen Umsetzung und Auswertung des Experiments zuständig war.
Weitere Erkenntnisse der Studie: KI-generierte Antworten brachten Prüflingen bei der Bewertung durch eine KI keinen Vorteil. Auch eine Vorliebe für längere Antworten ließ sich nicht erkennen.
hes