Realitäts-Check
Nur jede zweite wissenschaftliche Studie replizierbar
Eine internationale Analyse mit Beteiligung der Universität Witten/Herdecke (UW/H) zeigt, dass nur etwa jede zweite Studie einer Überprüfung standhält. So teilte es die Universität in einer Pressemitteilung mit. Das Ziel des weltweit größten Forschungsprojekts zur Verlässlichkeit wissenschaftlicher Befunde namens SCORE (Systematizing Confidence in Open Research and Evidence) sei es gewesen, die Eindeutigkeit von Studienergebnissen zu überprüfen. Die Ergebnisse der SCORE-Studie wurden Anfang April im Fachmagazin Nature veröffentlicht.
Forschende aus knapp 100 Institutionen haben demnach 164 veröffentlichte Arbeiten aus den Sozial- und Verhaltenswissenschaften auf ihre Nachvollziehbarkeit getestet. Hierfür untersuchten sie die Ursprungsfrage in einem Wiederholungsvorgang mit neuen Versuchspersonen. Teil des Forschungsteams waren die drei Psychologen Professor Jan Philipp Röer, Professor Johannes Michalak und Professor Thomas Ostermann von der UW/H.
Die Unterschiede in der Replizierbarkeit zwischen den Disziplinen innerhalb der Sozial- und Verhaltenswissenschaften waren gering, mit Replikationsraten zwischen 42,5 Prozent und 49 Prozent, heißt es in der Studie. Die ausgewählten Fachzeitschriften, in welchen die Studien veröffentlicht worden sind, wurden zu Darstellungszwecken in sechs Disziplinen aufgeteilt. Diese waren Wirtschaft (einschließlich Organisationsverhalten, Management und Marketing), Volkswirtschaftslehre (einschließlich Finanzen), Erziehungswissenschaften, Politikwissenschaft (einschließlich öffentlicher Verwaltung), Psychologie (einschließlich Gesundheitspsychologie) und Soziologie (einschließlich Kriminologie).
Wissenschaft im Härtetest – Selbstkritik angesagt?
Etwa die Hälfte der untersuchten Befunde ließ sich zwar bestätigen, allerdings fielen die Ergebnisse in den Wiederholungen meist schwächer aus als in den ursprünglichen Arbeiten. Das zeigt laut den Forschenden: Die eigentliche Herausforderung liegt weniger in einzelnen Studien, sondern darin, wie mit ihren Ergebnissen umgegangen wird. Häufig würden sie eindeutiger dargestellt, als sie tatsächlich sind – in der Wissenschaft selbst ebenso wie in Medien, Politik und Öffentlichkeit.
"Veröffentlicht und wahr sind keine Synonyme, und die Unsicherheit bekannt gemachter Aussagen wird möglicherweise unterschätzt", heißt es dazu in der SCORE-Studie. Bei vielen publizierten Ergebnissen sei es ungewiss, ob sie überhaupt repliziert werden können, ob sie robust gegenüber geringfügigen Variationen im Forschungskontext sind, ob sie auf andere Kontexte übertragbar sind und ob sie gültige Interpretationen der Evidenz darstellen.
Das Autorenteam nennt in der Studie gängige Erklärungen für niedrige Replikationsraten.
Dazu gehörten:
- die Unterbewertung negativer oder nicht eindeutiger Ergebnisse,
- hohe Stichprobenfehler aufgrund kleiner Stichproben,
- Messfehler aufgrund unzuverlässiger Messmethoden,
- mangelnde Strenge und Qualitätskontrolle im Forschungsdesign und bei der Messung,
- fragwürdige Forschungspraktiken, die die Wahrscheinlichkeit positiver Ergebnisse erhöhen sowie
- eine Forschungskultur, die neuartige und „interessante“ Ergebnisse belohne und Fehlerkorrekturen eher behindere.
"Ich glaube nicht, dass das ein Problem für die Glaubwürdigkeit wissenschaftlicher Befunde ist", sagt Röer der HW/U zufolge. "Eine fehlgeschlagene Replikation heißt nicht unbedingt, dass der ursprüngliche Befund falsch ist, sondern zunächst einmal nur, dass die Summe der einzelnen Ergebnisse weniger eindeutig ist als zuvor angenommen." Für ihn ist das SCORE-Resultat kein Anlass zur Resignation, sondern ein Auftrag. Es gehe darum zu verstehen, unter welchen Bedingungen Befunde stabil sind und unter welchen nicht. Gescheiterte Replikationen zeigten auf, wo weitere Forschung nötig sei, um das vollständige Bild zu zeichnen.
"Eine fehlgeschlagene Replikation heißt nicht unbedingt, dass der ursprüngliche Befund falsch ist."
Professor Jan Philipp Röer, HW/U
Open Science als Weg zu einer nachvollziehbaren Wissenschaft
Das Autorenteam stellt fest, dass eine erfolgreiche Replikation nicht bedeutet, dass die ursprüngliche Behauptung richtig und die ursprüngliche Forschung korrekt war. Auch lasse sich die Replizierbarkeit eines Effekts nicht gleichsetzen mit der Validität seiner Interpretation. Eine optimale Replikationsrate sei schlicht nicht bekannt. "Replikationsstudien helfen, Schwachstellen und Sackgassen aufzudecken, Randbedingungen zu identifizieren und theoretische Vorhersagen und Erklärungen weiterzuentwickeln, die die Replizierbarkeit im Laufe der Zeit verbessern", schlussfolgern die Forschenden.
SCORE hat nach Einschätzung der UW/H vorgelebt, wie Wissenschaft funktionieren sollte. Alle Datensätze, Auswertungsschritte und Codes lägen offen, für jeden zugänglich, nachvollziehbar und weiterverwendbar. Das sei das Versprechen von Open Science: Forschung nicht hinter verschlossenen Türen zu praktizieren, sondern als gemeinsames, überprüfbares Projekt zu verstehen. "Transparenz muss zum Standard werden", sagt Röer. "Nur so kann Wissenschaft verlässliches Wissen schaffen, auf dem andere aufbauen können."
cva