Harddrives und Kabel in einem Server-Raum
mauritius images / Tetra Images / Erik Isakson

Digitale Souveränität
Sicherung von Forschungsdaten ist "zeitkritisch"

US-Behörden stellen viele Forschungsdaten künftig nicht mehr frei zugänglich zur Verfügung. Institutionen in Deutschland sind dabei, sie zu sichern.

Von Charlotte Pardey 15.05.2025

Die Sicherung von Forschungsdaten ist hochrelevant: US-Präsident Donald Trump kürzt die Finanzierung von US-Behörden, die zentrale Plattformen für Forschungsdaten bereitstellen. Zudem gestaltet er die US-Wissenschaft um entsprechend seiner Überzeugung von dem was relevant und irrelevant ist. Die Folge: Wichtige Datenbestände sind in Gefahr, weil sie auf US-Infrastrukturen beruhen. Institutionen in Deutschland sind dabei, Daten zu sichern und Alternativen zu US-Datenbanken zu schaffen.

Neue Infrastruktur für medizinische Publikationen im Aufbau

Im Bereich der Lebenswissenschaften und der Biomedizin sind Daten gefährdet, die ethnisch bedingte Gesundheitsunterschiede betreffen, ebenso wie die Gesundheit von LGBTQIA+-Personen und Aspekte, die mit dem Thema "Gender" zusammenhängen, das geht aus Medienberichten von Anfang Februar hervor. Forschende in Deutschland besorgt die Abhängigkeit von der Datenbank PubMed. Die bibliografische Datenbank wird von der US-amerikanischen National Library of Medicine (NLM) an den National Institutes of Health (NIH) unterhalten und bietet öffentlich zugänglich Abstracts und Zitate von Artikeln in wissenschaftlichen Zeitschriften. 

Noch ist unklar, welche Auswirkungen die Kürzungen auf die Datenbank und nachgelagerte Dienstleistungen haben werden, so Dr. Miriam Albers und Professor Konrad Förstner gegenüber Forschung & Lehre. Sie leitet den Programmbereich Bibliothek, er ist Leiter des Programmbereichs Data Science and Services der Deutschen Zentralbibliothek für Medizin (ZB MED) – Informationszentrum Lebenswissenschaften. Ein krisenfestes System, das Deutschland digitale Souveränität biete, sei nötig. 

Über eine eigene Datenbank plant ZB MED aktuell – mit Unterstützung von Drittmitteln – eine Alternative zu PubMed aufzubauen, wie das Informationszentrum zu Beginn der vergangenen Woche mitteilte. Bereits jetzt stelle die Datenbank alle verfügbaren Inhalte von PubMed täglich aktualisiert bereit und mache sie über das Suchportal LIVIVO zugänglich.

"Eine sinkende Qualität bei der Schnelligkeit, Konstanz und Pflege der Daten ist eine akute Gefahr." Konrad Förstner

Es gehe nicht nur darum, dass das gesamte Angebot von PubMed abgeschaltet werde könnte. Ebenso problematisch seien schon kleinere Veränderungen: "Eine sinkende Qualität bei der Schnelligkeit, Konstanz und Pflege der Daten ist eine akute Gefahr", so Förstner. Es müsste nicht nur für die Sicherung historischer Daten gesorgt sein, sondern auch für die Verschlagwortung und Indizierung von kontinuierlich neu erscheinenden Publikationen. Bei der Ergänzung von Metadaten aus dem kontrollierten Indexvokabular von PubMed, das jährlich aktualisiert werde, könne es zu Veränderungen und Verschlechterungen kommen, so dass Inhalte nicht mehr auffindbar sein könnten.

Albers und Förstner berichten, dass ZB MED dabei sei, die Infrastruktur zu entwickeln. Zahlreiche Aspekte, wie die Workflows zur Datenverarbeitung und die Kompatibilität mit bestehenden PubMed-Datenformaten, würden noch geklärt. Aktuell werde ein Initialprojekt bei der Deutschen Forschungsgemeinschaft (DFG) beantragt. Software-Komponenten sollten in den kommenden 18 Monaten als Open-Source-Lösung entwickelt werden. Perspektivisch sollen weitere Quellen integriert und das Indexvokabular gepflegt und erweitert werden. Währenddessen würde weiterhin der tagesaktuelle Stand von PubMed gespiegelt. Es sei ungewöhnlich, so früh im Projektverlauf über die Absichten zu berichten, aber besondere Herausforderungen erforderten ein ungewöhnliches Vorgehen, so Albers und Förstner.

Erd- und Umweltdaten nur noch per Archivanfrage

Bereits Anfang April hatte die US-amerikanische Wetter- und Ozeanografiebehörde (National Oceanic and Atmospheric Administration, NOAA) die ersten Ankündigungen veröffentlicht, dass zahlreiche Daten im Verlauf des Monats Mai nicht mehr angeboten würden. Dazu gehören beispielsweise die Erdbebendaten der "Seismicity Catalog Collection". Die Sammlung enthält Daten von vier Millionen Erdbeben zwischen den Jahren 2150 vor und 1996 seit unserer Zeitrechnung. Inzwischen sind die Daten nicht mehr über NOAA frei zugänglich, sondern nur noch über eine Archivanfrage bei der Behörde einsehbar.

Stattdessen finden sich die Daten seit Ende April bei dem deutschen Repositorium PANGAEA, das vom Alfred-Wegener-Institut Helmholtz-Zentrum für Polar- und Meeresforschung (AWI) und dem Zentrum für Marine Umweltwissenschaften der Universität Bremen Open Access zur Verfügung gestellt wird. Es garantiert die langfristige Verfügbarkeit der Daten. Zusammen mit vier weiteren Datensätzen, deren Angebot über die NOAA-Website ebenfalls im Mai eingestellt wurde, trägt die Datensammlung das Label "US Data Rescue Initiative 2025". 

PANGAEA bemüht sich, geeignete historische Daten zu sichern, die in den USA künftig nur noch schwer einsehbar sein werden. Für die Sicherung durch das Repositorium seien hauptsächlich numerische Daten geeignet, weniger Bild- und Videodaten, wie Professor Frank Oliver Glöckner gegenüber Forschung & Lehre erläutert. Er ist Leiter von PANGAEA und Professor für Erdsystem Datenwissenschaften.

PANGAEA ist kein neues Projekt. Seit 1987 existiert das Repositorium für Erd- und Umweltdaten. Es speichert die NOAA-Daten in Rücksprache mit der Behörde und mit weiteren Akteurinnen und Akteuren, die sich über das Data Rescue Project austauschen. So soll vermieden werden, dass sich die Bemühungen überschneiden und einige Daten mehrfach und andere nicht gesichert werden. Das Projekt hat sich zusammengefunden, um US-Regierungsdaten zu sichern, zu welchen der Zugang eingestellt wird.

"Die zukünftig ausbleibenden Daten werden große Löcher in den Datenteppich reißen und das Verständnis von globalen Zusammenhängen wie dem Klimawandel behindern." Frank Oliver Glöckner

Glöckner betont, dass PANGAEA aktuell nur historische Daten sichert. Prozessierungsschritte, wie zum Beispiel die Transformation von gemessenen Rohdaten zu qualitätsgesicherten Datenprodukten, die NOAA ebenfalls übernommen hat, könnten nicht geleistet werden, da sowohl die Expertise als auch die Expertinnen und Experten in Europa fehlten. "Die zukünftig ausbleibenden Daten werden große Löcher in den Datenteppich reißen und das Verständnis von globalen Zusammenhängen wie dem Klimawandel und dem Verlust der Biodiversität behindern", so Glöckner.

Datensouveränität für Deutschland und Europa

Ebenfalls an der Sicherung von US-Forschungsdaten beteiligt ist der DataHub Erde und Umwelt, eine gemeinsame Initiative aller Helmholtz-Zentren für Erd- und Umweltforschung, die unter anderem auch PANGAEA als Repositorium nutzt. DataHub erlaubt Forschenden, Daten zu speichern, zu managen und zu teilen, aber auch sie zu analysieren und visualisieren.

Einzelne US-Datensätze seien bereits gesichert worden, sagte Sören Lorenz zu Forschung & Lehre. Er ist Chief Information Officer (CIO) am GEOMAR Helmholtz-Zentrum für Ozeanforschung Kiel sowie Co-Sprecher von DataHub. Dazu hätte es inoffizielle Anfragen von Forschenden in Deutschland sowie in den USA gegeben. Gerade US-Einrichtungen wollten durch Anfragen nicht noch zusätzlich unter Druck geraten, so Lorenz, der über diese keine weiteren Angaben machen wollte. Es müssten allerdings nicht nur Daten gesichert werden, sondern auch die weiteren Dienstleistungen, die auf diesen beruhen.

Professor Wolfgang zu Castell erläutert dazu, dass die Datenverarbeitung bei der Erdbeobachtung "meist in internationalen Verbünden" erfolge. Er ist Direktor des Departments Geoinformation am GFZ Helmholtz-Zentrum für Geoforschung und ebenfalls Sprecher von DataHub. "Je nach Expertise und Kapazität übernehmen die einzelnen Schritte der Datenverarbeitung unterschiedliche Partner". Fielen Partner aus, komme es zu Lücken in der Prozessierung. "Diese Lücken kurzfristig zu schließen, ist eine Herausforderung". 

Aktuell würden Daten gesichert, die einen statischen Zeitpunkt widerspiegeln. "Wenn wir die Datendienste aber weiterhin für die Wissenschaft benötigen, müssen wir Sorge tragen, dass auch zukünftig die Aufbereitung und Bereitstellung zuverlässig erfolgt", so zu Castell. Die Erdsystemforschung könne nicht allein aus Deutschland heraus unterhalten werden. Gerade in diesem Forschungsbereich sei die internationale Zusammenarbeit von starken Partnern wichtig, die Datendienste für die nationale und internationale Wissenschaft bereitstellen.

"Die NOAA verfügt über viele Daten und war bisher ein verlässlicher Partner für die globale Gemeinschaft." Sören Lorenz 

Allgemein sei in der Erdsystemforschung die Angewiesenheit auf US-Daten sehr groß, allein schon um ein lückenloses Gesamtbild für die wissenschaftliche Interpretation erzeugen zu können, erläutert Lorenz. "Die NOAA verfügt über viele Daten und war bisher ein verlässlicher Partner für die globale Gemeinschaft". Aktuell würde deutlich, dass diese Abhängigkeit reduziert und die eigene Datensouveränität erhöht werden müsse. Es sei "zeitkritisch", dass Deutschland und Europa eigene Datenbestände halten. Bemühungen wie der DataHub, die Nationale Forschungsdateninfrastruktur und die European Open Science Cloud seien wichtig. Expertinnen und Experten zur Verwaltung der Daten seien nötig, müssten ausgebildet und gehalten werden.

Bereits vor einigen Wochen hatte der MDR berichtet, dass das damalige Bundesforschungsministerium die Allianz der Wissenschaftsorganisationen gebeten habe, mögliche Abhängigkeiten der deutschen Wissenschafts- und Forschungslandschaft von US-amerikanischen Daten und Datenbanken zu ermitteln. Die Helmholtz-Gemeinschaft sowie die Fraunhofer-Gesellschaft hätten dies bestätigt, eine Prüfung laufen, Ergebnisse gebe es noch keine. 

Aktuelle Entwicklungen betreffen das Open Science-Anliegen

"Wir erleben grundsätzliche Veränderungen in der Verlässlichkeit in internationalen Kooperationen", beschreibt zu Castell weitere Herausforderungen durch die aktuelle Situation. Wissenschaft basiere seit Jahrzehnten auf verlässlichen Verbünden. Forschungsvorhaben und -Infrastrukturen hätten lange Vorlaufzeiten. Ausfälle von bisher verlässlichen Partnern gefährdeten daher bereits angelaufene Prozesse und getätigte Investitionen. 

"Die aktuellen Entwicklungen gefährden einen über viele Jahrzehnte erzielten Konsens." Wolfgang zu Castell

Auch das Bemühen um Offenheit und Reproduzierbarkeit wissenschaftlicher Ergebnisse und damit das Open Science-Projekt an sich leide: Open Science lebe von vielen Diensten, die im Hintergrund zur Verfügung stehen, wie etwa die Identifikation von Wissenschaftlerinnen und Wissenschaftlern durch ORCID (Open Researcher and Contributor iD). "Die aktuellen Entwicklungen gefährden einen über viele Jahrzehnte erzielten Konsens", so zu Castell. Allerdings sei es be all dem Negativen zu begrüßen, dass durch die aktuelle Diskussion die Bedeutung von Daten und Datenprodukten mehr in den Fokus der Aufmerksamkeit gerate.