Notizblock und Laptop mit verschiedenen Diagrammen auf dem Bildschirm steht auf einem Schreibtisch
mauritius images / Nipiphon na chiangmai / Alamy

Forschungsdatenmanagement
Open Data oder streng gesichert?

In der Forschung fallen viele Daten an. Wie sicher können und müssen sie gespeichert werden? Eine Datenmanagement-Expertin im Gespräch.

Von Claudia Krapp 04.12.2020

Forschung & Lehre: Während früher alles auf Papier geschrieben stand, liegen die meisten Forschungsdaten heute digital vor. Erste Daten werden auch auf DNA gespeichert. Welche Datenform wird künftig dominieren?

Elisabeth Böker: Papier hat nach wie vor den Vorteil, dass es extrem langlebig sein kann. Pergament können wir sogar über hunderte von Jahren gut lesen. Auch ist Papier bei richtiger Herstellung und Lagerung sehr beständig. Es braucht aber vergleichsweise großen Lagerraum und ist anfällig für eine Zerstörung durch Säurefraß, Schädlinge und Feuer. Letzteres verschont aber auch digitale Datenträger nicht. Bei der digitalen Speicherung kommt es auf die Auswahl der richtigen Datenträger an, um Daten nachhaltig zu speichern. Während digitale Daten generell bereits platzsparend sind, ist eine Speicherung auf DNA nochmals kompakter möglich und damit sehr vielversprechend und ressourcenschonend. Auf 1 Gramm DNA passen derzeit 215.000 Terabyte Daten, eine gigantische Menge. Zudem ist DNA bei idealer Lagerung mehrere Jahrtausende haltbar sowie fehlerfrei auslesbar und kopierbar – im Gegensatz zu digitalen Daten, die bei jeder Kopie Verluste verzeichnen. Bisher hat sich DNA als Speicherform jedoch noch nicht durchgesetzt, weil sie noch zu kompliziert und zu teuer ist, vor allem hinsichtlich der benötigten Geräte zum Auslesen. Massentauglich sind derzeit also vor allem digitale Datenformen.

Dr. Elisabeth Böker, Buchwissenschaftlerin, Chefredakteurin von "forschungsdaten.info", Projektkoordinatorin des Landesprojekts "bw2FDM" und Mitarbeiterin des Teams Open Science am Kommunikations-, Informations-, Medienzentrum (KIM) der Universität Konstanz. Böker

F&L: Auch die Speichermedien haben sich verändert, von Disketten über CD-ROMs und Festplatten bis zu Online-Clouds. Worauf sollten Forschende ihre Daten sichern?

Elisabeth Böker: Digitale Speichermedien sind sehr schnelllebig. Dadurch sind sie bereits nach einigen Jahren nicht mehr auslesbar, wenn die entsprechenden Lesegeräte fehlen. Für die Langzeitarchivierung müssen Bibliotheken, die dort gesicherten Datenbestände auf jeweils neuere Formate transferieren, um sie zu erhalten. Forschende speichern natürlich auf den aktuell gängigen Medien. Wenn sie aus Komfortgründen mobile Datenträger wie USB-Sticks und Festplatten verwenden, sollten sie immer mehrere Kopien anfertigen, sonst sind bei Verlust des Geräts alle Daten verloren. Orientieren können sich Wissenschaftlerinnen und Wissenschaftler an der sogenannten 3-2-1-Backup-Regel: Fertige mindestens drei Kopien an und lagere sie an mindestens zwei verschiedenen Orten, davon eine auf einer Cloud. Zu empfehlen sind hier institutionelle Clouds, wie sie viele Hochschulen anbieten und die Backups garantieren, statt solcher von externen Anbietern, da dort datenschutzrechtliche Probleme auftreten können. Die schwierigste Prognose im Forschungsdatenmanagement (FDM) besteht für Forschende, Bibliotheken und Data Curators darin, vorauszusagen, welche Daten langfristig relevant sind. Daher fordert die DFG in den Leitlinien zur guten wissenschaftlichen Praxis die Langzeitarchivierung von Daten für mindestens zehn Jahre in Repositorien oder in der Einrichtung, wo sie entstanden sind.

"Orientieren können sich Wissenschaftler an der sogenannten 3-2-1-Backup-Regel."

F&L: Die meisten modernen Datenträger können über Passwörter gesichert werden. Sollten Wissenschaftler ihre Forschungsdaten vor Zugriff durch andere Personen sperren?

Elisabeth Böker: Nicht bei allen Daten ist das notwendig. Haben Forschende vor, ein Patent anzumelden, empfehle ich auf jeden Fall ein Passwortschutz. Aber auch bei sensiblen Personendaten oder einmaligen Forschungsdaten sollten Wissenschaftlerinnen und Wissenschaftler gut überlegen, wer alles Zugriff darauf erhält und sie vor Missbrauch schützen. Gerade bei kooperativer Forschung sollten die Rollen und Zugriffsrechte über einen Datenmanagementplan klar definiert sein. Für das Verwalten der Passwörter empfiehlt sich eine Passwortsafesoftware. In Verbünden sollte aber stets eine zweite Person über ein Backup-Passwort für den Notfall verfügen.

F&L: In Drittmittelanträgen fordern Förderer bereits oft einen Datenmanagementplan. Wer macht diese Pläne und wer setzt sie um?

Elisabeth Böker: Fest verankert und gefordert sind solche Pläne zum Beispiel bei Anträgen bei der DFG, dem BMBF oder im Rahmen von Horizon 2020, mittlerweile auch häufig in Hochschulregeln. Wer bei Aufstellung und Umsetzung von Datenmanagementplänen wie beteiligt ist, ist von Projekt zu Projekt unterschiedlich, je nach teilnehmenden Institutionen und Forschenden. Richtschnur sind auch hier die Leitlinien zur guten wissenschaftlichen Praxis, wonach die Rollen und Verantwortlichkeiten der beteiligten Personen zu jedem Zeitpunkt des Forschungsprozesses geklärt sein müssen. In der Regel schreiben die Forschenden ihre Pläne selbst, bekommen dabei aber Unterstützung vom Forschungssupport oder FDM-Beauftragten einer Hochschule. Am KIM in Konstanz bekommen wir zunehmend mehr Anfragen zu Datenmanagementplänen. Diese Beratungsangebote sind ratsam anzunehmen, um die Förderchancen zu erhöhen. Ein häufiger Fehler, auf den wir dann hinweisen können, ist, dass die Erlaubnis zur Veröffentlichung von personenbezogenen Daten, zum Beispiel von Interviewpartnern, nicht beim Interview selbst eingeholt werden. Im schlimmsten Fall sind die Rechte im Nachklang nicht mehr zu bekommen und damit dürfen die Daten nicht verwendet werden.

Vor der endgültigen Zerstörung durch sogenannten Tintenfraß bewahrt worden sind diese Blätter aus dem theologisch-philosophischen Nachlaß des Caspar Sagittarius (1597-1667). picture-alliance / ZB

F&L: Bleibt bei der zunehmenden Digitalisierung noch genug Geld für die Pflege des analogen Bestands?

Elisabeth Böker: Natürlich gibt es einen Verteilungskonflikt, der angesichts vielerorts stagnierender Etats und aktueller Förderlinien klar zu Gunsten digitaler Formate entschieden wird. In einigen Fachdisziplinen wie Archäologie oder Buchwissenschaften ist der analoge Bestand trotzdem unersetzlich. Digitale Zusatzangebote schaffen dort aber einen Mehrwert und erleichtern die Forschung.

F&L: Wie wichtig ist es, alte Schriften, Urkunden oder Landkarten zu digitalisieren?

Elisabeth Böker: Alte Dokumente, etwa aus dem Mittelalter, sind besonders häufig von Tintenfraß betroffen, wobei die damalige eisenvitriolhaltige Tinte das Papier angreift und die Dokumente stark beschädigt. Zudem können diese Dokumente zwar oft sicher gelagert werden, aber jeder Handgriff von Forschenden, die damit arbeiten wollen, gefährdet oder beschädigt die Dokumente. Bibliothekare und Archivare sind daher entsprechend zurückhaltend, Personen den Zugriff zu gewähren. Es ist daher durchaus ratsam, wertvolle alte Schriften zu digitalisieren, auch um sie ortsunabhängig zugänglich zu machen.

F&L: Für die Publikation digitaler Daten kommen im Zuge von Open Science eine Vielzahl an bestehenden Plattformen in Frage, zum Beispiel die europäische Cloud EOSC oder fachspezifische Repositorien einzelner Institutionen, künftig auch die bundesweite NFDI. Sind das nicht unnötige Doppelstrukturen?

Elisabeth Böker: Unterschiedliche Anbieter von Repositorien sind durchaus sinnvoll, um verschiedenen Bedürfnissen wegen der geltenden Standards im Fach, aber auch hinsichtlich Sicherheitsvorkehrungen, Datenschutz, Transparenz oder Sichtbarkeit nachzukommen. Eine Veröffentlichung der Forschungsdaten in fachspezifischen Repositorien ist immer gut für die Sichtbarkeit in der eigenen Community. Allerdings kann oder muss auch eine Publikation in institutionellen oder generischen Repositorien in Betracht gezogen werden, wenn es noch kein fachspezifisches Angebot gibt, der Speicherplatz limitiert ist oder Geldgeber dies fordern. Vor allem aber sollten die Daten für andere Forschende zugänglich gemacht und bestenfalls zur unkomplizierten Nachnutzung bereitgestellt werden. Üblich sind hierfür inzwischen Creative-Common (CC)-Lizenzen, vorrangig CC-BY 4.0 und CC 0. Durch die parallelen Strukturen kann es schonmal unübersichtlich werden, es gibt aber gute Suchdienste für Repositorien wie zum Beispiel re3data. Vor Projektbeginn empfiehlt es sich für jeden Forschenden, über solche Dienste nach relevanten Daten zu suchen – ganz so, wie sie auch nach relevanten Publikationen recherchieren.

"Es gibt auch Ausnahmefälle, in denen die Veröffentlichung nicht ratsam ist."

F&L: Was sollten Forschende bei der Publikation ihrer Daten berücksichtigen?

Elisabeth Böker: Bei der Entscheidung für ein Repositorium für eigene Ergebnisse können sich Forschende neben der Fachrelevanz an Gütesiegeln orientieren, vertrauenswürdig sind zum Beispiel CoreTrustSeal oder das nestor-Siegel. Um die Siegel zu bekommen, werden die Repositorien hinsichtlich der verwendeten (Metadaten-)Standards und Lizenzen, der Nutzungsbedingungen, sowie des Umgangs mit schutzwürdigen Daten geprüft. Eine Mehrfachveröffentlichung der Daten sehe ich bei der Nutzung solcher ausgezeichneter Repositorien nicht als nötig an, auch um aus Klimaschutzgründen Speicherplatz und Ressourcen nicht überzustrapazieren. Es gibt allerdings auch Ausnahmefälle, in denen die Veröffentlichung generell nicht ratsam ist, beispielsweise wenn Forschende eine Patentierung planen. Das Setzen eines Embargos ist zudem hilfreich, wenn man selbst noch mit den eigenen Forschungsdaten weiterarbeiten möchte. Das wird aber in der Community kontrovers diskutiert, wie aktuell zum Beispiel bei den gesammelten Klimadaten der Mosaic-Expedition.

F&L: Der Verweis auf Literatur per Link statt eines Verweises in Schriftform über Titel oder Autorennamen wird immer üblicher. Wie stellen Forschende sicher, dass die Links aktuell bleiben?

Elisabeth Böker: Bei der Veröffentlichung ihrer Arbeiten sollten Wissenschaftlerinnen und Wissenschaftler darauf achten, dass das Repositorium beziehungsweise der Verlag persistente Identifikatoren vergeben. Bei digitalen Artikeln sind die Identifier DOI oder URN inzwischen üblich. Sie bestehen aus Buchstaben- und Zifferncodes, die eindeutig und dauerhaft auf das verbundene Objekt verweisen. Während sich die URL einer Webseite verändert, wenn diese im Netz verschoben wird, bleiben die Identifikatoren erhalten. Alternativ können auch dauerhafte URLs, sogenannte Permalinks, vergeben werden, was allerdings weniger üblich ist. Statt eines einfachen Links in Form einer URL sollten Forschende bei Quellenangaben im Netz dann den DOI, URN oder Permalink angeben. Die FDM-Servicestellen der Hochschulen unterstützen Wissenschaftlerinnen und Wissenschaftler bei Bedarf durch individuelle Beratung bei Quellenangaben oder der Auswahl geeigneter Datenbanken und Speicherformen.