Umgang mit Forschungsdaten
Zukunftsthema
Die Regeln der guten wissenschaftlichen Praxis (GWP) legen nicht fest, was gute, überzeugende Wissenschaft ist. Das muss im Austausch der Argumente, dem wissenschaftlichen Diskurs geklärt werden. GWP-Regeln sollen die Mindestbedingungen sichern, die gute, überzeugende Wissenschaft erst ermöglichen. Man kann das mit den Regeln im Sport, z.B. den Fußballregeln, vergleichen. Ein Fußballspiel ist nicht gelungen, weil die Spieler es geschafft haben, keine roten Karten zu bekommen. Hagelt es aber rote Karten, dürfte ein ansehnliches Spiel überhaupt nicht zustande kommen.
Gute wissenschaftliche Praxis = gute Wissenschaft?
Wissenschaft ist kein Spiel, aber wie ein Spiel hat sie viel mit Kooperation und Konkurrenz zu tun. Die insgesamt steigenden Fallzahlen des von der DFG eingesetzten Gremiums "Ombudsman für die Wissenschaft", das bei Vorwürfen wissenschaftlichen Fehlverhaltens berät, vermittelt und schlichtet, zeigen: Die Unsicherheiten hinsichtlich des Zugangs zu und der Aufbewahrung von Forschungsdaten nehmen zu. Die Fragen, denen die Gremiumsmitglieder (zwei Professorinnen und zwei Professoren), unterstützt von einer Geschäftsstelle, nachgehen, sind vielfältig (www.ombudsman-fuer-die-wissenschaft.de). In der aktuellen Debatte zur Replizierbarkeit von Forschungsergebnissen ist Klarheit darüber nötig, was Daten sind und wie mit ihnen umzugehen ist.
Was sind "Daten"?
Es ist schon keine triviale Frage, was "Daten" sind. Die DFG-Denkschrift "Sicherung guter wissenschaftlicher Praxis" (2. Aufl. 2013) spricht von Primär- und Originaldaten (in der Forschungspraxis ist hierfür auch der Begriff "Rohdaten" gebräuchlich, die Wortverwendungsweise ist uneinheitlich). Außerdem ist der Begriff "Sekundärdaten" gängig, der die Verarbeitung von Primärdaten etwa durch Interpretation oder durch eine Datenaggregation bezeichnen kann. Was "Daten" sind, hängt stark vom jeweiligen wissenschaftlichen Kontext ab: Wer zum Beispiel in der theoretischen Informatik forscht, wird die Unterscheidung von Roh-, Original-, Primär- oder Sekundärdaten wenig plausibel finden.
Primärdaten sind Informationen, die insbesondere durch Beobachtung, Befragung oder Experiment zum Zwecke wissenschaftlicher Erkenntnis gewonnen werden und die nach dem für das Forschungsprojekt maßgeblichen Selbstverständnis zu den ersten ("primär") Elementen im Prozess der Wissensgenerierung gehören, sie bilden den epistemisch relevanten Anfang (lateinisch: "origio"). Beispiele sind (zum Beispiel in Laborbüchern dokumentierte) Messergebnisse, Fragebögen oder Ton- bzw. Filmaufnahmen von Interviews (etwa in der psychologischen oder sozialwissenschaftlichen Forschung).
Die DFG-Denkschrift nennt als weitere Beispiele für Daten unter anderem Sammlungen, archäologische Funde, Materialproben und Zellkulturen. Dass Materialproben, also kleinere Mengen, die von einem Stoff entnommen werden, Daten sind, wird deutlich, wenn man den Informationsgehalt fokussiert, der einem (beispielsweise experimentell hergestellten) Material innewohnt und der durch Analysen sichtbar wird. Auch archäologische Funde können einen Informationsgehalt haben, wenn sie zum Beipsiel der Rekonstruktion antiker Bauten dienen und im Rahmen eines kunstgeschichtlichen Forschungsprojekts Aufschlüsse über antike Baukunst versprechen. Zellkulturen sind ebenfalls Daten: Tumorzelllinien, die Aufschluss über bestimmte Wachstums- oder Teilungsprozesse geben, beinhalten Informationen, die der Erforschung von Krebserkrankungen dienen.
Auch "unbearbeitete" Materialien, die zunächst keinem Forschungszweck dienen (etwa bei einer Biopsie im Rahmen einer ärztlichen Behandlung gewonnenes Gewebe), können so dargestellt werden, dass hunderte archivierter Gewebeproben auf einem einzelnen Gewebeschnitt kombiniert sind (Tissue Microarray-Technik). So wird gegenüber konventionellen immunhistochemischen Methoden die simultane Untersuchung einer großen Anzahl von Gewebeproben auf Biomarker-Expressionen möglich (Gakis u.a., BIOspektrum 2007, 739). Auf diese Weise liefert die Gewebesammlung, die anhand einer bestimmten Methode untersucht wird, wissenschaftlich relevante Informationen, also Daten.
Als "Faustformel" gilt: Der Begriff der "Daten" ist weit auszulegen. Die infrastrukturellen Rahmenbedingungen (etwa Messgeräte), mit deren Hilfe Daten generiert werden, sind allerdings ebenso wenig Daten wie etwa Werkstücke, "an" denen Daten gewonnen werden (zum Beispiel ein Brückenmodell, an dem Bauingenieure das Schwingungsverhalten von Brücken testen).
Wem "gehören" die Daten?
Wem "gehören" die Daten, wer darf sie nutzen? Die DFG-Denkschrift fasst die im Detail deutlich komplexere Rechtslage dem Grunde nach plausibel zusammen: "In der Regel verbleiben die Originaldaten […] am Entstehungsort." Und: "Die Nutzung steht insbesondere dem/den Forscher(n) zu, die sie erheben." Insbesondere bei einrichtungsübergreifenden Forschungskooperationen muss klar geregelt werden, inwieweit Personen, die der einen Einrichtung angehören, Zugang zu Daten der anderen Einrichtung haben.
Wer darauf verzichtet, wird nervenaufreibende Konflikte kaum vermeiden können. Der Datenzugang kann auch durch allgemeiner gefasste Normierungen gesteuert werden. So könnte etwa eine Hochschulsatzung für eine Biobank festlegen, wem unter welchen – fairen – Voraussetzungen die Daten unmittelbar oder, falls möglich, als Duplikat zugänglich sind (eine Option, die die DFG-Denkschrift ausdrücklich erwähnt).
Forschungsdaten dürften nur selten urheberrechtlich geschützt sein. Meistens werden sie mangels sogenannter Schöpfungshöhe keine persönlichen geistigen Schöpfungen sein (Paragraf 2 Abs. 2 Urhebergesetz). "Plakativ gesprochen muss ein Teil des Schaffenden oder die geistige intellektuelle Höhe im Werk erkennbar sein. In maschinell erzeugten Forschungsdaten ist die Schöpfungshöhe nicht erkennbar, möglicherweise sind aber die weiterverarbeiteten Daten – je nach Aggregationsstufe und der damit verbundenen geistigen Leistung – doch schutzwürdig. Allerdings zeichnen sich Forschungsdaten ja gerade dadurch aus, dass sie nicht vom Individuum des Forschenden abhängen sollen" (so die zutreffenden Hinweise auf dem generell sehr informativen Portal www.forschungsdaten.info).
Die (auf www.forschungsdaten.info zu findende) Empfehlung, Forschungsdaten "generell zunächst als schutzwürdig im Sinne des UrhG zu behandeln, da manchmal die dafür notwendige geistige Leistung gegeben sein könnte", wird meistens nicht zu urheberrechtlichem Schutz führen, wirkt aber im Sinne einer Vorsichtsregel präventiv: Wer Daten verwendet, sollte sich rechtzeitig Gedanken darüber machen, wie es um etwaige Rechte und Interessen anderer bestellt ist – und im Zweifel frühzeitig mit den anderen sprechen.
Datenschutz – eine bekannte Unbekannte
Besondere Vorsicht ist bei Fragen des Datenschutzes geboten. Er schützt in erster Linie die Persönlichkeitsinteressen derer, die ihre Daten zur Verfügung stellen. Man denke an die medizinische Forschung und die Verwendung von Daten für medizinische Langzeitstudien. Der Rat für Informations-Infrastrukturen hat im vergangenen Jahr Empfehlungen dazu vorgelegt, wie angesichts einer rasanten Digitalisierung der Forschungspraxis ein datenschutzkompatibles Forschungsdatenmanagement aussehen muss ("Datenschutz und Forschungsdaten", www.rfii.de). Welche Handlungsspielräume die neue EU-Datenschutz-Grundverordnung lässt, müsste noch mehr diskutiert werden.
Genauso wichtig ist es, dass die unterschiedlichen Akteure, die sich mit Fragen des datenschutzsensiblen Forschungsdatenmanagements beschäftigen (RfII, HRK, die anderen Mitglieder der Allianz der Wissenschaftsorganisationen, Universitäten, außeruniversitäre Forschungseinrichtungen etc.), ihre jeweilige Problemwahrnehmung und Expertise bündeln. Dann könnten Empfehlungen – auch an politisch Verantwortliche – gemeinsam, also mit größerer Aufmerksamkeitschance adressiert werden. Zu den gemeinsamen Aufgaben gehört auch, für das Forschungsdatenmanagement Regeln der guten wissenschaftlichen Praxis zu definieren. In den 2015 vorgelegten "Empfehlungen zu wissenschaftlicher Integrität" des Wissenschaftsrats wird dieser Zusammenhang klar gesehen.
Noch wichtiger ist der Austausch über good bzw. best practices, also darüber, wie vor Ort, etwa in einer Universität, ein datenschutzkonformes und damit auch GWP-kompatibles Forschungsdatenmanagement erfolgreich praktiziert werden kann. So verständlich die Forderung nach mehr Geld für bessere Dateninfrastrukturen ist, so wenig darf sie zur Ausrede dafür werden, das Thema zulasten der Forschenden und derer, von denen die Daten stammen, auf die lange Bank zu schieben.
Aufbewahrung von Daten
Zur Frage nach dem Ausbau der Infrastruktur gehört auch die Infrastruktur zur Aufbewahrung nicht-digitalisierter Daten. Wie erwähnt, meint die DFG-Denkschrift, "in der Regel" müssten die Daten am Entstehungsort verbleiben. Soweit bekannt, wird die laut DFG-Denkschrift für zehn Jahre garantierte Datenaufbewahrung nicht überall mit gleich großem Engagement umgesetzt. So kommt es vor, dass Forschende, die an eine andere Wirkungsstätte wechseln, Daten mitnehmen.
Schon mit Blick auf die Kosten der Aufbewahrung wird das von der abgebenden Institution meistens (stillschweigend) begrüßt. Die 10-Jahres-Regelfrist stellt für einen längeren Zeitraum sicher, dass Zweifel an der Integrität von Forschenden verlässlich überprüft werden können. Die Frist dient auch der Einrichtung, an der die Daten gewonnen wurden, denn sie kann ebenfalls Vorwürfen ausgesetzt sein, z.B. dem Vorwurf, defizitäre Aufsichtsstrukturen hätten eine Datenmanipulation erst ermöglicht. Das sollte im Blick behalten, wer über "begründete" Ausnahmen von der 10-Jahres-Frist nachdenkt, die die DFG-Denkschrift nicht ausschließt.
Die Probleme der Datenaufbewahrung belegen exemplarisch: Der Umgang mit Forschungsdaten ist ein wichtiges Zukunftsthema der sehr dynamischen Debatte über die Regeln der guten wissenschaftlichen Praxis.