
Urheberrecht Grenzen des "Web Scrapings"
Für die empirische Forschung werden häufig Informationen von Webseiten "abgekratzt". Aber nicht immer ist das "Web Scraping" erlaubt. Ein Überblick.
Viele Forschungsaktivitäten greifen auf digitale wissenschaftliche Quellen zurück und können dort über digitale Nutzungsspuren nachverfolgt werden. Die Anbietenden der Informationsressourcen – zum Beispiel große Wissenschaftsverlage – können diese Spuren festhalten, aggregieren und weiterverwenden oder verkaufen, warnt ein Ausschuss der Deutschen Forschungsgemeinschaft (DFG). Um auf das Thema "Datentracking in der Wissenschaft" und deren Folgen aufmerksam zu machen, hat der Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme (AWBI) vergangene Woche ein 13-seitiges Informationspapier veröffentlicht.
Wissenschaftlerinnen und Wissenschaftler nutzen für ihre Arbeit demnach täglich digitale Informationsquellen wie zum Beispiel Literatur- und Volltextdatenbanken. Dabei hinterlassen sie Spuren, die unter anderem Aufschluss über gesuchte und genutzte Inhalte, Verweildauern und Downloads geben, heißt es in dem Papier. Die Daten einer Person aus verschiedenen Quellen könnten dabei miteinander und mit weiteren persönlichen Informationen, auch aus dem nicht wissenschaftlichen Umfeld, kombiniert werden. Wer beispielsweise Artikel in der Zeitschrift "Nature" aufrufe, werde von mehr als 70 Tracking-Instrumenten nachverfolgt, heißt es in dem Papier.
Neben der Bereitstellung und Verwaltung von wissenschaftlicher Literatur böten Verlage zunehmend Services wie Forschungsdatenmanagement und Forschungssoftware an. Die Wissenschaftsverlage wandelten sich so von reinen Content Providern immer weiter hin zu Data Analytics Businesses und würden dafür auch die Nutzerdaten sammeln und teils weiterverkaufen. Möglich sei dies durch Regelungslücken und unterschiedliche internationale Gesetzeslagen. Das habe Konsequenzen für die Wissenschaft und deren Institutionen, die oft unzureichend über das Vorgehen informiert seien. Wissenschaft als öffentliches Gut würde dabei zunehmend privatisiert.
So entstünden umfassende Datensammlungen über wissenschaftliche Aktivitäten Einzelner und ganzer Einrichtungen in kommerzieller Hand, die für Datenmissbrauch oder Wissenschaftsspionage verwendet werden könnten. Hochschulen und Bibliotheken könnten dabei auch ohne ihr Wissen zu Mitwirkenden in der Verletzung von Datenrecht, Wissenschaftsfreiheit und Wettbewerbsrecht werden – beispielsweise durch unzureichende Klauseln in Verträgen mit Großverlagen.
Teilweise könne die Datenerhebung auch sinnvoll sein – etwa für die Verbesserung der Dienstleistungen der Verlage oder zur Steuerung von Wissenschaftseinrichtungen –, aber nur, wenn sie transparent erfolge und die Daten nicht in den falschen Händen landeten. Hier nennt das Papier zum Beispiel ausländische Regierungen, autoritäre Regime und kommerzielle Forschungskonkurrenten.
Tracking könne daher der Wissenschaftsfreiheit widersprechen und Forschende gefährden, schließt der DFG-Ausschuss aus diesem Vorgehen der Verlage. Deshalb müssten Wissenschaftlerinnen und Wissenschaftler sowie Forschungseinrichtungen die Problematik kennen, um sie reflektieren und geeigenete Maßnahmen starten zu können. "Die Wissenschaftsorganisationen sollten dafür einstehen, dass die Datensammlung und Datennutzung – wo sie nötig ist – nicht nur legal, sondern auch durch ethische Werte geprägt sind", so der Appell der DFG.
Die Daten über die wissenschaftlichen Aktivitäten von Forschenden gewinnen die Verlage der Bestandsaufnahme der DFG zufolge über drei Wege:
ckr
Für die empirische Forschung werden häufig Informationen von Webseiten "abgekratzt". Aber nicht immer ist das "Web Scraping" erlaubt. Ein Überblick.
1 Kommentar
In vielen Jahren praktischer Tätigkeit im Lizensierungsgeschäft und als Leiter einer Hochschulbibliothek in Deutschland ist mir kein einziger Versuch eines Verlags begegnet, solches zu tun. Auch im regelmässigen Austausch mit Kolleginnen und Kollegen anderer deutscher Hochschulbibliotheken ist mir noch nie von einem solchen Versuch berichtet worden. Ein derartiger Vorgang wäre auch nicht nur ein eklatanter Verstoß gegen die DSGVO, er würde auch in jeder Hinsicht gegen die im deutschen wissenschaftlichen Bibliothekswesen etablierte und praktizierte Berufsethik verstossen.
Die Behauptung der DFG, dass die Installation von Verlagstrojanern an Bibliotheken deutscher Hochschulen üblich sei, wie es dem Papier zu entnehmen ist, gefährdet m. E. nach das Vertrauen der Wissenschaftlerinnen und Wissenschaftler in ihre Bibliotheken, und ist damit mehr als geeignet, der Wissenschaft an sich zu schaden. Was die DFG mit einer solchen unbewiesenen Behauptung bezwecken will, ist mir unklar, aber sie erweist sich damit einen Bärendienst.