Rote Plastik-Krake auf einer einer Computertastatur
mauritius images / Bildagentur-online/O hde / Alamy

Urheberrecht
Grenzen des "Web Scrapings"

Für die empirische Forschung werden häufig Informationen von Webseiten "abgekratzt". Aber nicht immer ist das "Web Scraping" erlaubt. Ein Überblick.

Von Thilo Klawonn 07.01.2020

Web Scraping wird inzwischen in der empirischen Forschung vermehrt verwendet. Damit wird ein Verfahren bezeichnet, mit dem Daten aus dem Internet "abgekratzt" werden. "Scraper" sind kleine Programme, die die gewünschten Websites aufrufen und von dort die Informationen, beispielsweise Hotelpreise, auslesen und in einer Datei speichern, die die Forschenden dann für ihre Untersuchung verwenden können. So wurden beispielsweise für ein Forschungsprojekt die Preisdaten von 30.000 Hotels durch Scraping von Onlinereisebüros wie Booking.com erhoben, um Bestpreisklauseln zu analysieren.

Bei empirisch Forschenden besteht häufig Unsicherheit hinsichtlich der rechtlichen Rahmenbedingungen beim Einsatz von Web Scraping. In diesem Beitrag wird dargestellt, welche urheberrechtlichen Grenzen in der Forschung zu beachten sind.

Recht der Webseitenbetreiber

Die Webseitenbetreiber haben keine eigentumsähnlichen Rechte an den auf ihrer Seite gespeicherten Daten. Die Zusammenstellung der Daten hingegen kann durchaus einem Schutz unterliegen. Denn in der EU existiert das sog. Datenbankherstellerrecht. Websites wie Bewertungsportale, Onlinebörsen oder soziale Netzwerke sind in aller Regel Datenbanken in diesem Sinne. Man kann also davon ausgehen, dass die meisten für die empirische Forschung relevanten Webseiten eine Datenbank darstellen.

Dem Datenbankhersteller steht das exklusive Recht zu, seine Datenbank zu vervielfältigen, zu verbreiten und öffentlich wiederzugeben. Dabei handelt es sich um urheberrechtliche Fachbegriffe: Vervielfältigen bedeutet kopieren, Verbreiten ist das physische Weiterreichen von Original oder Kopie und eine öffentliche Wiedergabe der Datenbank liegt vor, wenn man sie anderen in nicht-physischer Form zur Verfügung stellt, etwa durch Einstellen ins Intra- oder Internet. Beim Web Scraping muss man zwangsläufig etwas vervielfältigen. Wenn der Scraper die Informationen extrahiert, kopiert er sie in den Arbeitsspeicher und anschließend auf die Festplatte. Somit begeht man bereits eine Vervielfältigungshandlung, die grundsätzlich nur dem Datenbankhersteller zusteht.

Rechtliche Zulässigkeit

Die gute Nachricht vorneweg: Im Regelfall ist Web Scraping für die empirische Forschung dennoch zulässig. Daran können auch die Nutzungsbedingungen der Websitebetreiber nichts ändern. Denn häufig werden nur unwesentliche Datenbankteile verwendet. So war es beispielsweise beim Scraping von 30.000 Preisdaten der Onlinereisebüros, was nur einen Bruchteil der Gesamtdatenbanken darstellen dürfte. Unwesentliche Teile der Datenbank kann im wissenschaftlichen Kontext jeder im Grunde kopieren und weiterverwenden. Allerdings dürfen wirksame technische Schutzmaßnahmen beim Web Scraping nicht umgangen werden. Verhindert der Webseitenbetreiber also das automatisierte Auslesen der Daten, zum Beispiel in der sogenannten robots.txt, darf die Forschende sich nicht darüber hinwegsetzen.

"Wenn besonders viele oder schwierig zu erlangende Daten kopiert werden sollen, ist Vorsicht walten zu lassen."

Weitere rechtliche Einschränkungen bestehen dann, wenn wesentliche Teile der Datenbank verwendet werden sollen. Ob es sich um einen wesentlichen Teil einer Datenbank handelt, lässt sich nicht abstrakt sagen. Der Bundesgerichtshof hat aber beispielsweise bei Übernahme von zehn Prozent einer Datenbank gesagt, das sei nicht quantitativ wesentlich. In einem anderen Verfahren kam er zu dem Schluss, dass jährliche Personalkosten in Höhe von 200.000 Euro eine qualitativ wesentliche Investition sei. Wenn also besonders viele oder schwierig zu erlangende Daten kopiert werden sollen, ist Vorsicht walten zu lassen. Gleichwohl ist auch das nicht per se verboten.

Zum einen steht Forschern, die auf der sicheren Seite sein wollen, immer die grundsätzliche Möglichkeit offen, beim Webseitenbetreiber um Erlaubnis zu fragen. Nicht immer ist das jedoch möglich oder methodisch sinnvoll. Doch auch ohne Einwilligung gibt es Möglichkeiten, wesentliche Teile von Datenbanken für die Forschung zu verwenden.

Wissenschaftsschranke, Text und Data Mining

Nach der urheberrechtlichen Wissenschaftsschranke kann jeder für seine eigene, nicht-kommerzielle wissenschaftliche Forschung bis zu 75 Prozent von urheberrechtlich geschützten Werken vervielfältigen. Das gilt auch für Datenbanken. Eine Weitergabe der vervielfältigten Datensätze ist allerdings von dieser Erlaubnisvorschrift nicht gedeckt. Das ist schon der Fall, wenn der Datensatz die eigene Forschergruppe verlässt, zum Beispiel wenn man die Daten zwecks Qualitätskontrolle weiterleiten will.

 

Daneben hat der deutsche Gesetzgeber 2018 eine Schranke für Text und Data Mining (TDM) eingeführt. Sie erlaubt zu nicht-kommerziellen, wissenschaftlichen Zwecken eine Vielzahl von Werken zu vervielfältigen, um einen Korpus zu erstellen. Bei Datenbanken ist es aber nicht zulässig, das Korpus zur Qualitätskontrolle weiterzugeben. Ebenso nicht erlaubt ist es, die gesamte Datenbank zu vervielfältigen. Eine Totalerhebung der in einer Datenbank gespeicherten Daten ist deswegen ohne Einwilligung des Herstellers nie erlaubt.

Eine wichtige Einschränkung der TDM-Schranke betrifft den zeitlichen Horizont. Vervielfältigungen und Korpus dürfen nur für ein konkretes Forschungsprojekt erstellt und müssen nach Abschluss dieses wieder gelöscht werden. Dauerhaft archivieren dürfen das Korpus nur öffentliche Bibliotheken, Archive und vergleichbare Institutionen.

Der wesentliche Unterschied zwischen den beiden Schranken lässt sich also auf Umfang der Vervielfältigung und Speicherung reduzieren: Nach der TDM-Schranke darf fast die gesamte Datenbank kopiert werden, die Kopien müssen aber nach Beendigung des Forschungsprojekts gelöscht bzw. an die Bibliothek weitergegeben werden. Nach der Wissenschaftsschranke hingegen dürfen die Kopien auch im Anschluss behalten werden, es dürfen jedoch nur bis zu 75 Prozent der Datenbank vervielfältigt werden. In beiden Fällen müssen die Datenbank und ihr Hersteller als Quelle angegeben werden.

Fazit

Im Regelfall ist Web Scraping für die empirische Forschung rechtlich zulässig. Die Nutzungsbedingungen, die häufig verwendet werden, ändern daran nichts. Anders sieht es mit technischen Sperren aus, die nicht umgangen werden dürfen.

Wer sicher gehen will, kann den Hersteller der Datenbank um Erlaubnis fragen und sich diese – am besten in Textform (zum Beispiel per E-Mail) – geben lassen. In Zweifelsfällen beraten die Rechtsabteilungen der Forschungseinrichtungen.