Illustration: Ein Mauszeiger schwebt auf einem Display über einem Button zum Melden eines Twitter-Tweets.
picture alliance / dpa Themendienst / Andrea Warnecke

Bekämpfung von Online-Hetze
Wie Algorithmen Hate Speech im Netz erkennen

Immer wieder stehen soziale Medien in der Kritik, weil sie zu wenig gegen Hass und Hetze tun. Neue Software soll Meldestellen die Arbeit erleichtern.

18.06.2022

Das Internet ist ein Ort der Begegnung, wobei der Umgangston leider häufig zu wünschen übrig lässt. Hate Speech und Hetze sind Online weit verbreitet, insbesondere in sozialen Medien dominieren beleidigende und diffamierende Postings, berichtet Professorin Melanie Siegel, die zu dem Thema forscht. Dies führe zu einer Verrohung der Umgangformen in allen Lebensbereichen. Der "Bekämpfung von Hetze" – analog wie digital – widmen die Vereinten Nationen in diesem Jahr erstmals einen internationalen Aktionstag, den 18. Juni. Erklärtes Ziel ist unter anderem, Hasskommentare und Desinformationen in Medien zu bekämpfen, da sie großen Schaden anrichteten.

Doch das ist leichter gesagt als getan. Denn wie erkennt und man Hetze, Hass und Lügen im Netz und wer wühlt sich durch die schier unendliche Fülle der Beiträge? Den Betreibern von Social Media Plattformen gelingt die Moderation ihrer Inhalte bisher nur unzureichend. Informationswissenschaftlerin Melanie Siegel von der Hochschule Darmstadt arbeitet mit ihrem Team an Lösungen, die auf Künstlicher Intelligenz (KI) beruhen. Die KI soll systematischer und schneller negative Postings erkennen als Menschen es bislang vermögen.

Im Forschungsprojekt "DeTox – Detektion von Toxizität und Aggressionen in Postings und Kommentaren im Netz" haben die Forschenden automatisierte Erkennungs- und Klassifikationsverfahren von Hate Speech und Fake News entwickelt. Grundlage waren 2.500 deutschsprachige Kommentare aus verschiedenen sozialen Medien, die die beteiligte Meldestelle für Hasskommentare den Forschenden vorklassifiziert zur Verfügung gestellt hatte. Die Kriterien für die Auswahl erfüllten Postings, Kommentare und Bilder, die Menschen aufgrund von Nationalität, Hautfarbe, ethnischer oder religiöser Zugehörigkeit, Weltanschauung, Behinderung, Geschlecht, sexueller Orientierung, politischer Haltung, äußerer Erscheinung oder sozialem Status angriffen.

Zusätzlich hatte das Forscherteam auf Twitter mit sogenannten "Crawlern" selbst rund 10.000 solcher Kommentare gesammelt und annotiert, also beurteilt und klassifiziert. Weitere rund 1,5 Millionen Tweets zu deutschen Talkshows haben die Forschenden zu Referenzzwecken gesammelt, ohne sie zu annotieren.

Woran Sprachtechnologien Online-Hetze erkennen

Mittels dieser Tweets und maschinellem Lernen haben die Forschenden ihre KI-Methoden immer weiter verfeinert. Jeder Tweet wurde bei diesem KI-Training von drei Personen bewertet. Die so generierten Algorithmen identifizieren nun zuverlässig toxische und aggressive Inhalte und ordnen sie automatisch einzelnen Straftatbeständen zu, sofern diese erfüllt werden. Doch wie funktioniert das? "Hate Speech ist aufgrund der offensiven Sprache relativ leicht zu greifen. Aber auch Fake News kann man schon an der Art der Sprache erkennen", erklärt Informationswissenschaftlerin Siegel. Hinweise dafür seien beispielsweise auffällig viele Personalpronomen oder Emojis.

"Wir geben der Software keine Vorgaben, welche sprachlichen Aspekte auf Hate Speech oder Fake News hinweisen, sondern nur die Information, dass es sich um solche handelt. Die KI erlernt daraus selbstständig, welche Kriterien relevant sind", erkärt Siegel. Bei Hassnachrichten seien das zum Beispiel bestimmte Wörter, mehrere Ausrufezeichen hintereinander, gängige Rechtschreibfehler oder Schreibweisen von Wörtern, die nur in sozialen Medien üblich seien. "Diese Dinge hätte kein Forscher selbst auf eine Kriterienliste geschrieben", bemerkt Siegel. Die für Menschen oft leichter zu erkennende Ironie sei für den Algorithmus allerdings noch ein große Herausforderung.

Ein System, das Hate Speech und Fake-News vollautomatisch filtert, sei ihr entwickeltes Werkzeug nicht, betont Siegel. "Die Meinungsfreiheit ist ein hohes Gut, daher würde ich die Filterung niemals komplett automatisiert Maschinen überlassen." Ihre Software sei als Hilfe für Mitarbeitende bei Meldestellen gedacht, die die damit vorklassifizierten Ergebnisse bewerten und manuell aussortieren müssten. Ihre Daten und Erkenntnisse haben die Darmstädter Forschenden mit internationalen Forschungsgruppen diskutiert, um ihre Werkzeuge weiterzuentwickeln. Bis zum Projektabschluss Ende Juni sollen auch alle Befunde auf der Projektseite geteilt werden. Entsprechende wissenschaftliche Publikationen seien ebenfalls in Arbeit.

Dass gegen Online-Hetze dringend gehandelt werden muss, hat unter anderem auch das Forschungsteam um Dr. Fabian Winter am Bonner Max-Planck-Institut zur Erforschung von Gemeinschaftsgütern belegt. Experimente hatten dort gezeigt, dass sich Hasskommentare steigern, da sich Nutzer am negativen Ton einer Onlinedebatte orientieren und viele dann ihrerseits negativere Kommentare verfassen. Hasskommentare führten in der Untersuchung dazu, dass darauffolgende Äußerungen noch negativer ausfielen. Zurechtweisungen und Gegenkommentare hätten daran nichts geändert, einzig das Löschen der negativen Äußerungen habe einen weiteren Verfall des Umgangstons verhindert, berichten die Forschenden.

Internationaler Tag für die Bekämpfung von Hetze

Die Vereinten Nationen begehen am 18. Juni 2022 erstmal den "Internationalen Tag für die Bekämpfung von Hetze". In einer Resolution hatten sie sich im vergangenen Jahr darauf verständigt, zur Förderung von interkulturellem und interreligiösem Dialog und Toleranz, Hetze zu bekämpfen. Von nun an soll jährlich am 18. Juni an dieses Ziel erinnert werden. "Es gibt keine Rechtfertigung für Hassreden, was auch immer deren Motivation sein mag", heißt es in dem Beschluss.

ckr