Künstliche Intelligenz
Auswirkungen von KI auf die Textproduktion in der Wissenschaft
"I wouldn’t know where to begin." Mit diesem Meme machte der "Fußballlinguist" Simon Meier-Vieracker im April seinem Unmut darüber Luft, dass der Metzler/Springer-Verlag DeepL für die Übersetzung eines deutschsprachigen Sammelbands ins Englische nutzte und die Autorinnen und Autoren darum bat, nur "sinnentstellende Fehler" zu korrigieren. Dieses Vorgehen verrät nicht nur eine Überschätzung des Potenzials maschineller Übersetzung, sondern erwartet von den Autorinnen und Autoren auch eine Übersetzungskompetenz, die diese in der Regel nicht haben, und bürdet ihnen Mehrarbeit und zusätzliche Kosten auf. Der Fall zeigt exemplarisch, dass eine Sensibilisierung für die Fähigkeiten und Grenzen der KI hinsichtlich der Produktion von Wissenschaftstexten nottut. Der folgende Beitrag versucht dies mit Bezug auf die Wissenschaftssprachen Deutsch und Englisch zu leisten.
Wie verändern KI-Tools Schreibprozesse und -produkte?
Da Übersetzen auch Schreiben ist, und man beim wissenschaftlichen Schreiben nicht selten auch übersetzt, mag zunächst die Frage opportun erscheinen, wie die KI Schreibprozesse und -produkte verändern wird. Traditionelle Schreibprozesse lassen sich grob dreiteilen in die Phasen der Planung, der Formulierung und der Überarbeitung, die man sich insbesondere bei erfahrenen Schreibern jedoch nicht als linear verlaufend vorstellen sollte: vielmehr ist der Schreibprozess von Expertinnen und Experten durch das Wechselspiel von Schreiben, Löschen und Reformulieren gekennzeichnet.
Diese "natürliche" Textproduktion, die bisher vor allem in der Revisionsphase durch vergleichsweise wenig "invasive" Tools wie etwa die Rechtschreibkorrektur beeinflusst wurde, kann nun in allen Prozessphasen durch die "artifizielle" Generierung von Text verändert oder gar verdrängt werden. In den letzten Monaten ist hinreichend demonstriert worden, wie zum Beispiel Large Language Models (LLMs) für sämtliche Phasen des Schreibprozesses durchaus beachtliche Hilfestellung leisten können, von der Literaturzusammenschau über die Zusammenfassung oder Reformulierung ganzer Artikel bis hin zu der mehr oder weniger geglückten automatisierten Erstellung von Diskussionsteilen von Aufsätzen auf der Basis von durch den Nutzer zur Verfügung gestellten Untersuchungsergebnissen. Auch die mehrsprachige Textproduktion (Code-Switching), die dann von der KI in eine Sprache überführt wird, wird ab jetzt zum Repertoire möglicher Schreibstrategien gehören. Dieser Prozess birgt jedoch Risiken: Neben der bereits hinreichend diskutierten (urheber- und prüfungs-)rechtlichen Problematik besteht die Gefahr, die so wichtige Phase der Ideenfindung der Maschine zu überlassen und blind gegenüber den offenkundigen Schwächen maschinell erstellter oder übersetzter Texte zu werden.
Worin unterscheiden sich natürliche und KI-generierte Texte?
Wird es künftig möglich sein, menschliche und KI-generierte Texte zu unterscheiden? Die Erwartung, dass das Kriterium sprachlicher Unvorhersehbarkeit zur Unterscheidung beitragen könnte (Hannes Bajohr), erweist sich als trügerisch. Erstens beruht sämtliche Prosa auf "wiederholter Rede", die erfahrene Schreiber durch einige regelhaft beschreibbare Analogien und Deviationen anreichern.
Zweitens sind LLMs auch kreativen Sprachgebrauchs fähig. Es wäre falsch anzunehmen, wie in den Medien häufig durch das Bild des stochastischen Papageis suggeriert wurde, dass LLMs lediglich Wörter nach ihrer Auftretenswahrscheinlichkeit kombinieren; vielmehr können sie auch Konstruktionen analysieren und auf dieser Basis akzeptable neue Formen erzeugen. Ein einfaches Beispiel liefert die metaphorische Konstruktion "a + Nomen + of + a(n) + Nomen" (z.B. "a lion of a man") im Englischen, für die GPT4 bei entsprechendem Prompting sowohl eher abgedroschene ("a tapestry of a story", "a beast of a tempest") als auch originelle Realisierungen bereithält (über deren literarischen Wert sich freilich streiten ließe): "He was a thunderstorm of a musician, his fingers striking the piano keys with electrifying energy (...)." Obwohl LLMs einen elaborierten Schreibstil noch nicht perfekt imitieren können, ist also zu erwarten, dass natürliche und künstliche Texte ununterscheidbar werden und der hybride Text zur Norm wird.
GPT und Co. stärken die Hegemonie des Englischen
Die artifizielle Textproduktion generalistischer LLMs setzt somit in gewisser Weise nur einen Trend in der "natürlichen" Wissenschaftssprache insbesondere der Naturwissenschaften fort; seit den 1950er Jahren führte die Entwicklung in vielen Wissenschaftsbereichen zu einem fast schablonenhaften funktionalen Nominalstil, dessen stark verdichtete Phrasen (zum Beispiel "foreign export supply curves" statt "curves describing supplies of foreign exports") häufig durch einfache Relationsverben (zum Beispiel "cause", "imply") miteinander verknüpft werden. Viele englische Wissenschaftstexte der 50er Jahre ähneln stilistisch eher heutigen populärwissenschaftlichen Arbeiten. Die Durchsättigung damaliger Texte mit Stilmitteln findet sich in manchen Bereichen auch heute noch zum Beispiel in der Romania, im Kontrast zu einem eher nüchteren, schmuckloseren Stil im Englischen. Da Englisch gewissermaßen die Leitsprache von Systemen wie GPT-4 darzustellen scheint, das heißt eine klare Tendenz besteht, englische Stilprinzipien auf andere Sprachen zu übertragen, droht die Proliferation artifizieller Texte die Hegemonie des Englischen und des mit ihm verbundenen Schreib- und Denkstils weiter zu stärken.
Übersetzungen durch Künstliche Intelligenz
Wie bereits erörtert, sind LLMs zwar offenbar eher eifrige Sammler von Mustern der kulturellen Welt (der Popperschen Welt 3) als bloße stochastische Papageien; eines Verstehens im menschlichen Sinne sind sie indes mangels Kenntnis der physischen Welt (Welt 1) und der Welt des Bewusstseins (Welt 2) nicht fähig. Mit anderen Worten: Sie stellen Verbindungen zwischen Form, Inhalt und intratextuellem Gebrauch sprachlicher Konstruktionen her, können diese aber nicht mit physischen oder emotionalen Erfahrungen in Verbindung bringen oder mentale Modelle der physischen Welt entwickeln. So lange dies der Fall ist, werden sich LLMs immer nur asymptotisch einer fehlerfreien Übersetzung annähern können.
Eine groß angelegte Studie von Microsoft belegt, dass LLMs im Vergleich zum MS Translator natürlichere und in höherem Maße "paraphrasierende" Übersetzungen in die Zielsprache Englisch liefern. Diese Leistung beruht wahrscheinlich auf der Nutzung von originalsprachlichen Daten anstelle von vorhandenen Übersetzungen, wodurch "Datenrauschen" und defekte Übersetzungslösungen mit höherer Wahrscheinlichkeit ausgeschlossen werden. Bei Übersetzungen aus dem Englischen schwanken die Leistungen der LLMs je nach Zielsprache; für Englisch-Deutsch sind sie bereits ähnlich gut wie die Online-Übersetzer. Für eine bessere Leistung in dieser Übersetzungsrichtung könnte zurzeit noch eine hybride Methodik zum Einsatz gelangen, die LLMs nur dann nutzt, wenn andere Tools unzufriedenstellende Ergebnisse liefern. Auch ist eine Spezialisierung von LLMs auf bestimmte Textsorten zu erwarten (vgl. zum Beispiel den GPT für Finanzen von Bloomberg).
KI-Tools im Test
Eine qualitative Untersuchung auf Grundlage vorhandener Musterübersetzungen bestätigt die Überlegenheit der LLMs. Allerdings bleiben Herausforderungen bestehen, insbesondere bei Disziplinen, die näher an der Kunstprosa der Geistes- und Sozialwissenschaften liegen. Bei einem typischen sozialwissenschaftlichen Satz (siehe Leistungsvergleich) scheitern DeepL oder PONS (9. Mai 2023) auf der Wortebene zum Beispiel an den falschen Freunden "sukzessive" ("successively") und "exemplarisch" ("exemplarily"), während GPT-4 das akzeptable Adverb "progressively" verwendet und für "exemplarisch" auf eine korrekte Umschreibung mit "example" zurückgreift. Die noch idiomatischere und elegantere Lösung, "sukzessive" durch das Verb "work" im Perfekt, gefolgt von einem Infinitiv, zu ersetzen – wodurch zudem die im Deutschen übliche Bildungssprache durch eine leicht verständliche Konstruktion ersetzt wird – gelingt allerdings selbst GPT-4 nicht. Die paraphrasierende Übersetzung eines deskriptiven Forschungsverbs wie "entfalten" durch "set out the full breadth of issues surrounding X" wird vermutlich dauerhaft außerhalb der Reichweite von Maschinen bleiben. Auf der Ebene der Wortverbindungen bildet DeepL die deutsche Verb-Adverb-Kollokation "etw. methodisch-theoretisch begründen" syntaktisch fehlerhaft genau nach, statt diese wie GPT-4 in eine Nomen-Adjektiv-Kollokation zu transponieren (build and expand the methodological foundations/underpinnings). Auf der Satz- beziehungsweise Absatzebene schließlich kann GPT-4 durch iteratives Prompten auch dazu gebracht werden, einen deutschen Langsatz durch mehrere, kürzere englische Sätze wiederzugeben, die das Thema "he" zweifach aufgreifen.
Leistungsvergleich von Übersetzungen durch Mensch und KI-Tools
Indes lässt auch GPT-4 den Menschheitstraum einer vollautomatisierten Übersetzung nicht in Erfüllung gehen. Insbesondere die stärker der Kunstprosa zuzuordnenden Disziplinen werfen immer noch altbekannte Schwierigkeiten auf; pointiert formuliert scheitert die Maschine – wie gelegentlich auch der Mensch – weiterhin an ausgangssprachlich Originellem (motivationale Gemengelage ≠ "motivational mix", serielles Kalkül [Musikwissenschaft] ≠ "serial calculation") oder tief in fach- und kulturspezifischen Denkmodellen Verwurzeltem ("Gegenwartsdiagnose"), gelegentlich jedoch auch an Banalem (zu Details vgl. die Langversion dieses Beitrags).
Insgesamt ist diesen Modellen jedoch eine wesentlich höhere Idiomatizität im Ausdruck zu bescheinigen als den maschinellen Online-Übersetzern (vgl. zum Beispiel GPT-4: Last year saw a continuation of the trend from recent years. vs. DeepL: Last year, the development of recent years continued.). Negativ schlägt allerdings im Vergleich zu Buche, dass sich entgegen den Befunden der Microsoft-Forschungsgruppe bei Wissenschaftstexten gelegentlich eine sehr vage oder auch halluzinierende Wiedergabe feststellen ließ, die nur durch erneutes Prompting oder händische Korrektur zu verbessern war.
Zur zukünftigen Rolle von Übersetzerinnen und Übersetzern
LLMs werden aufgrund ihrer oben skizzierten Stärken und ihrer dem Menschen weit überlegenen Formulierungsgeschwindigkeit in Zukunft massiv in der Übersetzungsindustrie eingesetzt werden. Sie haben zudem gegenüber traditionellen Werkzeugen den Vorteil, im Bruchteil einer Sekunde gleich mehrere Übersetzungsalternativen zu erstellen, die durch den Humanübersetzer dann in optimaler Weise zusammengeführt werden können. Der Übersetzer wird also nur noch bei komplexer geistes- und sozialwissenschaftlicher Prosa einen Text von Grund auf übersetzen und sich ansonsten durch LLMs inspirieren lassen – er entwickelt sich vom Akkordarbeiter zum Gutachter.
Damit stellt sich natürlich auch die alte Frage mit neuer Virulenz, ob nicht die in zwei Sprachen beheimatete Fachexpertin dem fachlich weniger versierten Übersetzer überlegen ist. Unabhängig davon, wie diese Frage im Einzelfall entschieden wird, wird die Überprüfung und Verbesserung artifiziell produzierter Texte unerlässlich bleiben; insbesondere bei umfangreichen Übersetzungs- beziehungsweise Lokalisierungsaufträgen von Großunternehmen oder Universitäten dürften Übersetzungsagenturen, die Paketlösungen für die sprachliche und kulturelle Anpassung von Produkten anbieten, weiterhin attraktive Partner bleiben.
Eine kleine von mir durchgeführte Umfrage unter Wissenschaftsübersetzern und -übersetzerinnen Ende April 2023 ergab, dass nur wenige in der KI eine akute Bedrohung sehen, sich aber sehr wohl eine bessere Aufklärung der Bevölkerung über die Schwächen der KI wünschen.
Eine ausführliche Fassung des Beitrags mit Literaturverweisen kann bei der Redaktion von "Forschung & Lehre" angefordert werden.
1 Kommentar
https://biermann.ch/die-maer-von-der-erwachenden-kuenstlichen-intelligenz/
https://biermann.ch/schreiben-unter-den-bedingungen-kuenstlicher-intelligenz/