Zahlreiche Plättchen mit dem Logo des KI-Tools DeepL, das übersetzen und Texte schreiben kann
mauritius images / Andreas Prott / Alamy / Alamy Stock Photos

Künstliche Intelligenz
Auswirkungen von KI auf die Textproduktion in der Wissenschaft

KI-Tools können in allen Phasen des wissenschaftlichen Schreibens helfen, auch bei mehrsprachigen Texten. Über Fähigkeiten und Grenzen der KI.

Von Dirk Siepmann 06.07.2023

"I wouldn’t know where to begin." Mit diesem Meme machte der "Fußballlinguist" Simon Meier-Vieracker im April seinem Unmut darüber Luft, dass der Metzler/Springer-Verlag DeepL für die Übersetzung eines deutschsprachigen Sammelbands ins Englische nutzte und die Autorinnen und Autoren darum bat, nur "sinnentstellende Fehler" zu korrigieren. Dieses Vorgehen verrät nicht nur eine Überschätzung des Potenzials maschineller Übersetzung, sondern erwartet von den Autorinnen und Autoren auch eine Übersetzungskompetenz, die diese in der Regel nicht haben, und bürdet ihnen Mehrarbeit und zusätzliche Kosten auf. Der Fall zeigt exemplarisch, dass eine Sensibilisierung für die Fähigkeiten und Grenzen der KI hinsichtlich der Produktion von Wissenschaftstexten nottut. Der folgende Beitrag versucht dies mit Bezug auf die Wissenschaftssprachen Deutsch und Englisch zu leisten.

Wie verändern KI-Tools Schreibprozesse und -produkte?

Da Übersetzen auch Schreiben ist, und man beim wissenschaftlichen Schreiben nicht selten auch übersetzt, mag zunächst die Frage opportun erscheinen, wie die KI Schreibprozesse und -produkte verändern wird. Traditionelle Schreibprozesse lassen sich grob dreiteilen in die Phasen der Planung, der Formulierung und der Überarbeitung, die man sich insbesondere bei erfahrenen Schreibern jedoch nicht als linear verlaufend vorstellen sollte: vielmehr ist der Schreibprozess von Expertinnen und Experten durch das Wechselspiel von Schreiben, Löschen und Reformulieren gekennzeichnet.

Diese "natürliche" Textproduktion, die bisher vor allem in der Revisionsphase durch vergleichsweise wenig "invasive" Tools wie etwa die Rechtschreibkorrektur beeinflusst wurde, kann nun in allen Prozessphasen durch die "artifizielle" Generierung von Text verändert oder gar verdrängt werden. In den letzten Monaten ist hinreichend demonstriert worden, wie zum Beispiel Large Language Models (LLMs) für sämtliche Phasen des Schreibprozesses durchaus beachtliche Hilfestellung leisten können, von der Literaturzusammenschau über die Zusammenfassung oder Reformulierung ganzer Artikel bis hin zu der mehr oder weniger geglückten automatisierten Erstellung von Diskussionsteilen von Aufsätzen auf der Basis von durch den Nutzer zur Verfügung gestellten Untersuchungsergebnissen. Auch die mehrsprachige Textproduktion (Code-Switching), die dann von der KI in eine Sprache überführt wird, wird ab jetzt zum Repertoire möglicher Schreibstrategien gehören. Dieser Prozess birgt jedoch Risiken: Neben der bereits hinreichend diskutierten (urheber- und prüfungs-)rechtlichen Problematik besteht die Gefahr, die so wichtige Phase der Ideenfindung der Maschine zu überlassen und blind gegenüber den offenkundigen Schwächen maschinell erstellter oder übersetzter Texte zu werden.

Worin unterscheiden sich natürliche und KI-generierte Texte?

Wird es künftig möglich sein, menschliche und KI-generierte Texte zu unterscheiden? Die Erwartung, dass das Kriterium sprachlicher Unvorhersehbarkeit zur Unterscheidung beitragen könnte (Hannes Bajohr), erweist sich als trügerisch. Erstens beruht sämtliche Prosa auf "wiederholter Rede", die erfahrene Schreiber durch einige regelhaft beschreibbare Analogien und Deviationen anreichern.

Zweitens sind LLMs auch kreativen Sprachgebrauchs fähig. Es wäre falsch anzunehmen, wie in den Medien häufig durch das Bild des stochastischen Papageis suggeriert wurde, dass LLMs lediglich Wörter nach ihrer Auftretenswahrscheinlichkeit kombinieren; vielmehr können sie auch Konstruktionen analysieren und auf dieser Basis akzeptable neue Formen erzeugen. Ein einfaches Beispiel liefert die metaphorische Konstruktion "a + Nomen + of + a(n) + Nomen" (z.B. "a lion of a man") im Englischen, für die GPT4 bei entsprechendem Prompting sowohl eher abgedroschene ("a tapestry of a story", "a beast of a tempest") als auch originelle Realisierungen bereithält (über deren literarischen Wert sich freilich streiten ließe): "He was a thunderstorm of a musician, his fingers striking the piano keys with electrifying energy (...)." Obwohl LLMs einen elaborierten Schreibstil noch nicht perfekt imitieren können, ist also zu erwarten, dass natürliche und künstliche Texte ununterscheidbar werden und der hybride Text zur Norm wird.

GPT und Co. stärken die Hegemonie des Englischen

Die artifizielle Textproduktion generalistischer LLMs setzt somit in gewisser Weise nur einen Trend in der "natürlichen" Wissenschaftssprache insbesondere der Naturwissenschaften fort; seit den 1950er Jahren führte die Entwicklung in vielen Wissenschaftsbereichen zu einem fast schablonenhaften funktionalen Nominalstil, dessen stark verdichtete Phrasen (zum Beispiel "foreign export supply curves" statt "curves describing supplies of foreign exports") häufig durch einfache Relationsverben (zum Beispiel "cause", "imply") miteinander verknüpft werden. Viele englische Wissenschaftstexte der 50er Jahre ähneln stilistisch eher heutigen populärwissenschaftlichen Arbeiten. Die Durchsättigung damaliger Texte mit Stilmitteln findet sich in manchen Bereichen auch heute noch zum Beispiel in der Romania, im Kontrast zu einem eher nüchteren, schmuckloseren Stil im Englischen. Da Englisch gewissermaßen die Leitsprache von Systemen wie GPT-4 darzustellen scheint, das heißt eine klare Tendenz besteht, englische Stilprinzipien auf andere Sprachen zu übertragen, droht die Proliferation artifizieller Texte die Hegemonie des Englischen und des mit ihm verbundenen Schreib- und Denkstils weiter zu stärken.

Übersetzungen durch Künstliche Intelligenz

Wie bereits erörtert, sind LLMs zwar offenbar eher eifrige Sammler von Mustern der kulturellen Welt (der Popperschen Welt 3) als bloße stochastische Papageien; eines Verstehens im menschlichen Sinne sind sie indes mangels Kenntnis der physischen Welt (Welt 1) und der Welt des Bewusstseins (Welt 2) nicht fähig. Mit anderen Worten: Sie stellen Verbindungen zwischen Form, Inhalt und intratextuellem Gebrauch sprachlicher Konstruktionen her, können diese aber nicht mit physischen oder emotionalen Erfahrungen in Verbindung bringen oder mentale Modelle der physischen Welt entwickeln. So lange dies der Fall ist, werden sich LLMs immer nur asymptotisch einer fehlerfreien Übersetzung annähern können.

Eine groß angelegte Studie von Microsoft belegt, dass LLMs im Vergleich zum MS Translator natürlichere und in höherem Maße "paraphrasierende" Übersetzungen in die Zielsprache Englisch liefern. Diese Leistung beruht wahrscheinlich auf der Nutzung von originalsprachlichen Daten anstelle von vorhandenen Übersetzungen, wodurch "Datenrauschen" und defekte Übersetzungslösungen mit höherer Wahrscheinlichkeit ausgeschlossen werden. Bei Übersetzungen aus dem Englischen schwanken die Leistungen der LLMs je nach Zielsprache; für Englisch-Deutsch sind sie bereits ähnlich gut wie die Online-Übersetzer. Für eine bessere Leistung in dieser Übersetzungsrichtung könnte zurzeit noch eine hybride Methodik zum Einsatz gelangen, die LLMs nur dann nutzt, wenn andere Tools unzufriedenstellende Ergebnisse liefern. Auch ist eine Spezialisierung von LLMs auf bestimmte Textsorten zu erwarten (vgl. zum Beispiel den GPT für Finanzen von Bloomberg).

KI-Tools im Test

Eine qualitative Untersuchung auf Grundlage vorhandener Musterübersetzungen bestätigt die Überlegenheit der LLMs. Allerdings bleiben Herausforderungen bestehen, insbesondere bei Disziplinen, die näher an der Kunstprosa der Geistes- und Sozialwissenschaften liegen. Bei einem typischen sozialwissenschaftlichen Satz (siehe Leistungsvergleich) scheitern DeepL oder PONS (9. Mai 2023) auf der Wortebene zum Beispiel an den falschen Freunden "sukzessive" ("successively") und "exemplarisch" ("exemplarily"), während GPT-4 das akzeptable Adverb "progressively" verwendet und für "exemplarisch" auf eine korrekte Umschreibung mit "example" zurückgreift. Die noch idiomatischere und elegantere Lösung, "sukzessive" durch das Verb "work" im Perfekt, gefolgt von einem Infinitiv, zu ersetzen – wodurch zudem die im Deutschen übliche Bildungssprache durch eine leicht verständliche Konstruktion ersetzt wird – gelingt allerdings selbst GPT-4 nicht. Die paraphrasierende Übersetzung eines deskriptiven Forschungsverbs wie "entfalten" durch "set out the full breadth of issues surrounding X" wird vermutlich dauerhaft außerhalb der Reichweite von Maschinen bleiben. Auf der Ebene der Wortverbindungen bildet DeepL die deutsche Verb-Adverb-Kollokation "etw. methodisch-theoretisch begründen" syntaktisch fehlerhaft genau nach, statt diese wie GPT-4 in eine Nomen-Adjektiv-Kollokation zu transponieren (build and expand the methodological foundations/underpinnings). Auf der Satz- beziehungsweise Absatzebene schließlich kann GPT-4 durch iteratives Prompten auch dazu gebracht werden, einen deutschen Langsatz durch mehrere, kürzere englische Sätze wiederzugeben, die das Thema "he" zweifach aufgreifen.

Leistungsvergleich von Übersetzungen durch Mensch und KI-Tools

Ausgangstext
Seit Mitte der 1980er Jahre hat Michel Espagne sukzessive das Themenfeld des interkulturellen Transfers methodisch-theoretisch begründet, zunächst exemplarisch an den deutsch-französischen Kulturbeziehungen des späteren 18. bis frühen 20. Jahrhunderts entfaltet und schließlich zu einer global aufgestellten Forschungsrichtung entwickelt.
Humanübersetzung
Since the mid-1980s he has been working to provide a theoretical and methodological underpinning for cultural transfer studies as a thematic area of research. He began by exploring, by way of example, Franco-German cultural relations from the late eighteenth till the early twentieth century, setting forth the full breadth of issues surrounding intercultural transfer, and he has now expanded cultural transfer studies into a global program of research
DeepL
Since the mid-1980s, Michel Espagne has successively substantiated the field of intercultural transfer methodologically and theoretically, initially using Franco-German cultural relations of the later 18th to early 20th centuries as an example, and finally developing it into a globally oriented research direction.
PONS
Since the mid-1980s Michel Espagne has successively established the field of intercultural transfer methodically and theoretically, first developing exemplarily on the German-French cultural relations of the late 18th to early 20th centuries, and finally developing it into a globally oriented research direction.
GPT-4
Michel Espagne has been developing the field of intercultural transfer since the mid-1980s, with a focus on establishing its methodological and theoretical foundations. He initially examined the German-French cultural relations of the late 18th to early 20th centuries as an example, and later expanded his research direction to a global scale.

Indes lässt auch GPT-4 den Menschheitstraum einer vollautomatisierten Übersetzung nicht in Erfüllung gehen. Insbesondere die stärker der Kunstprosa zuzuordnenden Disziplinen werfen immer noch altbekannte Schwierigkeiten auf; pointiert formuliert scheitert die Maschine – wie gelegentlich auch der Mensch – weiterhin an ausgangssprachlich Originellem (motivationale Gemengelage ≠ "motivational mix", serielles Kalkül [Musikwissenschaft] ≠ "serial calculation") oder tief in fach- und kulturspezifischen Denkmodellen Verwurzeltem ("Gegenwartsdiagnose"), gelegentlich jedoch auch an Banalem (zu Details vgl. die Langversion dieses Beitrags).

Insgesamt ist diesen Modellen jedoch eine wesentlich höhere Idiomatizität im Ausdruck zu bescheinigen als den maschinellen Online-Übersetzern (vgl. zum Beispiel GPT-4: Last year saw a continuation of the trend from recent years. vs. DeepL: Last year, the development of recent years continued.). Negativ schlägt allerdings im Vergleich zu Buche, dass sich entgegen den Befunden der Microsoft-Forschungsgruppe bei Wissenschaftstexten gelegentlich eine sehr vage oder auch halluzinierende Wiedergabe feststellen ließ, die nur durch erneutes Prompting oder händische Korrektur zu verbessern war.

Zur zukünftigen Rolle von Übersetzerinnen und Über­setzern

LLMs werden aufgrund ihrer oben skizzierten Stärken und ihrer dem Menschen weit überlegenen Formulierungsgeschwindigkeit in Zukunft massiv in der Übersetzungsindustrie eingesetzt werden. Sie haben zudem gegenüber traditionellen Werkzeugen den Vorteil, im Bruchteil einer Sekunde gleich mehrere Übersetzungsalternativen zu erstellen, die durch den Humanübersetzer dann in optimaler Weise zusammengeführt werden können. Der Übersetzer wird also nur noch bei komplexer geistes- und sozialwissenschaftlicher Prosa einen Text von Grund auf übersetzen und sich ansonsten durch LLMs inspirieren lassen – er entwickelt sich vom Akkordarbeiter zum Gutachter.

Damit stellt sich natürlich auch die alte Frage mit neuer Virulenz, ob nicht die in zwei Sprachen beheimatete Fachexpertin dem fachlich weniger versierten Übersetzer überlegen ist. Unabhängig davon, wie diese Frage im Einzelfall entschieden wird, wird die Überprüfung und Verbesserung artifiziell produzierter Texte unerlässlich bleiben; insbesondere bei umfangreichen Übersetzungs- beziehungsweise Lokalisierungsaufträgen von Großunternehmen oder Universitäten dürften Übersetzungsagenturen, die Paketlösungen für die sprachliche und kulturelle Anpassung von Produkten anbieten, weiterhin attraktive Partner bleiben.

Eine kleine von mir durchgeführte Umfrage unter Wissenschaftsübersetzern und -übersetzerinnen Ende April 2023 ergab, dass nur wenige in der KI eine akute Bedrohung sehen, sich aber sehr wohl eine bessere Aufklärung der Bevölkerung über die Schwächen der KI wünschen.

Eine ausführliche Fassung des Beitrags mit Literaturverweisen kann bei der Redaktion von "Forschung & Lehre" angefordert werden.

1 Kommentar

  • Armin Biermann Viele der Aussagen in diesem Beitrag entsprechen meiner Sichtweise. Was mir fehlt, sind die unüberwindlichen Hürden von KI bei menschlicher Sprache, von denen soviel abhängt... die nicht einfach 'Schwächen' im Sinne eines 'Noch nicht' sind. Hier ist viel Unwissen im Spiel, beim Crossover von Naturwissenschaften (KI) und Geisteswissenschaften (Mensch & natürliche Sprachen), und daneben verspricht die Werbung dieser neuen Goldesel das Blaue vom Himmel... Da fehlt mir die nötige Tiefenschärfe, aber vielleicht sieht das in der Langfassung ja ganz anders aus... Ich kenne die Anfänge von KI mit menschlichen Sprachen aus den 80er Jahren... und schreibe seit fünf Jahren aus sprachtheoretischer Sicht gegen eine KI mit menschlichen Fähigkeiten an...
    https://biermann.ch/die-maer-von-der-erwachenden-kuenstlichen-intelligenz/
    https://biermann.ch/schreiben-unter-den-bedingungen-kuenstlicher-intelligenz/