In hell leuchtenden Buchstaben vor schwarzem Hintergrund erscheint LLM für große Sprachmodelle wie ChatGPT.
mauritius images / Nils Ackermann / Alamy / Alamy Stock Photos

Sprachmodelle
Chancen einer KI-gestützten Wissenschaft

KI gewinnt in der Wissenschaft immer größere Bedeutung. Präzisere Antworten sind durch Kombination von Sprachmodellen und Wissensgraphen möglich.

Künstliche Intelligenz (KI) und insbesondere Sprachmodelle und Wissensgraphen gewinnen zunehmend an Bedeutung als Werkzeuge in der Wissenschaft. Sie bieten vielfältige Möglichkeiten zur Verbesserung der Recherche, Datenanalyse und des Wissensaustauschs und können so zur Beantwortung wissenschaftlicher Fragen beitragen. Die Verknüpfung beider Technologien ermöglicht es, präzisere Antworten zu erhalten, als es mit der jeweiligen Technologie alleine möglich ist. 

In diesem Zusammenhang ist der von der TIB – Leibniz-Informationszentrum Technik und Naturwissenschaften gemeinsam mit Partnern entwickelte Open Research Knowledge Graph (ORKG) ein prägnantes Beispiel. Diese Plattform nutzt einen Wissensgraphen, um wissenschaftliches Wissen in einer strukturierten Form darzustellen, und unterstützt Forschende bei der Suche nach relevanten Informationen und deren Analyse. Seit Mai 2024 gibt es eine Erweiterung des Systems, genannt ORKG Ask. Diese Erweiterung nutzt die Synergie von Sprachmodellen und Wissensgraphen, um Forschende bei der Beantwortung ihrer wissenschaftlichen Fragen zu unterstützen. Der kontinuierliche Fortschritt in den Bereichen der generativen KI und Wissensgraphen verspricht, die Informationsgewinnung und den Wissensaustausch in Zukunft zu revolutionieren, was langfristig den Grundstein für eine KI-gestützte Wissenschaft legen kann.

Sprachmodelle als unterstützende Helfer

Sprachmodelle wie ChatGPT sind eine besondere Form der KI und darauf trainiert, natürlichsprachliche Texte zu erfassen und selbst entsprechende Texte zu generieren. Sie nutzen neuronale Netze, um Muster in der Sprachverwendung zu erkennen und vorherzusagen. Dazu generieren sie Texte auf Basis der wahrscheinlichsten aufeinanderfolgenden Worte, basierend auf der Nutzereingabe. Letztendlich steht hinter diesen Modellen also vor allem eine Statistik, aufgebaut auf großen Mengen von Texten wie Bücher, Social-Media-Posts, wissenschaftliche Artikel und vieles mehr, auf denen das Sprachmodell trainiert wurde.

ChatGPT ist wohl eines der prominentesten Sprachmodelle. Es gibt aber bereits eine Vielzahl von weiteren Sprachmodellen wie die kommerziellen Angebote Google Gemini, Microsoft Copilot, Claude sowie die offenen Modelle Llama und Mistral. Diese Modelle können unterstützend für Aufgaben der wissenschaftlichen Arbeit, wie der Formulierung von Forschungsfragen, der Recherche, Analyse und Synthese von Literatur, das Schreiben von Artikeln oder der Beantwortung wissenschaftlicher Fragen verwendet werden. Die offenen Modelle können übrigens auch mit GPT4All direkt auf dem eigenen Rechner (ohne Daten an einen Dienst zu übermitteln) genutzt werden.

"Am Ende tragen die Forschenden die Verantwortung für die generierten Texte und die daraus resultierenden Ergebnisse und Schlussfolgerungen."

Die Fähigkeit von Sprachmodellen, natürliche Sprache zu "verstehen" und zu generieren, ermöglicht es Forschenden, ihre Arbeitsprozesse zu automatisieren und zu beschleunigen. Jedoch ist die Nutzung von Sprachmodellen, insbesondere bei der Erstellung von wissenschaftlichen Texten und Publikationen, ein intensiv diskutiertes Thema. Eine rein durch KI erstellte Publikation wird als sehr kritisch angesehen, da Originalität, Authentizität und Korrektheit fraglich sind. Dennoch können Sprachmodelle Forschende unterstützen, um beispielsweise erste Ideen schneller auszuformulieren, komplexe Konzepte verständlich zu artikulieren oder Texte zu übersetzen. 

Wichtig ist hier, dass die KI nur unterstützt. Die Inhalte müssen weiterhin primär von den Forschenden selbst stammen, weshalb jeder generierte Text kritisch geprüft und hinterfragt werden muss. Am Ende tragen die Forschenden die Verantwortung für die generierten Texte und die daraus resultierenden Ergebnisse und Schlussfolgerungen. Die generische Natur von Sprachmodellen unterstützt die interdisziplinäre Forschung, da Text aus beliebigen Fachgebieten verarbeitet und so Zusammenhänge aufgezeigt werden können, welche einem Forschenden allein möglicherweise entgehen. Diese Besonderheit fördert die Entwicklung und Beantwortung neuer Forschungsfragen, die über traditionelle Disziplingrenzen hinausgehen.

Sogenannte Halluzinationen

Sprachmodelle können auch die Beantwortung wissenschaftlicher Fragen unterstützen. Bei Antworten auf wissenschaftliche Fragen gelten jedoch hohe Anforderungen an Präzision, und spezifisches Fachwissen ist wesentlich komplexer. Daher erfordern wissenschaftliche Fragen oft aktuelle und geprüfte Forschungsergebnisse, die möglicherweise nicht in den Trainingsdaten der Sprachmodelle enthalten sind. Als Folge dessen kann es bei wissenschaftlichen Fragen schneller zu sogenannten Halluzinationen (oder Konfabulationen) kommen, wobei es sich um generierte Texte handelt, die zwar plausibel klingen, jedoch nicht auf Fakten beruhen. Antworten auf wissenschaftliche Fragen müssen jedoch evidenzbasiert sein und eine kritische Reflexion der verfügbaren relevanten Literatur mit zugehörigen Quellenangaben beinhalten, was über die Fähigkeiten der meisten aktuellen Sprachmodelle hinausgeht. Aus diesem Grund stoßen Sprachmodelle bei der Beantwortung von wissenschaftlichen Fragen mit ihren speziellen Anforderungen und der zugehörigen Komplexität an ihre Grenzen.

Rolle und Bedeutung des Wissensgraphen

Wissensgraphen stellen eine vielversprechende Lösung zur besseren Beantwortung von wissenschaftlichen Fragen durch Sprachmodelle dar, wenn diese beiden Technologien kombiniert werden.

Bei Wissensgraphen handelt es sich um netzwerkartige Strukturen, die Informationen und deren semantische Beziehungen in Form von Knoten und Kanten darstellen. Jeder Knoten repräsentiert ein Konzept und jede Kante eine Beziehung, die zwischen den jeweiligen Knoten existiert. Auf diese Weise können Informationen und deren Beziehungen aus verschiedenen Quellen strukturiert, zusammengetragen und verknüpft werden. Durch die Nutzung von Wissensgraphen können Forschende Zusammenhänge und Lücken zwischen verschiedenen Forschungsarbeiten leichter erkennen und neue Hypothesen und Forschungsfragen generieren. Außerdem ermöglichen Wissensgraphen eine effizientere Zusammenarbeit, da sie als gemeinsame Wissensbasis für interdisziplinäre Teams dienen können. Insgesamt vereinen Wissensgraphen menschliche und maschinelle Intelligenz, indem Menschen das Wissen erstellen, kuratieren und validieren, welches in den Strukturen des Wissensgraphen für Maschinen verständlich und interpretierbar wird. Maschinen wird es so möglich, komplexere Fragen zu bearbeiten und entsprechende Antworten zu liefern.

"Insgesamt vereinen Wissensgraphen menschliche und maschinelle Intelligenz."

Bei der Kombination von Sprachmodellen und Wissensgraphen ergänzen sich die beiden Technologien gegenseitig. Sprachmodelle können verwendet werden, um automatisch Wissen in einen Wissensgraphen zu integrieren, indem sie relevante Informationen aus Texten extrahieren. Dies ermöglicht eine dynamische Aktualisierung des Wissensstands in einem bestimmten Forschungsfeld. Wissensgraphen können wiederum als Grundlage für Sprachmodelle dienen, indem sie kontextuelle Informationen liefern, die die Genauigkeit und Relevanz der generierten Texte verbessern. Diese Synergie ermöglicht eine tiefere Analyse und ein besseres Verständnis komplexer Forschungsfragen. Auf diese Weise kann eine Brücke zwischen dem allgemeinen Sprachverständnis der Modelle und den spezifischen Anforderungen wissenschaftlicher Fragen geschlagen werden. Als Folge dessen kann die Fähigkeit von Sprachmodellen verbessert werden, korrekte Antworten zu liefern, indem sie Zugang zu strukturierten, aktuellen und qualitätsgesicherten Informationen erhalten.

Vorteile des Open Research Knowledge Graph

Der Open Research Knowledge Graph (ORKG) organisiert das Wissen aus wissenschaftlichen Publikationen in einem Wissensgraph. Dazu wird wissenschaftliches Wissen wie untersuchte Forschungsprobleme, verwendete Analysemethoden, deren Ergebnisse und die daraus gewonnenen Schlussfolgerungen menschen- und maschinenlesbar dargestellt. Die Kuratierung im ORKG erfolgt dabei halb automatisiert, indem das System die Forschenden bei der Erstellung unterstützt, jedoch die Verantwortung für die erstellten Inhalte final bei den Forschenden liegt. Weiterhin können Inhalte kollaborativ bearbeitet werden, wodurch die Wissensbasis im ORKG begutachtet, diskutiert und bei Bedarf verändert, ergänzt und stets aktuell gehalten werden kann. Zusätzlich kann in dem Wissensgraphen transparent nachvollzogen werden, woher das Wissen und die Informationen stammen. So ist es auch möglich, Referenzen und Quellenangaben zu geben. Zusätzlich kann der ORKG mit anderen Systemen verknüpft werden, um Wissen aus unterschiedlichen Infrastrukturen miteinander zu vernetzen.

ORKG Ask ist ein an den ORKG gekoppeltes wissenschaftliches Such- und Erkundungssystem, welches Forschenden dabei hilft, Artikel zu finden, nach denen sie wirklich suchen. Angetrieben von einem semantischen Suchsystem wird zunächst die relevanteste Literatur zu einer Forschungsfrage herausgesucht und danach Wissen aus diesen Publikationen automatisch mit dem offenen Sprachmodel Mistral extrahiert, um aktive Unterstützung bei der Beantwortung von wissenschaftlichen Fragen zu bieten (siehe Abbildung).

ORKG Ask ermöglicht es, beliebige wissenschaftliche Fragen (1) an einen wachsenden Korpus von derzeit 76 Millionen wissenschaftlichen Artikeln zu stellen, die in einer semantischen Datenbank indiziert sind. Um die Frage zu beantworten, werden zunächst die relevantesten Artikel abgerufen (2) und die Antwort wird mithilfe des offenen Sprachmodels Mistral aus den relevantesten Artikeln synthetisiert (3). Zusätzlich können Filter über den Publikationen (4) angewendet werden. Zusätzlich zu den generischen Extraktionen erlauben benutzerdefinierte Extraktionen (5), domänenspezifische Aspekte aus der Literatur zu extrahieren. Such- und Extraktionsergebnisse können in verschiedenen Formaten exportiert und in einer eigenen Bibliothek gespeichert werden (6).

Werkzeuge der Zukunft

Generative KI und insbesondere große Sprachmodelle, aber auch Wissensgraphen werden als Werkzeuge die Zukunft der wissenschaftlichen Arbeit maßgeblich beeinflussen. Derzeit stoßen Sprachmodelle bei der Beantwortung spezifischer wissenschaftlicher Fragen noch an ihre Grenzen, weil sie oft nicht über die aktuellsten Forschungsergebnisse verfügen und Schwierigkeiten haben, die Tiefe und Genauigkeit zu liefern, die für wissenschaftliche Antworten erforderlich sind. Wissensgraphen bieten aber eine Lösung für diese Herausforderungen, indem sie strukturierte und verifizierte Informationen bereitstellen, die es in Kombination mit Sprachmodellen ermöglichen, präzise Antworten zu liefern. Die Kombination von beiden Technologien hat das Potenzial, die Fähigkeit von KI, korrekte und fundierte Antworten auf wissenschaftliche Fragen zu liefern, erheblich zu verbessern. 

Es gilt aber auch, stets die Genauigkeit und Zuverlässigkeit von KI-generierten Inhalten kritisch zu hinterfragen. Mit der stetigen Verbesserung von Sprachmodellen und Wissensgraphen können die wissenschaftliche Informationsbeschaffung, der Wissensaustausch und interdisziplinäre Forschung als auch die Zugänglichkeit von wissenschaftlichen Erkenntnissen substanziell verbessert werden und so kann der Weg für eine KI-gestützte Wissenschaft geebnet werden.