Open Access
ChatGPT aus Deutschland: "Teuken-7B" ab sofort frei verfügbar
Das europäische Forschungsprojekt OpenGPT-X am Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) stellt ab sofort das KI-Sprachmodell "Teuken-7B" zum Download bereit. Es ist nach IAIS-Angaben unterrichtsoptimiert und in allen europäischen Amtssprachen trainiert. Akteurinnen und Akteure aus der Forschung und aus Unternehmen können das Open-Source-Modell für ihre eigenen Anwendungen der Künstlichen Intelligenz (KI) frei verwenden, informiert das Fraunhofer-Institut in einer Meldung. Ein entscheidendes Merkmal der Entwicklung von Teuken sei sein forschungsorientierter, datengesteuerter Ansatz.
"Wir freuen uns, dass wir jetzt unser Modell 'Teuken-7B' weltweit frei zur Verfügung stellen und damit eine aus der öffentlichen Forschung stammende Alternative für Wissenschaft und Unternehmen bieten können", sagt Professor Stefan Wrobel, Institutsleiter am Fraunhofer-Institut IAIS. Das Modell besitze eine Leistungsfähigkeit über eine große Bandbreite an Sprachen und das Forschungsinstitut hoffe, dass möglichst viele es für eigene Arbeiten und Anwendungen weiterentwickeln würden.
"Wir freuen uns, dass wir eine aus der öffentlichen Forschung stammende Alternative für Wissenschaft und Unternehmen bieten können."
Professor Stefan Wrobel, Institutsleiter Fraunhofer-Institut IAIS
Professor Bernhard Grill, Institutsleiter am projektbeteiligten Fraunhofer-Institut für Integrierte Schaltungen (IIS), betont die Bedeutung für sicherheitsrelevante Anwendungen. "Mit dem hier veröffentlichten, von Grund auf vollkommen eigenständig trainierten Sprachmodell demonstrieren die Projektpartner ihre Fähigkeit, eigene große Modelle erzeugen zu können". Der Zugriff auf ein großes KI-Sprachmodell (Large Language Modell, LLM) ermögliche Anwendungen, die ohne unbekannte Fremd-Komponenten eine sehr viel bessere Kontrolle böten. Beispiele seien spezifische, besonders auch sicherheitskritische Anwendungen. Sensible Daten würden laut Fraunhofer-Institut bei den Akteurinnen und Akteuren verbleiben.
Das Projekt OpenGPT-X wurde vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) mit rund 14 Millionen Euro gefördert.
Erhebliche Vorteile für den Anwendungsfall in Forschung und Lehre
Große Sprachmodelle auf Basis von Generative Pre-trained Transformers (GPT), auch generative KI genannt, befähigen Tools und Anwendungen darin, Texte oder andere Inhalte wie Bilder und Videos zu erstellen sowie Fragen in einem Dialog zu beantworten. In der Forschung unterstützen GPTs schon heute dabei, große Datenmengen auszuwerten oder zusammenzustellen, als Sprachassistenten im internationalen wissenschaftlichen Dialog zu fungieren oder inhaltliche Qualität zu sichern.
Ein potenzieller Anwendungsfall für die Lehre ist es, Lernmaterialien mit einem solchen KI-Tool in Quizfragen oder Tutorials zu verwandeln, sich für die Seminargestaltung mit didaktischen Ideen inspirieren zu lassen, Prüfungsfragen zu generieren oder Inhalte aus langen Texten zu extrahieren.
Dr. Joachim Köhler leitet am Fraunhofer-Institut IAIS die Abteilung NetMedia, verantwortet das Geschäftsfeld Computer Vision und hat das Modell-Release von "Teuken-7B" betreut. Köhler sieht auf Nachfrage von "Forschung & Lehre" erhebliche Vorteile für Hochschulen auf technischer und rechtlicher Seite: "Die Modellgröße von sieben Milliarden Parametern erlaubt einen Betrieb der Modelle in gängigen GPU-Infrastrukturen, die mittlerweile an vielen Hochschulen verfügbar sind. Es ist kein Zugriff auf US-Clouds notwendig." Somit entspreche die Verwendung den Datenschutzmechanismen der Hochschulen. Auch im Vorfeld seien hohe Standards in der Datensicherheit zugrundgelegt worden. "Alle Datenquellen des Trainings haben wir aufwendig geprüft und die Daten nochmals gefiltert", sagt Köhler.
"Es ist kein Zugriff auf US-Clouds notwendig."
Dr. Joachim Köhler, Abteilungsleiter Fraunhofer-Institut IAIS
In der Anwendung liege der Gewinn darin, dass Forschende und Lehrende relevante Daten vergleichsweise unkompliziert mit dem Sprachmodell verknüpfen und daraus interessante Anwendungen generieren könnten. Er denke dabei etwa an Chat-Systeme zur Information von Studierenden oder auch an Tools zur Erstellung oder Bearbeitung von Dokumenten in der Hochschulverwaltung.
Ein viel diskutiertes Thema bei komplexen KI-Modellen ist immer auch ihr hoher Energieverbrauch. Nachhaltigkeitskonzepte an Hochschulen sehen vor, Ressourcen wo möglich einzusparen, hohe Energiekosten zu vermeiden und möglichst wenige Treibhausgase auszustoßen. "Die Energieeffizienz wird einerseits durch die Modellgröße und anderseits durch die sogenannten Tokenisierung erreicht", erklärt Köhler. Gemeint ist damit, dass die Anfragen an das KI-Sprachmodell in sinnvolle Wortsegmente unterteilt werden.
Forschungsfrage im Open GPT-X-Team: Effizienz steigern
Das OpenGPT-X-Team habe sich neben dem Modelltraining auch zahlreichen Forschungsfragen gewidmet. Zum Beispiel wie multilinguale KI-Sprachmodelle energie- und kosteneffizienter trainiert und betrieben werden können. Dazu sei im Projekt ein multilingualer Tokenizer entwickelt worden. Die Aufgabe eines Tokenizers ist es, Wörter in einzelne Wortbestandteile zu zerlegen – je weniger Token, desto (energie-)effizienter und schneller generiert ein Sprachmodell die Antwort.
Der entwickelte Tokenizer habe zu einer Reduzierung der Trainingskosten im Vergleich zu anderen multilingualen Tokenizern, wie etwa Llama3 oder Mistral, geführt. Dies komme insbesondere bei europäischen Sprachen mit langen Wörtern wie Deutsch, Finnisch oder Ungarisch zum Tragen. Auch im Betrieb von mehrsprachigen KI-Anwendungen könnten damit Effizienzsteigerungen erreicht werden. Durch Experimente habe man zudem herausgefunden, dass die Verwendung eines mehrsprachigen Tokenizers die Leistung in anderen Sprachen als Englisch signifikant verbessere.
Man habe darüber hinaus während der Entwicklungsphase Durchbrüche in der KI-Community beobachtet, beispielsweise bei den Skalierungsgesetzen. Diese hätten wertvolle Erkenntnisse geliefert, um begrenzte Rechenressourcen effektiv zuweisen zu können. Man habe sich in der Folge entschieden, ein kleineres Sprachmodell auf einem größeren Datensatz von 4 Billionen Token zu trainieren. Dies sei zwar noch immer erheblich weniger als die 15 Billionen von kommerziellen US-Modellen wie Llama3 vom Meta-Konzern, aber schon deutlich mehr als die 300 Milliarden, welche ChatGPT-3 vom Softwareunternehmen OpenAI zugrunde lägen.
Der Weg zur Nutzung von "Teuken-7B" für Forschende
Interessierte Entwicklerinnen und Entwickler aus der Wissenschafts-Community oder aus Unternehmen können Teuken-7B auf der Open-Source-Plattform Hugging Face kostenfrei herunterladen und in der eigenen Entwicklungsumgebung damit arbeiten, informiert das Fraunhofer-Institut. Das Modell sei durch ein Instruction Tuning bereits für den Chat optimiert.
Mit Instruction Tuning würden große KI-Sprachmodelle dahingehend angepasst, dass das Modell Anweisungen von Nutzerinnen und Nutzern richtig verstehe, was vor allem für in der Praxis relevant sei – zum Beispiel beim Einsatz in einer Chat-Anwendung.
"Teuken-7B" stehe in zwei Varianten zur Verfügung: einer Version, die für Forschungszwecke genutzt werden könne, und einer Version unter der Lizenz "Apache 2.0", die Unternehmen nicht nur für Forschung, sondern auch für kommerzielle Zwecke nutzen und in eigene KI-Anwendungen integrieren könnten. Die Leistungsfähigkeit beider Modelle sei in etwa vergleichbar.
Das Projektteam weist darauf hin, dass große Sprachmodelle trotz der Feinabstimmungen der Anweisungen immer noch unangemessene, anstößige oder schädliche Inhalte generieren. Die Bias- und Toxizitätsbewertungen zeigten, dass "Teuken-7B" im Vergleich zu anderen Modellen im Mittelfeld liege und Verbesserungspotenzial aufweise.
Ausblick auf die Weiterentwicklung des Projekts
"Teuken-7B“ sei mithilfe des Supercomputers JUWELS am Forschungszentrum Jülich trainiert worden. Neben den beiden Fraunhofer-Instituten und dem Forschungszentrum Jülich hätten der KI Bundesverband, die Technische Universität Dresden, das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI), IONOS, Aleph Alpha, ControlExpert sowie der Westdeutsche Rundfunk (WDR) als Partner an OpenGPT-X mitgearbeitet.
Das Anfang 2022 gestartete europäische Forschungsprojekt stehe nun kurz vor dem Abschluss. Es laufe noch bis zum 31. März 2025, sodass weitere Optimierungen und Evaluierungen der Modelle erfolgen können.
cva/kas