Navigation und Service

Leipzig
18. bis 24. Februar 2025

Die Deutsche Nationalbibliothek in Leipzig ist vom 18.02. bis 24.02.2025, 11 Uhr geschlossen. Die Ausstellungen des Deutschen Buch- und Schriftmuseums sind von 10 bis 18 Uhr geöffnet.

Frankfurt
10. bis 22. März 2025

Die Deutsche Nationalbibliothek in Frankfurt bleibt vom 10.03. bis 22.03.2025 wegen Umbauarbeiten geschlossen. Die Ausstellungen des Deutschen Exilarchivs sind montags bis freitags von 9 bis 21.30 Uhr sowie samstags von 10 bis 17.30 Uhr geöffnet.

Projektbeschreibung

Für die professionelle Nutzung von Sprachmodellen in der Praxis sind die Erfüllung rechtlicher Vorgaben für die Trainingsdaten von Sprachmodellen sowie die Nachvollziehbarkeit der generierten Texte unverzichtbar. Das Projekt CORAL greift diese Herausforderungen auf und erforscht Methoden zur Konstruktion und Nutzung von Sprachmodellen, die rechtlichen, technischen und qualitativen Constraints unterliegen. Wir untersuchen dafür systematisch Methoden des Constrained Training von Sprachmodellen (LLMs) und der Retrieval-Augmented Generation von Texten.

Die Forschung in CORAL basiert auf Daten, die wir aus exklusiven Quellen der beteiligten Projektpartner beziehen. Darunter der digitale Bestand der Deutschen Nationalbibliothek, Jahrzehnte zurückreichende Web-Crawls aus dem Internet Archive und dem Common Crawl im Umfang von Petabytes sowie weit zurückreichende auf europäische Sprachen fokussierende Nachrichten-Crawls des Wortschatz Leipzig und proprietäre Daten unserer assoziierten Partner aus dem Finanzwesen.

Wir untersuchen, inwieweit diese Daten in obfuskierter Form rechtlich einwandfrei für das Training von Sprachmodellen einsetzbar sind und wie weit die Obfuskierung der Daten gehen kann, um nützliche Sprachmodelle zu konstruieren. Daraus ergeben sich weitreichende Erkenntnisse für Unternehmen und Behörden, deren Daten aufgrund ähnlicher Constraints bislang nicht für KI-Anwendungen zur Verfügung gestellt werden konnten.

In professionellen Anwendungen sollen Sprachmodelle regelmäßig nur Texte generieren, die dem vorgesehenen Zweck dienen, die nicht frei erfunden („halluziniert“) sind, deren Behauptungen durch Referenzen auf Quellen belegt sind und die nicht das Urheberrecht verletzen oder plagiiert sind. Diese Anforderungen können bislang nur unzureichend zum Training eines Sprachmodells als Constraints eingebracht werden. In zahlreichen in den (sozialen) Medien verbreiteten Fällen hat sich gezeigt, dass trotz Maßnahmen wie dem Alignment von Sprachmodellen oder Guardrail-Anweisungen in Prompts, Nutzer*innen regelmäßig Wege finden, die Modelle für andere Zwecke zu verwenden oder geschützte Informationen wie die Trainingsdaten preiszugeben. Um diese Probleme anzugehen, untersuchen wir neue Methoden der Retrieval-Augmented Generation (RAG), um einerseits Texte mit Fachwissen verschiedener Modalitäten anzureichern und andererseits den Schutz der Trainingsdaten zu gewährleisten.

Projektrahmen

Trägerschaft

Bundesministerium für Bildung und Forschung (BMBF)

Partner

  • Institut für Angewandte Informatik (InfAI) der Universität Leipzig
  • Universität Kassel
  • Hochschule Anhalt
  • Deutsche Nationalbibliothek

Laufzeit

1. Oktober 2024 bis 30. September 2027

Kontakt

CORAL-Logo

Dr. Peter Leinen
p.leinen@dnb.de

Philippe Genet
p.genet@dnb.de

Letzte Änderung: 04.02.2025

nach oben