CORAL
Projektbeschreibung
Für die professionelle Nutzung von Sprachmodellen in der Praxis sind die Erfüllung rechtlicher Vorgaben für die Trainingsdaten von Sprachmodellen sowie die Nachvollziehbarkeit der generierten Texte unverzichtbar. Das Projekt CORAL greift diese Herausforderungen auf und erforscht Methoden zur Konstruktion und Nutzung von Sprachmodellen, die rechtlichen, technischen und qualitativen Constraints unterliegen. Wir untersuchen dafür systematisch Methoden des Constrained Training von Sprachmodellen (LLMs) und der Retrieval-Augmented Generation von Texten.
Die Forschung in CORAL basiert auf Daten, die wir aus exklusiven Quellen der beteiligten Projektpartner beziehen. Darunter der digitale Bestand der Deutschen Nationalbibliothek, Jahrzehnte zurückreichende Web-Crawls aus dem Internet Archive und dem Common Crawl im Umfang von Petabytes sowie weit zurückreichende auf europäische Sprachen fokussierende Nachrichten-Crawls des Wortschatz Leipzig und proprietäre Daten unserer assoziierten Partner aus dem Finanzwesen.
Wir untersuchen, inwieweit diese Daten in obfuskierter Form rechtlich einwandfrei für das Training von Sprachmodellen einsetzbar sind und wie weit die Obfuskierung der Daten gehen kann, um nützliche Sprachmodelle zu konstruieren. Daraus ergeben sich weitreichende Erkenntnisse für Unternehmen und Behörden, deren Daten aufgrund ähnlicher Constraints bislang nicht für KI-Anwendungen zur Verfügung gestellt werden konnten.
In professionellen Anwendungen sollen Sprachmodelle regelmäßig nur Texte generieren, die dem vorgesehenen Zweck dienen, die nicht frei erfunden („halluziniert“) sind, deren Behauptungen durch Referenzen auf Quellen belegt sind und die nicht das Urheberrecht verletzen oder plagiiert sind. Diese Anforderungen können bislang nur unzureichend zum Training eines Sprachmodells als Constraints eingebracht werden. In zahlreichen in den (sozialen) Medien verbreiteten Fällen hat sich gezeigt, dass trotz Maßnahmen wie dem Alignment von Sprachmodellen oder Guardrail-Anweisungen in Prompts, Nutzer*innen regelmäßig Wege finden, die Modelle für andere Zwecke zu verwenden oder geschützte Informationen wie die Trainingsdaten preiszugeben. Um diese Probleme anzugehen, untersuchen wir neue Methoden der Retrieval-Augmented Generation (RAG), um einerseits Texte mit Fachwissen verschiedener Modalitäten anzureichern und andererseits den Schutz der Trainingsdaten zu gewährleisten.
Projektrahmen
Trägerschaft
Bundesministerium für Bildung und Forschung (BMBF)
Partner
- Institut für Angewandte Informatik (InfAI) der Universität Leipzig
- Universität Kassel
- Hochschule Anhalt
- Deutsche Nationalbibliothek
Laufzeit
1. Oktober 2024 bis 30. September 2027
Kontakt
Dr. Peter Leinen
p.leinen@dnb.de
Philippe Genet
p.genet@dnb.de
Letzte Änderung:
04.02.2025