Inhaltliche Erschließung von wissenschaftlichen Publikationen durch Machine Learning
Projektbeschreibung
Ziel des Projektes ist, Machine-Learning-Modelle zu entwickeln. Grundlage dafür ist der umfangreiche Bestand an Metadaten der Deutschen Nationalbibliothek. Die Modelle sollen dazu dienen, Inhalte von wissenschaftlichen Veröffentlichungen mathematisch zu erschließen, um sie auf abstrakter Ebene zu verstehen und untereinander in Beziehung zu setzen. Dadurch wird unter anderem eine inhaltliche Suche ermöglicht. Als Grundlage werden vortrainierte freie Sprachmodelle verwendet – das Projekt unterscheidet sich allerdings von Large Language Models der Tech-Konzerne. Im Projekt wird anhand eines speziell für diesen Zweck hergestellten Trainings-Datensatzes aus DNB-Beständen an einem möglichst schlanken, aber auf die Anwendung optimierten Modell gearbeitet. Darüber hinaus soll eine Webanwendung entwickelt werden, die es Nutzenden ermöglicht, die inhaltliche Nähe und Distanz zwischen Veröffentlichungen zu visualisieren und nach inhaltlich ähnlichen Einträgen zu suchen.
Das Projekt wurde von Linus Herterich und Max Schaible beantragt und wird von ihnen bearbeitet.
Laufzeit
Oktober 2024 - März 2025
Kontakt
Letzte Änderung:
22.10.2024
Kontakt:
DH-Stipendien@dnb.de