Navigation und Service

Extraktion fehlender Entitäten mittels Natural Language Processing

Im Hintergrund sind arbeitende Menschen unscharf zu sehen, im Vordergrund eine farbige Fläche mit dem Titel des Projektes.

Projektbeschreibung

Dieses Forschungsprojekt im Fachbereich Judaistik hat zum Ziel, für die Projekte Compact Memory und den Knowledge Graphen JudaicaLink fehlende Daten aus der Deutschen Nationalbibliothek zu ergänzen.

Die Sammlung Compact Memory des Fachinformationsdienstes (FID) Jüdische Studien an der Universitätsbibliothek J.C. Senckenberg (Frankfurt am Main) enthält über 500 digitalisierte Journale aus den Jahren 1768-1988. Aber es fehlen einige und wichtige Ausgaben der Journale, die v.a. durch den Holocaust verloren gegangen sind. Eine komplette Übersicht über die Vollständigkeit der Journale und der Lücken gibt es bisher nicht. Ziel ist es, eine möglichst vollständige Übersicht der Metadaten existierenden Ausgaben der Journale zu erstellen. Im Anschluss die fehlenden Ausgaben zu ergänzen und aus den digitalisierten Texten die Entitäten zu extrahieren, um die bereits vorhandenen Daten anzureichern.

Die Erforschung des Datenbestandes ist von großem Interesse, zum Beispiel für die Forschung zur deutsch-jüdische Orthodoxie, der „Wissenschaft des Judentums“, der jüdischen Aufklärung (Haskala), der Exilforschung oder mit Mitteleuropa als Kontext.


Vor diesem Hintergrund wird eine Übersicht über die Metadaten erstellt, aus der hervorgeht, welche Lücken vorhanden sind. In einem ergänzenden Datenabgleich mit der Deutschen Nationalbibliothek wird überprüft, ob fehlende Exemplare in der Deutschen Nationalbibliothek vorhanden sind und ergänzt werden können. Sollten dieses bereits digitalisiert sein, werden daraus mit Optimal Character Recognition (OCR) Volltexte generiert. Aus den Volltexten werden dann mit semantischer Extraktion per NLP (Natural Language Processing) die Entitäten extrahiert. Die gefundenen Entitäten werden in JudaicaLink ergänzt und mit Daten aus anderen Knowledge Graphen angereichert. Die angereicherten Daten ergänzen die GND-Normdatei. Das Deutsche Exilarchiv 1933-1945 stellt dafür Daten zur Verfügung. Sollte der Zeitraum des Projektes nicht ausreichen, wird die Extraktion und Anreicherung der Daten für einige Texte exemplarisch erstellt. Eventuell ist auch im Deutschen Exilarchiv noch anderes für die Judaistik relevantes Material vorhanden, wie Briefe, Manuskripte, Adressbücher, Verzeichnisse, Bücher etc.

Das Projekt wurde von Benjamin Schnabel beantragt und von ihm bearbeitet.

Laufzeit

September 2023 - Februar 2024

Kontakt

DH-Stipendien@dnb.de

Letzte Änderung: 24.05.2024
Kontakt: DH-Stipendien@dnb.de

nach oben