Konkret ist der Einsatz von KI-Verfahren in den Bereichen (teil-) automatisierte Normdatenerschließung, maschinelles Übersetzen von LAGIS-Inhalten sowie automatische Segmentierung von historischen Karten vorgesehen.
Was im Einzelnen erreicht werden soll:
- Automatisierte bzw. teilautomatisierte Normdatenerschließung
Ein wichtiges Merkmal der Fachanwendung LAGIS ist die Vernetzung von Informationseinheiten innerhalb des Informationssystems sowie mit externen Angeboten. Letztere wird derzeit noch dadurch beeinträchtigt, dass ältere Einheiten – die sogenannten Module – proprietäre Sacherschließungssysteme nutzen. Für die „GNDisierung“ bestehender LAGIS-Module sollen KI-basierte Verfahren der Eigennamenerkennung sowie der automatisierten Überführung der vorhandenen Verschlagwortung in Normdaten der Gemeinsamen Normdatei (GND) zum Einsatz kommen.
- Maschinelles Übersetzen
Bis vor wenigen Jahren produzierten Übersetzungsprogramme zumeist schwer verständliche, bisweilen kryptisch anmutende Texte. Mit der Verfügbarkeit moderner, auf neuronalen Netzen basierender Anwendungen gehört dieser Zustand der Vergangenheit an. Durch den Einsatz sogenannter APIs, d.h. Programmierschnittstellen, ist es möglich, große Mengen von Text automatisiert übersetzen zu lassen. Das HIL möchte mit Hilfe der Schnittstellen des Anbieters DeepL die bisher ausschließlich auf Deutsch verfügbaren LAGIS-Inhalte auch in englischer Sprache bereitstellen. Die übersetzten Informationseinheiten und Texte stehen anschließend auch für die Volltextsuche bzw. andere Recherchewege zur Verfügung.
- Segmentierung historischer Karten
In diesem Teilprojekt möchte sich das HIL im Bereich der automatisierten Segmentierung historischer Karten sowohl als Datenlieferant als auch als Anwender positionieren. Konkret geht es darum, die Möglichkeiten einer automatisierten Extraktion von Informationen aus historischen Karten auszuloten. So existieren heute vielversprechende Ansätze, um aus historischen Katasterkarten Parzellen und Gebäude, aus topografischen Karten Gewässer-, Siedlungs- und Waldflächen zu vektorisieren bzw. zu identifizieren. Wesentliche Voraussetzung ist hierbei jedoch die Existenz von hochqualitativen Trainingsdatensätzen. Das HIL erstellt entsprechende Datensätze, die der internationalen Forschungscommunity – zu der in den letzten Jahren Kontakte aufgebaut wurden – bereitgestellt werden. Die so entwickelten KI-Modelle können dann auf die Kartenangebote von LAGIS angewandt werden. Im Mittelpunkt wird die Extraktion von Gebäudeumrissen und Parzellengrenzen in historischen Katasterkarten stehen.