Exakt lokalisierte Flurnamen in der Gemarkung von Cölbe (Landkreis Marburg-Biedenkopf). Blaue Markierungen kennzeichnen Flurnamen aus dem aktuellen Liegenschaftskataster, rot markiert sind Flurnamen, die mithilfe der Unterlagen des Flurnamenarchivs in Marburg lokalisiert werden konnten.

Die Lokalisierung hessischer Flurnamen

Das HIL hat im 4. Quartal 2025 die Entwicklung und Erprobung algorithmischer Verfahren zur exakten Lokalisierung der fast 750.000 Belege für die 160.000 hessischen Flurnamen im gleichnamigen LAGIS-Modul beauftragt. Für die Arbeiten konnte ein Absolvent des Masterstudiengangs am Marburg Center for Digital Culture and Infrastructure (MCDCI) gewonnen werden.

Marlon Benedikt George ist dem HIL seit der Erstellung seiner Abschlussarbeit im Masterstudiengang „Cultural Data Studies“ am MCDCI verbunden, in der er sich der „Vermessung des Hessischen Landtags“  widmete. Das Institut war deshalb sehr erfreut, ihn für die anspruchsvolle Aufgabe eines automatisierten Abgleichs der großen Zahl von Belegen mit Lokalisierungen von Flurnamen gewinnen zu können, die das HIL zuvor auf verschiedenen Wegen zusammengetragen hatte. So verzeichnet das Amtliche Liegenschaftskatasterinformationssystem – kurz ALKIS – rund 190.000 Flurnamen für das heutige Land Hessen, deren Bezeichnungen und geografischen Koordinaten für den Abgleich extrahiert werden konnten. Eine zweite Quelle für exakte Lokalisierungen bildeten die im Flurnamenarchiv des HIL überlieferten Unterlagen. Sie umfassen handschriftliche Erhebungsbögen und Übersichtskarten, die mit den Bögen über ein Nummernsystem korrespondieren. Diese Karten hatte das HIL georeferenziert, um die Koordinaten der in ihnen verzeichneten Flurnamen durch Abklicken erfassen zu können. Die Inhalte der Bögen waren projektvorbereitend in Excel-Tabellen überführt worden, so dass sie für den Abgleich maschinenlesbar zur Verfügung standen. Nach Abschluss der Vorarbeiten waren so 62.000 Flurnamen lokalisiert.

Das HIL hat Herrn George gebeten, den von ihm gewählten Ansatz zu skizzieren und das Verfahren des Abgleichs zu schildern:

Das LAGIS-Modul Hessische Flurnamen erfasst die in verschiedenen Sammelaktionen unter der Leitung des Gießener Germanisten Prof. Dr. Hans Ramge zusammengetragenen Flurnamenbestände Hessens. Neben den amtlichen, das heißt in Kataster- und topografischen Karten verzeichneten Namenformen wurden nach Möglichkeit auch mündlich tradierte Bezeichnungen erfasst, deren Dokumentation durch lokale Gewährspersonen geschehen war.

Meine Tätigkeit beim HIL hatte die Lokalisierung der Flurnamen im LAGIS-Modul zum Ziel und ist dem Bereich der Daten- und Informationsintegration zuzuordnen, da Datenpunkte aus heterogenen Datensätzen miteinander durch algorithmische Verfahren kombiniert werden mussten. Als Vorbereitung auf die Integration der Datensätze habe ich zunächst eine explorative Datenanalyse durchgeführt, welche die Struktur der Datensätze und Unregelmäßigkeiten untersucht hat. Zugleich habe ich mich mit meinen Auftraggebern ausgetauscht, die mir wertvolle Einblicke in die Hintergründe und die Entstehungszusammenhänge der Verzeichnisse gegeben haben. Diese im Rahmen der explorativen Datenanalyse und Anforderungsanalyse erhobenen Informationen dienten später dazu, ein Programmmodul zu entwickeln, das verschiedene Bereinigungen, Normalisierungen und Homogenisierungen vornahm. Dies war ein entscheidender erster Schritt, um die Datensätze auf eine mehrfache Integration vorzubereiten. Zum einen mussten die Quellendatensätze integriert werden, ohne dass Dubletten entstanden, und zum anderen musste der LAGIS-Datensatz auf den Abgleich mit dem integrierten Quellendatensatz vorbereitet werden. Die Homogenisierung umfasste primär die Angleichung der Benennung der Datenfelder und die Identifizierung analoger Datenfelder mit unterschiedlichen Namen. Die Bereinigung der Datensätze bestand unter anderem aus der Entfernung für die maschinelle Verarbeitung redundanter Sonderzeichen wie etwa Einschübe markierende Klammern. Durch die Normalisierung wurden historische Buchstaben wie das Ypsilon mit Trema (ÿ) und Funktionswörter in regional- oder gebrauchssprachlichen Variationen substituiert.

Im nächsten Schritt wurde die Leistung und Genauigkeit verschiedener Algorithmen auf der Grundlage eines Testdatensatzes ermittelt. Die erprobten „String-Matching-Algorithmen“ berechnen Maßzahlen, welche die Ähnlichkeit zweier Zeichenketten – hier: Flurnamen –quantifizieren. Mithilfe dieser Algorithmen können Flurnamen in unterschiedlichen Schreibweisen, die etwa durch Fehler bei der Erfassung oder regionalsprachlicher Variationen entstanden sind, mit einer bestimmten Wahrscheinlichkeit zugeordnet werden. Das wohl bekannteste Ähnlichkeitsmaß für Zeichenketten ist die Levenshtein-Ähnlichkeit. Für ihre Berechnung wird die Zahl der Einfügungen, Löschungen und Ersetzungen, die erforderlich sind, um eine Zeichenkette in eine andere zu transformieren, mit der Länge der Zeichenketten normalisiert. Mithilfe dieses Verfahrens kann beispielsweise für die Flurnamen „Rohbacher heege“ und „Ruhbacherheege“ eine Ähnlichkeit von 89,66 % bestimmt werden. Darüber hinaus wurden weitere Ähnlichkeitsmaße und Herangehensweisen erprobt, die etwa die Bedeutung der semantisch zumeist untergeordneten Funktionswörter reduzierten oder die in den Datensätzen vorhandenen Metadaten nutzten, um die Flurnamen Clustern zuzuordnen, die in einigen Fällen gebündelt zugeordnet bzw. lokalisiert werden konnten.

Die Leistung und die Genauigkeit der Algorithmen wurden jeweils erfasst. Diejenigen Algorithmen, deren Ergebnisqualität hinreichend gut war, wurden in das finale Programmpaket übernommen. Zu diesem Zweck wurden für alle Algorithmen auf der Grundlage einer Stichprobe Metriken wie die True Positve Rate bestimmt, die man erhält, wenn man die Zahl der zugeordneten Flurnamen durch die Zahl der korrekt zugeordneten Flurnamen teilt.

Im finalen Schritt wurden die zuvor erprobten Algorithmen des Programmpakets über ein hierfür entwickeltes Skript in einer „Pipeline“ hintereinandergeschaltet. Dabei habe ich diejenigen Algorithmen priorisiert, die besonders präzise arbeiteten. Die Pipeline wurde bei einer regelmäßigen Verkleinerung des Schwellenwerts, bei welchem ein Flurname als zugeordnet gilt, iterativ ausgeführt. Auf diesem Wege entsteht ausgehend von einem hohen Schwellenwert und dem präzisesten Algorithmus ein „Trickle-Down-Effekt“. Bevor die finale Konfiguration mit dem Gesamtdatensatz ausgeführt wurde, wurden verschiedene Permutationen (Anordnungen) der Algorithmen und Intervalle für die Schwellenwerte getestet, um möglichst viele Flurnamen bei einer gleichzeitigen Maximierung der True Positve Rate zuzuzordnen.

Im Ergebnis konnten 340.452 der 749.891 im LAGIS-Modul vorhandenen Flurnamenbelege mit einem Lokalisierungsangebot versehen werden. Wie viele Flurnamen insgesamt identifizierbar sind, lässt sich nur abschätzen, da der Quellendatensatz – also die Zahl der lokalisierten Flurnamen – wesentlich kleiner ist als der im LAGIS-Modul vorliegenden Flurnamenbelege und die Größe der Schnittmenge nicht bekannt ist. Die finalen Stichprobenziehungen konnten die Qualität der Zuordnungen belegen, da in den 300 – zufällig entnommenen – untersuchten Flurnamen nur drei eindeutig falsche Ergebnisse gefunden werden konnten.

Marlon-Benedikt George

Schlagworte zum Thema