Im ersten Teil unserer Artikelserie wurde deutlich, dass viele analytische Probleme nicht durch fehlerhafte Daten entstehen, sondern durch falsche Annahmen über Gleichheit. Genau an dieser Stelle setzt die Kölner Phonetik an. Um sie sinnvoll einsetzen zu können, reicht es jedoch nicht, sie als „Blackbox“ zu verwenden. Entscheidend ist das Verständnis des zugrunde liegenden Denkmodells.
Dieser Artikel ist Teil 2 unserer Serie über die Kölner Phonetik
- Teil 1 Warum exakte Daten analytisch falsch sein können
- Teil 2 Die Kölner Phonetik verstehen, nicht nur anwenden
- Teil 3 Kölner Phonetik mit Power Query umgesetzt in der Datenanalyse
- Teil 4 Die Kölner Phonetik in der Praxis: Code, Logik und Anwendung – ein methodischer Deep Dive für Einsteiger
Die Kölner Phonetik ist kein statistisches Verfahren. Sie schätzt keine Ähnlichkeiten und berechnet keine Wahrscheinlichkeiten. Stattdessen folgt sie einer klaren, regelbasierten Idee: Begriffe, die gleich oder sehr ähnlich klingen, sollen identisch behandelt werden – unabhängig von ihrer Schreibweise. Diese Entscheidung ist bewusst und gleiche Eingaben führen immer zu gleichen Ergebnissen.
Ein klassisches Beispiel sind deutsche Nachnamen wie Meier, Meyer, Maier oder Mayer. Orthografisch unterscheiden sie sich deutlich. Phonetisch sind sie nahezu identisch. Eine zeichenbasierte Analyse erzeugt mehrere Gruppen. Eine phonetische Betrachtung erkennt eine Einheit.
Dasselbe gilt für Varianten wie Müller, Mueller, Möller oder Meller. Die Unterschiede liegen in der Schreibweise, nicht im Klang. Die Kölner Phonetik bildet diese lautliche Gemeinsamkeit systematisch ab und macht sie analytisch nutzbar – ohne manuelle Eingriffe, ohne Heuristiken, ohne statistische Unsicherheit.
Historisch ist die Kölner Phonetik kein modernes Hilfsmittel, sondern ein etabliertes Verfahren. Seit ihrer Erstveröffentlichung 1969 basiert sie auf einem festen Regelwerk, das die lautliche Struktur von Wörtern systematisch abbildet. Genau diese Regelhaftigkeit macht sie analytisch interessant: Die Logik ist nachvollziehbar, erklärbar und reproduzierbar.
Wichtig ist, was die Kölner Phonetik nicht ist. Sie ist kein unscharfes Suchen, kein probabilistisches Matching und kein heuristischer Kompromiss. Sie ersetzt keine fachliche Entscheidung, sondern macht sie explizit. Statt implizit davon auszugehen, dass Gleichheit auf Zeichenebene entsteht, verlagert sie diese Annahme bewusst auf die Klangebene.
Gerade im deutschen Sprachraum entfaltet dieses Modell seine Wirkung. Viele orthografische Varianten beruhen auf sehr ähnlichen Lautbildern. Umlaute, Doppelkonsonanten, regionale Schreibweisen oder historische Varianten erzeugen hohe Varianz in der Schreibweise, ohne dass sich der Klang wesentlich verändert. Die Kölner Phonetik reduziert diese Varianz gezielt – nicht durch Schätzung, sondern durch Regelsetzung.
Nach der Normalisierung werden Umlaute vereinheitlicht, Sonderzeichen entfernt, alles in Großbuchstaben überführt. Aus Möller wird MOELLER, aus Müller MUELLER. Anschließend erfolgt die buchstabenweise Kodierung. Vokale erhalten den Code 0, Konsonanten werden je nach Lautgruppe kodiert. M und N werden beispielsweise als 6 kodiert, L als 5, R als 7.
Für MUELLER ergibt sich zunächst eine Folge wie 6-0-0-5-5-0-7. In der Reduktionsphase werden doppelte Ziffern zusammengefasst und irrelevante Nullen entfernt. Übrig bleibt der Code 6507. Dasselbe Ergebnis entsteht für die anderen Varianten. Nicht, weil sie gleich aussehen, sondern weil sie gleich klingen.
Damit werden Müller, Mueller, Möller, Meller und Möllar analytisch als zusammengehörig erkannt. Eine Analyse, die auf diesem Code basiert, trifft eine andere Gleichheitsannahme als eine Analyse auf Zeichenebene. Sie kommt der fachlichen Realität näher – ohne manuelle Eingriffe, ohne Heuristiken, ohne statistische Schätzungen.
Im nächsten Teil unserer Artikelserie verlassen wir die algorithmische Ebene und richten den Blick auf die Umsetzung in der Praxis am Beispiel von Power Query. Es geht nicht darum, ob die Kölner Phonetik funktioniert, sondern wo sie sinnvoll eingesetzt wird. Denn der Mehrwert entsteht in der Art und Weise, wie Daten vorbereitet, interpretiert und strukturiert werden
Hans-Willi Jackmuth