Zum Hauptinhalt springen

Datenanalysen scheitern selten an fehlenden Zahlen. Sie scheitern an impliziten Annahmen darüber, was als „gleich“ gilt. Diese Annahmen sind technisch unsichtbar, wirken aber in jeder Aggregation, jeder Zählung und jeder Kennzahl – mit teils erheblichen fachlichen Verzerrungen.

Dieser Artikel ist Teil 1 unserer Serie über die Kölner Phonetik

Phonetik als methodischer (Zusatz-)Baustein moderner Datenanalyse

Datenanalysen scheitern in der Praxis deutlich häufiger an Annahmen als an fehlenden oder falschen Zahlen. Diese Annahmen sind nicht explizit formuliert, nicht dokumentiert und oft nicht einmal bewusst getroffen. Sie liegen nicht in den Visualisierungen, nicht in den Kennzahlen und nicht im Datenmodell. Sie liegen tiefer – in der Frage, was in einer Analyse als „gleich“ gilt und was nicht.

Genau an dieser Stelle entstehen viele der Probleme, die später als Datenqualitätsmängel, Dubletten oder unerklärliche Abweichungen sichtbar werden. Die Analyse wirkt sauber, die Abfragen sind korrekt, die Ergebnisse plausibel. Und dennoch tragen sie fachlich nicht.

Besonders deutlich zeigt sich dieses Muster bei Namen und Ortsangaben. Müller, Mueller, Möller oder Meller sind formal unterschiedliche Zeichenketten. Für ein Datenbanksystem sind sie eindeutig verschieden. Fachlich beschreiben sie jedoch häufig dieselbe Person oder zumindest dieselbe Namensgruppe. Klassische Analysen behandeln sie trotzdem getrennt – nicht aus Nachlässigkeit, sondern weil sie auf exakter Übereinstimmung operieren müssen.

Das Ergebnis sind fragmentierte Gruppen, instabile Zählungen und Kennzahlen, die technisch korrekt, fachlich jedoch irreführend sind. Kunden tauchen mehrfach auf, Fallzahlen schwanken unerwartet, Stammdaten lassen sich nicht konsolidieren. Die Analyse ist präzise – aber nicht richtig.

In vielen Projekten wird dieses Phänomen unter dem Begriff „Datenqualität“ diskutiert. Es werden Pflichtfelder definiert, Dublettenregeln eingeführt oder manuelle Bereinigungen vorgenommen – teilweise auch mit unscharfen Abgleichslogiken in bekannten Office-Werkzeugen. Diese Maßnahmen sind sinnvoll und oft notwendig. Sie lösen das grundlegende Problem jedoch nicht.

Denn hier geht es nicht um falsche Daten im engeren Sinne. Die Daten sind korrekt erfasst. Es fehlen keine Werte, es gibt keine fehlerhaften Datentypen, keine offensichtlichen Tippfehler. Und dennoch entstehen Analysen, die fachlich nicht tragen. Der Grund liegt darin, dass Datenanalyse implizit davon ausgeht, dass Zeichenketten Bedeutung transportieren.

Das tun sie jedoch nur sehr eingeschränkt. Sprache ist variabel, kontextabhängig und historisch gewachsen. Namen ändern sich, werden regional unterschiedlich ausgesprochen, transliteriert oder vereinfacht erfasst. Diese Variabilität spiegelt sich zwangsläufig in den Daten wider.

Wer diese Variabilität ignoriert, trifft dennoch eine fachliche Entscheidung – nur eben unbewusst. Er entscheidet implizit, dass nur exakt gleiche Zeichenketten fachlich gleich sind. Diese Entscheidung ist selten dokumentiert, wirkt aber in jeder Aggregation, jedem Join und jeder Zählung fort.

Im nächsten Teil unserer Artikelserie geht es deshalb nicht um Tools oder Bereinigung, sondern um ein Denkmodell, das genau an dieser Stelle ansetzt: die Kölner Phonetik.