Sie werden das Problem kennen und auch in meiner Projektarbeit bei addResults begegnet es mir ständig: doppelte Datensätze gehören zur Normalität bei der Arbeit mit Datenbanken. Kreditoren tauchen doppelt auf und verursachen Probleme oder wachsen zu einer großen Menge Datenmüll an. Durch andere Schreibweisen oder auch Tippfehler sind die Duplikate allerdings oft sehr schwer zu identifizieren.
Um dieses Problem zu lösen, nutze ich bei addResults ein kleines kostenloses Microsoft® Add-In für Excel: „Fuzzy Lookup“. Zur Ermittlung der doppelten Datensätze behilft sich das Add-In mit der Levenshtein-Distanz. Diese Distanz errechnet sich aus der minimalen Anzahl von Einfüge-, Lösch- und Ersetz-Optionen, die benötigt wird, um eine Zeichenkette in eine zweite umzuwandeln. Wenn zwei Datensätze komplett identisch sind, ist die Levenshtein-Distanz null. Je unterschiedlicher die Datensätze sind, desto größer wird die Distanz.
Excel als Analysetool
Sie möchten auf einen Schlag geballtes Wissen tanken, was Ihre Excel-Skills von 0 auf 100 bringt?
Hier anmelden!
Fuzzy Lookup anwenden
Bei der Erstanwendung muss das Add-In auf der Website von Microsoft heruntergeladen werden. Falls Ihre IT sich an dieser Stelle quer stellt, weil Sie auf Ihrem Firmenrechner keine Downloads vornehmen dürfen, probieren Sie den Vorgang doch zunächst auf Ihrem privaten Computer aus. So können Sie Ihre IT/Ihren Chef im Anschluss von Ihren Erfahrungen mit dem Tool berichten und für eine Freischaltung des Downloads überzeugen. Das Tool ist momentan nur in englischer Sprache verfügbar. Nach erfolgreicher Installation sollte es als weiterer Reiter innerhalb der Toolbar der Excel-Datei erscheinen.
Klickt man auf das Feld „Fuzzy Lookup“, erscheint ein Bereich auf der rechten Seite des Excel-Blattes. Dort müssen zwei Tabellen („Left Table“ und „Right Table“) zum Vergleich ausgewählt werden. Hierbei gibt es auch die Möglichkeit die gleichen Tabellen zu vergleichen, um Duplikate innerhalb einer Tabelle zu identifizieren.
Wichtig: Um eine Tabelle auswählen zu können, müssen die Daten als Tabelle in Excel definiert werden. Dies kann eingestellt werden, indem der gewünschte Tabellenbereich markiert und über den Reiter Einfügen und dann Tabelle1 ausgewählt wird. Die Tabelle sollte zur Vereinfachung der nachfolgenden Schritte mit Überschriften übernommen werden.
Tabellen vergleichen
Im nächsten Schritt („Left Columns“ und „Right Columns“) werden die Spalten ausgewählt, die gegenübergestellt werden sollen. Hierbei können auch mehrere Spalten innerhalb einer Tabelle ausgewählt werden, um z. B. in unserem gewählten Beispiel neben dem Debitorennamen auch weitere Merkmale, wie z. B. den Standort, zu vergleichen. Im Bereich „Match Columns“ können mehrere Vergleichsvarianten selektiert werden, z. B. möchte man anfangs nur einzelne Spalten miteinander vergleichen und anschließend alle zusammen.
Im vorletzten Schritt können die Spalten ausgewählt werden, die Sie am Ende innerhalb der Auswertung sehen möchten. Bevor Sie den Knopf „Go“ drücken, muss die Trefferanzahl eingestellt werden und anschließend der Übereinstimmungsgrad, der ermittelt werden soll.
Wenn alle Bereiche eingestellt sind, kann das Tool die Auswertung beginnen. Es ist wichtig, dass der Cursor bei dem Klick „Go“ in einem neuen Arbeitsblatt im Feld A1 steht. An dieser Stelle wird das Ergebnis der Auswertung abgelegt.
Ein einfaches Beispiel finden Sie in unserer Excel-Datei „addResults – FuzzyLookup“, welches die nötigen Schritte komprimiert noch einmal darstellt und ein Beispiel zum selber testen beinhaltet:
Sie haben immer noch nicht genug
von Tipps zu Excel?
Mit unserem Newsletter erhalten Sie alle zwei Wochen
- aktuelle Artikel und Whitepaper,
- unsere Kategorien "schon gewusst?" und "was uns gerade inspiriert"
- und die aktuellen Termine unserer Audinare.
Was erhalten wir dafür?
- Die Chance Sie von uns und unserem Know-how zu überzeugen.