Ein Datenmigrationsprojekt hat das Ziel, Daten zuverlässig und qualitätsgesichert in ein neues System zu überführen, damit sie dort vollständig, korrekt und redundanzfrei vorliegen. Dazu gehört auch, Daten, die im neuen System aus Prozesssicht nicht mehr benötigt werden, zu identifizieren und den Datenbestand von solchem unnötigen Ballast zu befreien.
Eine genaue Kenntnis der Datenqualität hilft dabei, den Gesamtaufwand eines Migrationsprojekts verlässlich einzuschätzen. Bei rund 40 % der Projekte verursacht eine geringe Datenqualität einen höheren Zeit- und Budgetaufwand als ursprünglich geplant. Aber was sind Merkmale einer schlechten Datenqualität? Das können unbefüllte Felder sein, in denen Werte fehlen. Bei der Übernahme von Daten aus Nicht-SAP-Systemen kommt es bisweilen vor, dass Werte, die dort als Pflichtfelder definiert waren, im SAP-System fehlen. Auch unterschiedliche Formate in bestimmten Feldern – etwa die Darstellungsweise von Länderkürzeln – und verschiedene Schreibweisen bei Straßennamen, durch die potenzielle Dubletten entstehen, haben negative Auswirkungen auf die Datenqualität.
Wer im Rahmen einer Datenmigration von vornherein ausreichend Zeit und Kapazitäten einplant, um die Datenqualität zu verbessern, startet im neuen System mit sauberen Daten durch und macht das Leben der Anwender leichter. Daher sehen wir die Datenbereinigung als zweite von insgesamt vier Phasen eines Migrationsprojekts:
Phase 2: Datenbereinigung
Der Weg zu qualitätsgesicherten Daten führt über die fünf Etappen Scope-Definition, Field Mapping, Value Mapping, Adressbereinigung und Dubletten-Check.
Anhand der Ergebnisse aus der Datenanalyse gilt es, zunächst den Umfang der Bereinigung bzw. Bearbeitung festzulegen und zu entscheiden, welche Daten migriert werden sollen. Das ist erforderlich, weil in der Regel – zum Beispiel aufgrund von Prozessänderungen im neuen System – nicht alle Daten zwingend übernommen werden müssen. Darüber hinaus muss das Projektteam klären, ob Daten aus anderen Quellen, etwa Kommunikationsdaten oder steuerlich relevante Informationen, zu ergänzen sind.
Die Scope-Definition dient auch dazu, die Tools auszuwählen, mit denen die weiteren Schritte der Datenbereinigung durchgeführt werden. Soll die Bereinigung maschinell oder manuell erfolgen? Während die schnellere Durchführung für die maschinelle Variante spricht, verursacht die manuelle Bereinigung zwar einen höheren Aufwand, kann aber erforderlich sein, um zu entscheiden, ob eine Dublette vorliegt.
Das Field Mapping umfasst die Definition der Felder, die für das Zielsystem gemappt werden müssen. Unter Umständen kann es erforderlich sein, auch Felder aus Nicht-SAP-Systemen zu berücksichtigen. Umgekehrt ist zu klären, ob es Felder gibt, die in SAP S/4HANA nicht mehr benötigt werden oder sogar nicht mehr vorhanden sind.
Gegenstand des Value Mappings ist die Prüfung, ob Werte umgeschlüsselt werden müssen. Ein Beispiel ist die Umstellung von einem einstelligen auf einen zweistelligen Ländercode. Falls sich Feldlängen im neuen System verändern, müssen sie angepasst werden. Darüber hinaus kann es vorkommen, dass vorhandene Buchungskreise auf eine geringere Zahl an Buchungskreisen konsolidiert oder zusätzliche Buchungskreise erstellt werden muss.
Die Adressbereinigung dient dazu, Schreibweisen an offizielle Bestimmungen und Vorgaben anzupassen und fehlerhafte Schreibweisen zu korrigieren. Ebenso lassen sich in diesem Zuge nicht relevante Informationen in den Straßen- und Ortsfeldern eliminieren. Auf der Grundlage von offiziellen Straßenumbenennungen werden gegebenenfalls Adresskorrekturen vorgenommen. Geo-Codes können angereichert werden. Um die Adressbereinigung bestmöglich durchführen zu können, ist zu klären, welche Tabellen dafür zur Verfügung stehen. Hat das Unternehmen Zugriff auf offizielle Posttabellen? Von welchen Ländern werden die aktuellen Tabellen benötigt?
Ein beispielhafter Workflow für die Adressbereinigung mithilfe von SAP-Applikationen sieht so aus: Das Tool AddressCleanse prüft die Adressdaten anhand postalischer Verzeichnisse. Das System checkt, ob eine Postleitzahl auch wirklich dem Ort oder der Region entspricht, und ergänzt fehlende Postangaben. Zudem sorgt es für die Standardisierung der Adresszeilen. Ein aussagekräftiger Report fasst die ermittelte Datenqualität zusammen. Das Ergebnis der Adressbereinigung ist eine Clean-Datei, die in das neue System übertragen werden kann.
Voraussetzung für die Durchführung eines Dubletten-Checks ist die Definition, wann ein Datensatz überhaupt als Dublette gilt. Potenzielle Felder für das Identifizieren einer Dublette sind mehrfach vorhandene Firma-Adress-Kombinationen, mehrfach vorhandene Umsatzsteuer-Identnummern, Steuernummern und Bankverbindungen, Telefonnummern, Materialnummern oder Materialbeschreibungen sein. Des Weiteren müssen die Verantwortlichen festlegen, ab welchem Übereinstimmungsgrad ein Datensatz als Dublette ausgewiesen wird. Die meisten Tools, mit denen sich ein Dubletten-Check durchführen lässt, bilden einen Score, anhand dessen sie entscheiden, ob es sich um eine Dublette handelt oder nicht.
Auch für die Dubletten-Bereinigung lässt sich ein Workflow beispielhaft skizzieren: Anhand von Regelwerken, die auf Name und Anschrift basieren, werden die Kundendaten auf Dubletten geprüft. Fuzzy-Matching-Methoden finden auch schwer zu ermittelnde Duplikate, die durch Rechtschreibfehler, Tippfehler oder unterschiedliche Formatierungen verursacht werden. Eindeutige Datensätze erhalten den Status „Unique“, während Dubletten innerhalb ihrer Gruppe als „Driver“ oder „Passenger“ markiert werden. Ein ausführliches Protokoll führt die Anzahl und das Qualitätslevel der erstellten Dubletten-Gruppen auf. Die erzeugte Ausgabedatei kann schließlich für die Migration verwendet werden.
Mithilfe einer Datenbereinigung verschaffen sich Unternehmen einen Überblick über die vorhandene Datenqualität. Die Adressbereinigung und/oder der Dubletten-Check tragen zu einer höheren Datenqualität bei. So ist sichergestellt, dass keine Altlasten in das neue System übertragen werden.
Nach der erfolgreichen Datenbereinigung geht es im nächsten Schritt darum, die Daten mithilfe bestimmter Tools in das neue System zu bekommen. Sind die Datensätze übertragen, sollte es das Ziel sein, die hohe Datenqualität dauerhaft aufrechtzuerhalten und somit langfristig von den im Migrationsprojekt unternommenen Anstrengungen zu profitieren.