Die fortschreitende Digitalisierung führt dazu, dass Unternehmen immer größere Datenmengen generieren, während die Anforderungen der Anwender an die Daten rasant steigen und sich stetig verändern. Unternehmen möchten die verfügbaren Informationen nutzen, um datenbasierte Entscheidungen zu treffen und ihr Business zu optimieren. Was die zugrunde liegende Datenarchitektur angeht, dominierte in den Unternehmen in der Vergangenheit eine zentralisierte Organisation im Sinne eines Data Warehouse oder Data Lake.
Allerdings geraten solche monolithischen Datenplattformarchitekturen zunehmend an ihre Grenzen, wenn es um die Herausforderung geht, strukturierte, semistrukturierte und unstrukturierte Daten aus unterschiedlichen Datenquellen in verschiedenen Geschwindigkeiten, Qualitäten und Mengen zu verarbeiten. Das liegt unter anderem daran, dass es zentrale Datenteams gibt, die für die Bereitstellung und Aufbereitung der Daten verantwortlich sind. In ihrer Vermittlerrolle zwischen Datenproduzenten und -konsumenten werden sie häufig zwischen den Anforderungen beider Seiten aufgerieben. Mit zentralen Datenverarbeitungsabteilungen lässt sich die zunehmende Geschwindigkeit bei der Änderung von Anforderungen aufgrund von immer kürzeren Anwendungslebenszyklen und des explosionsartigen Wachstums von verteilten IT-Landschaften oft nicht bewältigen. Das führt zu einer erhöhten Unzufriedenheit aufseiten der Datenproduzenten und -konsumenten.
Während die Datenproduzenten Domänenwissen haben und die Bedeutung und Zusammenhänge der Daten verstehen, erkennen die Datenkonsumenten das Potenzial der Daten für das Unternehmen und haben hohe Anforderungen an die Datenqualität. Das Dilemma der Datenteams: Sie sollen Daten in hoher Qualität bereitstellen, ihnen fehlt jedoch das Domänenwissen und sie haben keinen Einfluss auf die Qualität der Datenerzeugung. Angesichts dieser Konstellation kommen Unternehmen immer häufiger zu der Erkenntnis, dass ihre derzeitige Datenarchitektur (in vielen Fällen ein isoliertes Data Warehouse oder ein Data Lake) möglicherweise nicht mehr zu den aktuellen Anforderungen passt. Der Ruf nach mehr Demokratisierung und Skalierbarkeit bei der Datenbereitstellung wird lauter.
Genau hier setzt die sogenannte Data-Mesh-Architektur an. Dieser neuartige Ansatz bringt Datenproduzenten und -konsumenten so nah wie möglich zusammen, sodass kein Vermittler zwischen den Teams erforderlich ist. Die datenproduzierenden Teams sollen die Daten so bereitstellen, dass die Konsumenten ohne detailliertes Domänenwissen Wert aus den Daten gewinnen können.
Data Mesh basiert auf vier grundlegenden Prinzipien:
Domain Ownership
Data as a Product
Self-Service Data Platform
Federated Computational Governance
Mit diesen Prinzipien gelingt der Aufbau einer effizienten Datenarchitektur, welche die Geschäftsziele bestmöglich unterstützt und die Unzulänglichkeiten herkömmlicher Daten-Management-Strukturen vermeidet. Im Folgenden beschreiben wir die vier Data-Mesh-Prinzipien genauer und gehen auf unterschiedliche Lösungen und Technologien aus dem SAP-Portfolio ein, die auf die einzelnen Prinzipien einzahlen.
Im Data Mesh ist die Daten-Ownership dezentralisiert, sodass die einzelnen Geschäftsbereiche (Domänen) die Verantwortung für ihre eigenen Daten übernehmen. Das fördert die Verantwortlichkeit, regt zu Innovationen an und reduziert das Risiko von Datensilos. Die Daten werden für die operative Verwendung in domänenfremden Systemen und für analytische Zwecke bereitgestellt.
SAP Datasphere (ehemals SAP Data Warehouse Cloud) bietet gute Möglichkeiten für die Umsetzung dieses domänengetriebenen Ansatzes. Eine Schlüsselkomponente ist das Space-Konzept. Ein Space entspricht dabei einer Domäne im Data-Mesh-Framework. Jede dieser Domänen stellt einen isolierten Arbeitsbereich dar, zu dem sich Benutzer und Verbindungen beliebig zuweisen lassen. Das ermöglicht die Isolierung von Metadaten, Self-Service-Datenmodellierung und Self-Service-Datenflüssen. Gleichzeitig bietet SAP Datasphere die Möglichkeit, Objekte explizit über die Grenzen der Spaces hinweg zu teilen.
Die von den Domänen bereitgestellten Daten werden als Produkte behandelt – und die Nutzer dieser Produkte sind die Kunden, die zufriedenzustellen sind. Die Idee dahinter: Die Verantwortung für die Datenqualität liegt bei den Geschäftsbereichen, da sie ihre Daten am besten kennen. In diesem Zusammenhang sind unter anderem Aspekte wie Auffindbarkeit, Sicherheit, Verständlichkeit und Vertrauenswürdigkeit relevant. Die Datenprodukte tragen als wertvolle Assets dazu bei, geschäftlichen Mehrwert zu schaffen und das Wachstum zu fördern, indem sie als nutzbares Produkt bereitstehen. Eine SAP-Lösung, die dieses Prinzip unterstützt, ist beispielsweise der Data Marketplace. Er spielt als zentraler Bestandteil von SAP Datasphere eine wichtige Rolle, um Datenprodukte sowohl für den internen als auch für den externen Datenaustausch verfügbar zu machen.
Um ihre Datenprodukte autonom zu verwalten, benötigen Domänenteams Zugang zu einer hochgradig abstrakten Infrastruktur, mit der sich die Komplexität und die Reibungsverluste bei der Bereitstellung und beim Management von Daten verringern oder gar beseitigen lassen. Um technische Details wie Schnittstellen oder Protokolle sollten sich die Domänenteams nicht kümmern müssen. Daher muss eine Self-Service-Datenplattform bereitgestellt werden, die geeignete Tools umfasst, um die Datenproduzenten beim Erstellen, der Pflege und dem Betrieb ihrer Datenprodukte bestmöglich zu unterstützen.
Mithilfe der SAP Business Technology Platform (BTP) und den anderen genannten SAP-Produkten lässt sich eine solche Self-Service-Datenplattform aufbauen. Zusätzlich kann künstliche Intelligenz bei den jeweiligen Themen sinnvoll unterstützen, da KI-Technologien integrierter Bestandteil der SAP BTP sind.
Damit ein reibungsloses Zusammenspiel der unabhängigen Datenprodukte gelingt, ist eine gewisse Standardisierung erforderlich. Im Sinne einer einheitlichen Nutzung der Self-Service-Datenplattform verständigen sich die dezentralen Domänen- und die zentralen Plattformteams auf bestimmte universelle Richtlinien. Diese gelten für alle Datenprodukte und ihre Schnittstellen und stellen ein interoperables Daten-Ökosystem sicher.
Während Themen wie Datenschutz, Sicherheit und Governance in traditionellen Architekturen zentral verwaltet werden, verlagert der Data-Mesh-Ansatz diese gezielt in die Domänenteams. Das bedeutet, die Gesamtverantwortung für die Datenprodukte beinhaltet neben einer hohen Datenqualität beispielsweise auch den Schutz personenbezogener Daten. SAP HANA Cloud bietet geeignete Technologien, um domänenspezifische Schutzmaßnahmen umzusetzen, und stellt somit unter anderem die rechtskonforme Nutzung der Datenprodukte sicher.
Data Mesh bedeutet einen Paradigmenwechsel und ebnet den Weg zu einer domänengesteuerten Datenarchitektur. Jeder Unternehmensbereich ist für die Definition, die Qualität und die Erstellung von Daten aus der eigenen Domäne verantwortlich. Bei Data Mesh werden die Prinzipien des Produkt-Managements auf das Daten-Management übertragen. Das Ziel ist, dass Unternehmensbereiche verwertbare Daten als Produkt vermarkten.
Data Mesh ist ein äußerst spannender Ansatz für moderne, digitale Unternehmen und stellt eine Vision für Organisationen dar, die sich in diese Richtung entwickeln möchten. Allerdings setzt Data Mesh einen gewissen digitalen Reifegrad und entsprechende Fähigkeiten der Mitarbeiter im Unternehmen voraus – insbesondere bei den Mitarbeitern, die an der Datenbereitstellung beteiligt sind. Folglich sollte ein umfassendes Change-Management die Einführung begleiten, um Data Mesh als zukunftsweisende Datenarchitektur und neues Organisationsprinzip erfolgreich zu etablieren.