Wir haben uns die Frage gestellt, was sich genau hinter dem Begriff Big Data verbirgt. Die Bedeutungen, die ihm zugeschrieben werden, sind so verschieden wie der Kontext, in dem er verwendet wird. Manche setzen den Ausdruck ein, um Datenmengen zu beschreiben, mit deren Verarbeitung traditionelle Datenbanksysteme nicht mehr umgehen können. Andere bezeichnen damit Datenmengen, die zu groß sind, um sie auf wenigen Servern abzulegen. Wieder andere verwenden den Begriff, um einfach nur irgendeine Menge von Daten zu beschreiben, selbst wenn diese nicht sehr groß ist. Gelegentlich wird die Bezeichnung Big Data auch verwendet, wenn Daten weder groß noch komplex sind, sich nicht schnell ändern und mit herkömmlichen Tools und Techniken problemlos verarbeitet werden können. Der zunehmend inflationäre und verwaschene Einsatz der Bezeichnung sorgt dafür, dass Big Data immer mehr als reiner Marketingbegriff angesehen und dadurch womöglich in den kommenden Jahren eine starke Abwertung erfahren wird.

 

Das digitale Zeitalter

DasDigitaleZeitalter_IBsolution_BigDataÜber 3,8 Milliarden Menschen verfügen über einen Zugang zum Internet, Google verarbeitet täglich etwa 5,6 Milliarden Suchanfragen und über 500 Millionen Tweets werden pro Tag auf Twitter bereitgestellt. Hinzu kommt die zunehmende Vernetzung der Geräte um uns herum. Immer mehr physische „Dinge“ enthalten Sensoren, die Daten aufnehmen und weiterleiten, wodurch das „Internet der Dinge“ entsteht.

Diese Vernetzung fängt bei den Smartphones an, die wir täglich nutzen. Sie greift über auf unsere Haushalte, in Form von intelligenten Haushaltsgeräten wie Kaffeemaschinen oder Kühlschränken. Unsere Autos sind längst schon mit einer großen Anzahl von Sensoren versehen. Nicht zuletzt statten wir uns mit Fitnesstrackern aus, die überwachen, wie wir uns verhalten und fühlen. Egal was wir tun, wir hinterlassen digitale Spuren. Sei es, dass wir unsere Einkäufe mit Kreditkarten bezahlen und Kundenkarten einsetzen, um Rabatte zu bekommen, oder einfach nur im Internet surfen. Hinzu kommen Daten, die von Behörden und Unternehmen erhoben werden.

 

Die Menge an Daten, mit der wir im digitalen Zeitalter konfrontiert werden, war der maßgebliche Faktor, dem der Begriff „Big Data“ seinen Namen verdankt. Doch es ist nicht die Menge der Daten allein, die Big Data ausmacht.

 

Von Goldgräbern und Kaleidoskopen

Zwei bildhafte Assoziationen helfen, sich dem Thema weiter anzunähern: Zum einen ist Big Data vergleichbar mit dem Bild des Goldwaschens. Stellen Sie sich vor, Sie wären ein Goldgräber. Mit einer Goldwäscherpfanne stehen Sie am Rande eines Flussbetts und versuchen, damit das aus dem Sand zu extrahieren, was von Wert ist. Die riesige Menge an Sandkörnern steht dabei für die wachsende Menge an Daten, die Ihnen zur Verfügung steht. Das Gold für diejenigen Anteile, aus denen Sie einen Wert ziehen können. Es geht darum, die Elemente zu identifizieren und herauszupicken, die Ihnen einen Mehrwert bringen, und diejenigen auszusortieren, die sich als unbrauchbar und irreführend herausstellen.

 

Andererseits ist Big Data auch mit dem Bild eines Kaleidoskops vergleichbar. Dabei handelt es sich um einen Gegenstand, der vielen von uns aus unserer Kindheit bekannt ist und optisch an ein Fernrohr erinnert. In einem solchen Kaleidoskop befindet sich eine scheinbar ungeordnete Menge an bunten Steinen. Doch dreht man an dem Gerät, verändert sich die Struktur, wodurch faszinierende bunte Muster entstehen. Neue Verknüpfungen werden hergestellt – geänderte Kombinationen führen zu immer neuen Mustern. Ähnlich verhält es sich mit Big Data. Big Data ist demzufolge nicht nur die schier unglaubliche Menge an Daten allein, sondern vor allem auch das Potenzial, durch neue Verknüpfungen immer wieder neue Muster erkennen zu können.

 

Die charakterisierenden Vs von Big Data

5V_BigData_IBsolutionWas genau macht also Big Data aus, wenn es nicht die Menge der Daten allein ist? Die eine, allgemein anerkannte und gültige Definition von Big Data gibt es nicht. Ein in der Wissenschaft häufig verwendeter Ansatz ist, Big Data über die fünf Vs (Volume, Velocity, Variety, Veracity und Value) zu definieren:

 

Volume charakterisiert dabei die gewaltige Menge an Daten, die bereits vorhanden ist, sowie das exponentielle Wachstum, mit dem täglich, stündlich, minütlich, ja sogar sekündlich neue Daten entstehen. Nicht zu verkennen, dürfte das große Datenvolumen diejenige Eigenschaft sein, die uns allen am bekanntesten ist und der der Begriff seinen Namen verdankt.

 

Velocity beschreibt die Geschwindigkeit der Daten – sowohl im Sinne der Aktualität als auch der Verarbeitung. Die Geschwindigkeit, mit der die Daten einerseits generiert, erfasst und übertragen werden und mit der sie andererseits verarbeitet werden können. Sie ermöglicht es, quasi in Echtzeit Situationen zu analysieren und datenbasierte Entscheidungen zu treffen. Darüber hinaus können Daten und ihre Bedeutungen heutzutage sehr schnell veralten und so ihre Aussagekraft und Aktualität innerhalb kurzer Zeit verlieren. Es ist darauf zu achten, diese stets in einem aktuellen Zustand zu halten.

 

Variety bezieht sich auf die Vielfalt der Daten. Aufgrund der diversen Quellen, mit denen Daten generiert und erhoben werden, ergeben sich verschiedenste Datenformate. Nahezu 85 % der Daten werden nicht mehr in strukturierter Form erzeugt und abgelegt, sondern sind den sogenannten unstrukturierten oder semistrukturierten Datenformaten zuzuordnen. Dazu zählen beispielsweise Bilder, Videos, Texte, Töne oder Geodaten.

 

Veracity (Wahrhaftigkeit, Genauigkeit) ergibt sich aus der Unbestimmtheit der Daten. Aufgrund dessen, dass einerseits sowohl die Menge der Daten als auch die Anzahl der möglichen Quellen immer weiter ansteigt und andererseits auch die Geschwindigkeit, mit der neue Daten erzeugt werden, erhöht sich die Gefahr der Fehleranfälligkeit der Daten. Das bezieht nicht nur falsch gemessene Sensordaten mit ein, sondern beispielsweise auch gezielte Falschaussagen auf sozialen Netzwerken, bearbeitete Bilder oder Fehlinterpretationen.

 

Value (Nutzen) erzeugt man nicht durch das reine Sammeln großer Datenmengen, sondern durch die Ableitung von Informationen, welche die Entscheidungsfindung im Unternehmen unterstützen. Es ist nicht damit getan, die Daten einfach nur erfassen und speichern zu können. Der wesentliche Wert beim Verarbeiten großer und komplexer Datenvolumen liegt darin, neue Trends zu erkennen, versteckte Muster offenzulegen oder Anomalien zu identifizieren. Erkenntnisse, die helfen, das Verständnis zugrundeliegender Probleme zu fördern, sodass besser informierte – datengetriebene – Entscheidungen getroffen werden können.

 

Qualität entsteht aus Quantität

Es ist also nicht die Menge an Daten allein, die Big Data ausmacht, es sind die fünf Elemente mit all ihren Wechselwirkungen. Vor allem die Integration von Daten unterschiedlicher Datenquellen und verschiedener Datenformate in Kombination mit darauf angewandten Analyseverfahren – seien es Real-Time-Analysen, Vorhersageanalysen oder ganz klassische Datenanalysen – eröffnet Unternehmen ganz neue Potenziale und macht den Einsatz von Big Data so wertvoll. Natürlich ist dieser mit ganz eigenen Herausforderungen verbunden, die nicht unbeachtet bleiben sollten. Dennoch lohnt es sich, Big Data im eigenen Unternehmen zu etablieren. Der Wert, der dadurch generiert werden kann, ist sehr vielseitig.

 

Verschaffen Sie sich in unserem Blogartikel zum Thema Big Data einen Überblick über die Herausforderungen, die das Thema mit sich bringt, aber auch über die Möglichkeiten, wie Sie mit Big Data Ihr Geschäft transformieren und für sich einen Mehrwert daraus ziehen können.

Weitere interessante Beiträge: