Big Data – Datensee versus Datenleck

Chancen und Gefahren von Big Data

Daten und Informationen spielen in Unternehmen eine immer wichtigere Rolle und stellen vermehrt einen bedeutenden Produktionsfaktor dar. Das Konzept sogenannter Datenseen versprechen viel, wenn es um die Analyse solcher Daten und Informationen geht, die durch Machine Learning und Künstliche Intelligenz unterstützt wird. Es gibt jedoch nicht nur Vorteile.

Das Aufkommen von Big Data und skalierbarer Informationssuche, die sich unter anderem auf Lucene-basierten Speicherclustern stützt, führte zu einer Renaissance von Analysetechniken. Wissen innerhalb der gesamten Unternehmung aufzuspüren, ist möglich geworden und viele haben davon profitiert. Dass man mittlerweile die Beziehung zwischen Reaktionszeit Online-Verkauf ermitteln kann, ist eine Riesensache. Man kann herausfinden, dass die Produktivität sinkt, wenn Produktionsausfälle steigen und welche spezifischen Verspätungen die grössten wirtschaftlichen Auswirkungen auf eine Airline haben. Dabei handelt es sich um wertvolle Geschäftsinformationen, die in grossen Mengen der Rohdaten nicht offensichtlich erkennbar sind. Durch Machine Learning wird das nun extrem vereinfacht und kann dank der hohen Leistungsfähigkeit und Volumenabdeckung auf die immensen Datenmengen angewendet werden, die in den sogenannten Datenseen (Data Lakes) gespeichert sind.

Der Datensee ist in der Lage, sehr heterogene und unstrukturierte Daten aufzunehmen. Beispiele dafür sind Fotos, Videos, E-Mails, Word-Dokumente oder Daten aus anderen Systemen, und weitere unverknüpfte Daten. Besonders beliebt sind Data Lakes überall dort, wo beispielsweise grosse Mengen an Sensordaten existieren oder auch Daten, die zum Beispiel den Zustand der IoT-Geräte über deren Zustand aufzeichnen. Aufgrund dieser Datenvielfalt, die für eine Analyse gesammelt und kombiniert werden müssen, verbreitete sich das Konzept des Data Lake.

Datenseen bergen jedoch auch Gefahren, deren sich nicht jeder bewusst ist

Vielleicht hat der Schwanz angefangen mit dem Hund zu wedeln. Seit aber eine Menge an «strategisch ausgewählter Daten» mit «ausgewählten Machine Learning Algorithmen» kombinierbar sind, hat das dem Unternehmen erheblichen Mehrwert geschaffen. Deshalb wäre es nur logisch, sich in immer mehr Daten zu stürzen, um daraus noch mehr Mehrwert zu erzeugen. Das Gegenteil ist der Fall: der Wertschöpfungsbeitrag nimmt mit zunehmenden Daten ab. Jeder zusätzliche Datensatz überlappt mit bereits bekannten Informationen, und der Wertzuwachs wird so immer kleiner. Diese Tatsache hat jedoch bei den meisten Unternehmen nicht bewirkt, dass sie aufhören, einfach alle Daten aus möglichst vielen unterschiedlichen Quellen zu sammeln. Viele Firmen erhoffen sich daraus, den Mehrwert letztlich durch Machine Learning zu generieren.

Eine weitere Rolle spielt der Preis. Seit Speicherplatz derart günstig ist, wird dessen Nutzen gar nicht mehr angezweifelt und nicht gefragt, welches Übel es mit sich tragen könnte. Schliesslich bleibt Löschen immer eine Option, wenn sich ergibt, dass man die Daten nicht braucht. Allen Erwartens haben wir jedoch eine bedeutende Anzahl an Angriffen festgestellt, die diese Speichercluster ins Visier genommen haben. Von Brut-Force Angriffen auf Passwörter bis hin zu Missbräuchen von Software-Fehlern, finden Hacker und Angreifer immer wieder Wege, um an diese Datentresore von Unternehmungen zu gelangen. Je mehr Daten in einer einzelnen «Location» zentralisiert werden, desto grösser ist der Schaden, wenn diese einmal in falsche Hände geraten. Diese Datenseen (Data Lake) können so ein bedauerliches Datenleck (Data Leak) zur Folge haben.

Obwohl es einen klaren Mehrwert schafft, wenn man Daten für analytische Zwecke zusammenbringt, muss man dennoch das Risiko eines möglichen Datenverlusts klar abschätzen und einberechnen. Bei einer Dezentralisierung der Daten entsteht vergleichsweise ein implizites Mass an Datensicherheit. So ist es zudem schwieriger für Hacker oder boshafte Insider gleich mit allen Kronjuwelen rauszumarschieren. Deshalb muss ein Unternehmen sich bewusst sein, dass, wenn einmal die Daten in einem Datensee sind, sie gleichzeitig ein Kontrollverlust in Kauf nehmen.

Datenschutz und Netzwerksicherheit Priorität einräumen

Ähnliche Argumente wurden und werden in der Diskussion rund um die Cloud sowie Back-up Lösungen aufgeworfen. Auch andere Produkte, die das Angebot an Datenschutzlösungen, Datenzentralisierung und Zugangskontrolle massgeblich beeinflusst haben, spielen in diesem Zusammenhang eine wichtige Rolle. Für Unternehmungen stellt dies eine klare Herausforderung dar und Datenseen bzw. die Zentralisierung von Daten haben folglich eine ambivalente Bedeutung.

Letztlich sollten Unternehmen sich genau überlegen, wie die Datenseen bereitgestellt und genutzt werden sollen. Was reinfliesst, kann auch wieder rausfliessen. Bei der Entscheidung über der Speicher- und Datenablagestrategie sollten deswegen die möglichen Auswirkungen eines Datenlecks von Anfang an in Erwägung gezogen werden. Oftmals gibt es einen neutralen Weg, um Daten zu dezentralisieren. Natürlich müssen auch hier ordnungsgemässe Massnahmen für die Netzwerksicherheit eingehalten werden. Ausserdem können viele Analysetechniken auf bestehende Datenbank-APIs zurückgreifen. Dadurch können Daten von vielen dezentralen Quellen analysiert werden. Diese Lösung erfordert nicht, dass alle Daten in den Datensee gezogen werden. Die dezentralisierten Daten können via nativen Zugriffskontrollmechanismen verwaltet werden. Natürlich ist auch mit dieser Regelung ein Datenleck nicht gänzlich vermeidbar, aber das Ausmass bleibt bedeutend kleiner.

Klaus-Peter Kaul ist Regional Sales Director für Alpine (Schweiz und Österreich) bei Riverbed Technology. Der in den Bereichen Server, Storage, Security und Netzwerke versierte Manager schaut auf eine bereits über 22 Jahre dauernde Karriere bei führenden Unternehmen zurück, darunter McAfee, Secure Computing, Veritas Software und SGI Silicon Graphics.

Die Kommentarfunktion ist geschlossen.