Data Science und die Frage nach dem Blick in die Zukunft. Wie kann man Daten nutzen um Vorhersagen zu treffen und welche Anwendungsmöglichkeiten gibt es?
Index
Wir müssen uns sputen! Diese Worte hat Angela Merkel bereits im Frühjahr 2016 im Zusammenhang mit Big Data benutzt und gleichzeitig Daten als die Rohstoffe des 21. Jahrhunderts bezeichnet. Im Gegensatz zu anderen Rohstoffen wird die Menge an Daten aber nicht kleiner, sondern sie verdoppelt sich laut einer Studie der IDC (International Data Corporation) alle zwei Jahre und wird somit regelrecht explodieren. Dabei könnte gerade die momentane Corona Krise die Digitalisierung weiter beschleunigen. Höchste Zeit also sich mit dem Thema Data Science auseinanderzusetzen, um den Anschluss nicht zu verlieren.
Je nach Branche und Größe stellen sich Firmen dabei spezifische Fragen:
- Welche Analysen kann ich mit meinen Daten durchführen?
- Wie kann ich meine vorhandenen Daten, die eventuell in verschiedenen Datenbanken an verschiedenen Orten liegen, bündeln und aufbereiten?
- Wie komme ich an externe Daten?
- Wie kann ich meine internen Daten mit externen Daten kombinieren?
- Wie schaffe ich es mit knappen Ressourcen diese komplexe Thematik umzusetzen?
- Wie kann ich Knowhow in diesem Bereich aufbauen?
- Welche Methoden zur Auswertung sind geeignet?
Abbildung des Ist-Zustands oder Blick in die Zukunft?
Bei der Anwendung Ihrer Daten ist zunächst zwischen einer Beschreibung des Ist-Zustands und einer Vorhersage (Predictive Analytics) zu unterscheiden. So können Ihre vorhandenen Daten zunächst den Ist-Zustand beschreiben und beispielsweise zusammenfassen, welche Kunden letztes Jahr gekündigt haben. Bei einer Vorhersage kommt zusätzlich der Blick in die Zukunft ins Spiel: Welche Kunden werden nächstes Jahr wahrscheinlich abspringen? Was sind die ausschlaggebenden Faktoren hierfür? Um diese Fragen beantworten zu können, werden statistische Modelle benötigt, etwa aus dem Bereich des Machine Learnings.
Herausforderung verschiedener Datenquellen und Datentypen
Eine besonders spannende Herausforderung bei zahlreichen Vorhersagen ist, dass oft verschiedene Datenquellen (intern versus extern) und Datentypen (Bilder, Text, Zahlen, Sound) im Rahmen einer Multi Source Estimation miteinander kombiniert werden müssen. Zudem wurden die Daten oft nicht speziell für eine Analyse erstellt und müssen deshalb zunächst geeignet aufbereitet werden. Dies ist zum Beispiel typischerweise bei Bildern oder Texten im Rahmen von Social Media Daten der Fall.
Vorhersagen mittels statistischer Modelle
Im Rahmen einer Vorhersage werden, nachdem geeignete Daten ausgewählt und aufbereitet worden sind, als nächstes statistische Modelle zur Datenanalyse angewandt. Hier gilt es geeignete Modelle auszuwählen und verschiedene Fehler, wie etwa das Overfitting (Überanpassung an die Trainingsdaten; Vorhersagekraft für neue Daten nimmt ab) zu vermeiden. Das beste Modell hängt dabei stark von der Fragestellung ab. Grundsätzlich können drei Problemstellungen unterschieden werden:
Unsupervised Learning
Lernen, ohne im Voraus das Ziel zu kennen. Eine typische Anwendung ist das Clustering, wie etwa die Kundensegmentierung. Bekannteste Verfahren: k-means, Neuronale Netze, Hidden Markov, Gaussian Mixture
Supervised Learning
Lernen, wobei im Voraus das Ziel bekannt ist. Typische Anwendungen sind die Regression (etwa Kündigungsvorhersage von Kunden) oder die Klassifikation (etwa Sentimentanalyse). Bekannte Methoden sind: Regression (LM, GLM, Logistische), Baumverfahren (Random Forest, XGBoost), Support Vector Machine, Neuronale Netze/Deep Learning
Reinforcement Learning
Selbstständiges Lernen durch Belohnungen. Typische Anwendungen sind zum Beispiel im Bereich der Computerspiele Intelligenz zu finden. Bekannte Methoden sind: Monte-Carlo-Methoden und Temporal Difference Learning (wie Deep-Q-Learning)
Anwendungsmöglichkeiten im Online Marketing
Insbesondere im Online-Marketing wird häufig als erster Schritt der Ist-Zustand abgebildet und auf vergangene Daten geschaut. Unternehmen stellen sich zum einen die Fragen, wie die Marke im Internet wahrgenommen wird, wie User die Produkte in den Sozialen Medien bewerten oder ob das soziale Engagement von der Presse wahrgenommen wird. Zum anderen möchten sie wissen, wie die Online-Marketing-Maßnahmen im letzten Monat performt haben, wie groß die Reichweite dieser Aktivitäten war und welche Reaktionen es darauf gab?
Hier kommt Big Data ins Spiel. Alle relevanten Daten werden in einer Datenbank gesammelt, aufbereitet und in einem Online Marketing Report visuell abgebildet. Um diese Fragen also souverän beantworten zu können, müssen Unternehmen die entsprechenden Online-Daten anzapfen, aufbereiten und analysieren.
Im Idealfall beinhaltet das Online-Marketing aber nicht nur eine Abbildung des Ist-Zustands, sondern auch Vorhersagen. Hierbei können die oben erwähnten Verfahren aus dem Bereich Machine Learning einen entscheidenden Vorteil bieten. So können Kampagnen effizienter geplant, Anzeigen personalisiert ausgespielt oder SEO-Maßnahmen optimiert werden. Die damit verbundene beschleunigte Automatisierung im Unternehmen ermöglicht es im Online-Marketing die Kosten nachhaltig zu senken und die Conversion-Rate zu steigern. Auch die Daten der User aus vorherigen Online-Käufe oder aus dem Vergleich mit den Vorlieben anderer Nutzer ermöglichen dem Unternehmen mit Hilfe von Predictive Analytics effizienter zu arbeiten und den Umsatz langfristig zu steigern.
Visualisierung und Kommunikation
Entscheidend für den Erfolg ist aber nicht nur die Wahl der Daten und des geeigneten Modells, sondern auch die zielgerichtete Kommunikation mit dem Kunden sowie die Visualisierung. Nur so kann gewährleistet werden, dass die richtigen Schlüsse gezogen werden.
Autor: Prof. Dr. Martin Vogt (XING | LINKEDIN) | CURE Intelligence
Die Kommentarfunktion ist geschlossen.