Was sind unstrukturierte Daten? – Formen von Daten erklärt

Unterschiede zwischen strukturierten, semistrukturierten und unstrukturierten Daten

By Bastian Maiworm Last updated 31. Mai 2021

Unstrukturierte Daten sind Informationen, die in einer nicht normalisierten und nicht identifizierbaren Datenstruktur vorliegen. Klassischerweise sind dies Text-, Bild- Audio und auch Videodateien, die grundsätzlich nicht in Datenbanken liegen. Gerade im Umfeld von Big-Data sind unstrukturierten Daten eine enorme Bedeutsamkeit zuzuordnen.

Index

Unterschiedliche Formen von Daten

Digitale Daten können in drei verschiedene Kategorien einsortiert werden. Diese unterscheiden sich dabei hauptsächlich durch unterschiedliche Strukturierungsgrade:

Unstrukturierte Daten

Der Dateityp ist bekannt, der Inhalt ist jedoch in sich vollkommen unabhängig. Sie liegen nicht in definierten Datenbanken und sind daher nur sehr schwer zu analysieren. Zudem ist der Großteil der in Unternehmen vorhandenen Daten unstrukturiert

Beispiele sind digitale Assets von Unternehmen:
- Präsentationen
- Videos
- Bilder
- Texte
- etc.

Semistrukturierte Daten

Eine gewisse Grundstruktur ist vorhanden der Inhalt selbst ist aber strukturlos. Diese Dateien enthalten gewisse Informationen, wie bspw. Metadaten, sind aber trotzdem nicht gut verarbeitbar, da der Großteil der Informationen unstrukturiert ist. Sie sind daher zwischen den strukturierten und den unstrukturierten Daten einzuordnen

Ein Beispiel sind E-Mails: Der Betreff, Empfänger und Absender sind definiert, der Rest der Daten ist jedoch nicht definiert.

Strukturierte Daten

Strukturierte Daten haben stets ein vorgegebenes Format in Zeilen und Spalten (bspw. CRM-Systeme). So sind sie einerseits mit Hilfe einer SQL-Datenbank leicht zu finden/verarbeiten, vermeiden aber, wenn sie auf einem relationalen Modell aufgebaut sind auch Doppelungen von Informationen (Datenredundanz)

Beispiele für strukturierte Daten sind beispielsweise, Barcodes, Log-Statistiken oder Kundendatenbanken. Auch Exceltabellen enthalten manuell erstellte, strukturierte Daten

Wissensgehalt von unstrukturierten Daten

Wissen, welches in unstrukturierte Daten gespeichert ist, ist zunächst „reicher“ als das Wissen, welches in strukturierter Form gespeichert ist. Dies liegt daran, dass oft noch deutlich mehr aus dem Kontext (bspw. Emotionen und Kontext einer E-Mail) erschlossen werden kann, als dies bei strukturierten Daten möglich ist. Bei strukturierten Daten gehen oft der detaillierte Kontext verloren. Unstrukturierte Daten sind daher deutlich schwieriger zu interpretieren und oftmals ein Fall für Data Scientists.

Eine Verwechslung, die häufig gemacht wird, ist die Verwechslung zwischen Big Data und unstrukturierten Daten. Big Data ist nicht zwangsläufig unstrukturiert, sondern kann auch in strukturierter Form vorliegen (bspw. Streaming Data bei Netflix). Zugleich gibt es unstrukturierte Daten, die nicht zu Big Data gehören, wie einzelne Media Assets wie bspw. Bilder oder Video.

Challenges und Lösungen

Das Problem bei unstrukturierten Daten ist, dass Computer diese Daten nur sehr schwer zuordnen, analysieren und weiterverarbeiten können. Dabei liegen die relevantesten Informationen in Unternehmen meistens in unstrukturierter Form vor. Um diese automatisch verarbeiten zu können, werden Methoden aus dem Bereich der künstlichen Intelligenz, wie beispielsweise wie Natural Language Processing (NLP), Machine Learning oder Deep Learning, verwendet. Ziel ist es, Informationen mit Hilfe dieser Technologien zu extrahieren und für eine Software verständlich zu machen. Diese kann die Informationen dann in verschiedenen Arten, wie bspw. einem Enterprise Search Engine, weiterverarbeiten.

Die große Challenge besteht darin, große Datenmengen aus verschiedenen Quellen und Dateiformaten in Echtzeit zu analysieren und zu verarbeiten. Dies ist durch heutige Lösungen nicht performant möglich. Stattdessen werden skalierbare Lösungen, die auch die wachsenden Datenmengen der Zukunft verarbeiten können, benötigt.

Beispiel:

Verträge sind die Ergebnisse von verschiedenen Verhandlungen, Protokollen und Änderungen. Schaut man sich nur das Ergebnis an, dann ist es schwierig herauszufinden, welche Dinge für die Vertragsparteien relevant waren und welche den Abschluss des Vertrages beeinflusst haben. Früher konnte dies durch Mitarbeiter, die entsprechende Dokumente, wie Beschwerdebriefe oder Probleme bei Lieferantenlieferungen, ausgewertet werden. Es konnte auf die Intuition und das Wissen des Mitarbeiters vertraut werden. Heutzutage überfordert die Menge an Daten jedoch Mitarbeiter und Unternehmen, da so viel Wissen gespeichert wird, es aber für Mitarbeiter einfach nicht mehr effizient zugänglich ist.

Heutzutage ist es kein Problem mehr Daten zu generieren und zu speichern. Jedes Tool speichert Daten und stellt diese bereitwillig zur Verfügung. Unternehmen benötigen heutzutage skalierbare Lösungen, die in der Lage sind, entsprechende Informationen effizient zu verarbeiten und sie zu digitalisieren.

Die Zukunft von unstrukturierten Daten

Der Anteil unstrukturierter Daten wird zukünftig durch Social Media, Voice Assistants und anderen Datenproduzenten immer weiter zunehmen. Daher ist es für Unternehmen heutzutage umso wichtiger, eine gute Strategie im Umgang mit unstrukturierten Daten zu erarbeiten, da diese essenziell für den zukünftigen Unternehmenserfolg sind. Diese sollte nicht nur auf unstrukturierten Textdateien, sondern auch andere, stark wachsende Dateiformate, wie Bilder, Audio und Videodateien inkludieren. sollten zudem nicht vernachlässigt werden, da Unternehmen immer Informationen in verschiedenen Medien produzieren (Flyer, Podcasts, Erklärvideos, etc…)

Fazit

Der Großteil des Wissens innerhalb eines Unternehmens ist in unstrukturierter Form gespeichert. Unternehmen müssen sich für die Zukunft so aufstellen, dass Sie Wissen für Mitarbeiter zugänglich machen und entsprechende skalierbare Methoden einsetzen. Viele vielversprechende Technologien werden gerade von Startups schnell und viel versprechend weiterentwickelt und Success Stories gibt es zuhauf. Wer es schafft, frühzeitig neue Wege zu gehen und neuen Technologien vertraut und sie versteht, der wird seinen Wettbewerbsvorteil nicht nur halten, sondern noch ausbauen können.

Bastian Maiworm

Bastian is the Co-Founder & CRO of the enterprise search tech company amberSearch. Me and my Co-Founders recognized the need for a state-of-the-art information management solution and now help companies and their employees to find access information as easily as possible within enterprises. I primarily write about the latest developments relevant to enterprise search and start-ups. I look forward to growing my network on LinkedIn and meeting new people at different events. If you think, that there might be an opportunity or if you'd like to dive deeper into my topics, please reach out to me.

AI Daten Deep Learning ki Künstliche Intelligenz Natural Language Processing NLP Unstrukturierte Daten