Data Lakes - fast alles, was Sie wissen müssen

Unter

Marco Westergren

Veröffentlicht am

4. Januar 2022

Datenanalytik

Inhaltsübersicht

Diesen Beitrag teilen

Es beginnt mit einem Strom...

Warum schreiben wir wichtige Dinge auf? Ist es, weil wir möchten, dass künftige Generationen über unsere Verabredungen zum Mittagessen oder unsere Strava-Rekorde Bescheid wissen? Oder ist es, weil wir uns daran erinnern wollen, was wir zu tun haben oder ob wir unsere sportliche Leistung verbessern? Unternehmen haben die gleichen Fragen, aber hinzu kommt die Notwendigkeit, dass andere Menschen und Systeme auf diese Daten zugreifen können. Datenbanken sind also eine Sache, und jetzt fragen Sie sich, ob Sie einen Data Lake brauchen.

Übersicht

Data Lakes sind zentrale Speichersysteme, in denen Sie riesige Mengen zusammenhängender, unzusammenhängender und unstrukturierter Daten speichern können - alles von netten Tweets und Telefonaufzeichnungen bis hin zu IoT-Daten. Data Lakes unterscheiden sich von Data Warehouses, bei denen es sich um Datenbanken zum Speichern und Analysieren großer Mengen relationaler Daten handelt, die in der Regel aus Geschäftsanwendungen stammen. Aufgrund der gespeicherten relationalen Daten haben Data Warehouses strengere Regeln (Schema) darüber, welche und wie Daten gespeichert werden können.

Geschichte und Hype

Am Anfang war Big Data. Menschen und Unternehmen begannen, den Wert der Verknüpfung "unzusammenhängender" Datensätze zu erkennen oder wiederzuentdecken, um zu versuchen, neue Erkenntnisse zu gewinnen. Ein Großteil dieser Entwicklung wurde von großen Technologieunternehmen vorangetrieben, die riesige Mengen an Nutzerdaten anhäuften und diese Daten nutzen wollten, um mehr Erkenntnisse über das Kundenverhalten zu gewinnen und sich so einen Wettbewerbsvorteil zu verschaffen.

Als Faktoren wie die erhebliche Senkung der Speicherkosten, die Verfügbarkeit von Breitbandanschlüssen und die relativ einfache Nutzung von Cloud-Diensten für das Hosting ins Spiel kamen, nahm die Menge der erzeugten und gespeicherten Daten immer mehr zu.

Es wurde schnell klar, dass die Speicherung all dieser Daten in herkömmlichen relationalen Datenbanken nicht ideal war. Es gab keine offensichtlichen "Beziehungen", um diese Daten zu kategorisieren und übersichtlich zu speichern. Bei Big Data geht es darum, diese Beziehungen zu entdecken. Es wurde also eine "Datenbank für unverbundene Daten" benötigt, die schnell als "Data Lake" bekannt wurde, ein Konzept, das sich viel leichter vermitteln und verkaufen ließ.

Wozu sie verwendet werden

Analyse - ein tieferes Verständnis dessen, was passiert ist und warum.
Quelle für Vorhersagen - Nutzung dieses Verständnisses zur Vorhersage möglicher zukünftiger Szenarien
Speicherung von Daten für die künftige Nutzung - zum Beispiel durch maschinelles Lernen oder KI.

Was ein Data Lake ist und wie er funktioniert

Im Kern ist ein Data Lake einfach ein Behälter, in dem Daten gespeichert werden können. Bei diesen Daten kann es sich um Dokumente, Tabellenkalkulationen, Fotos, Videos und sogar Sensormesswerte und Tweets handeln. In dieser Hinsicht kann man es sich wie ein Verzeichnis vorstellen, in das viele Dateien eingefügt werden. Diejenigen von uns, die gerne Ordnung halten, werden bei diesem Gedanken eine Grimasse schneiden, und das ist ein wesentlicher Unterschied zwischen Data Lakes und Datenbanken und Data Warehouses. Eine traditionelle Datenbank hat Struktur; Zum Beispiel werden alle Katzenfotos an einem Ort gespeichert, mit Tags für Rasse und Niedlichkeit. Alle Mitarbeiterdaten werden separat aufbewahrt, und so weiter. Dies erfordert eine Planung, bei der alle Arten von Daten, die untergebracht werden sollen, vorausgeplant werden müssen.

Data Lakes machen diese besondere Planung überflüssig und halten einfach alles zusammen. Damit dies jedoch sinnvoll ist, müssen die Daten katalogisiert werden. Dieser Prozess fügt begleitende Metadaten zu allen Inhalten im Data Lake hinzugefügt. So können relevante Daten später von einer Person oder einem Programm anhand von Suchkriterien abgerufen werden. Auf diese Weise wird die Struktur des Datensees durch den Suchenden bei seiner Suche vorgegeben und nicht durch den Administrator des Datensees. Dieser Prozess der Katalogisierung kann auf unterschiedliche Weise erfolgen (z. B. während des Extrahierens, Transformierens und Ladens (ETL); Links zur Erläuterung finden Sie unter "Weiterführende Literatur" weiter unten.

Warum Sie eine brauchen könnten

Wenn Sie wirklich eine Form von Data Lake benötigen, dann wissen Sie wahrscheinlich wissen dass Sie ihn brauchen. Sie sind sich des Umfangs der verschiedenen Datensätze bewusst, mit denen Sie arbeiten, und kennen die Herausforderungen, die Sie daran hindern, den vollen Nutzen aus Ihren Daten zu ziehen.

Wenn Sie dies nur aus Neugierde lesen, ist ein Data Lake vielleicht nicht der beste Weg, um für Sie Werte zu schaffen. So wie eine Tunnelbohrmaschine nicht der beste Weg ist, einen Graben auszuheben, um ein Kabel zur Garage zu verlegen, sind Data Lakes eine spezialisierte Lösung für ein komplexes Problem.

Warum Sie vielleicht keinen brauchen - noch nicht

Es gibt weitere Lösungen, die die Analyse von strukturierten und unstrukturierten Daten erleichtern. Diese können von DIY-Tools wie Power BI bis hin zu schlüsselfertigen Lösungen reichen, die große Datenmengen aufnehmen, verarbeiten und für die spätere Analyse speichern können, sowohl in der Lösung als auch in externer Software über APIs. Wenn Sie sich für diesen Weg entscheiden, sollten Sie Lösungen mit offenen Standards bevorzugen, die Sie nicht an ein bestimmtes Ökosystem binden. Es sind Ihre Daten, ganz gleich, wo Sie sie speichern.

Diese plattformbasierten Lösungen eignen sich oft besser für Unternehmen mit einfachen bis fortgeschrittenen Analyseanforderungen (in der Regel mit weniger als 10.000 Mitarbeitern), die noch keine Big-Data-Projekte im Wert von mehreren Millionen Dollar durchführen müssen.

Was wir nicht abgedeckt haben

Sicherheit. Dies ist besonders wichtig, wenn man bedenkt, dass Unternehmen alle Arten von sensiblen Daten in den Data Lake einspeisen können.
Speicherung. Data Lakes werden auf Speicherdiensten aufgebaut, die oft serverlos sind.
Verwaltung. Während ein Data Lakes unstrukturierte Daten speichert, muss sowohl der Inhaltskatalog als auch die Pflege des Sees selbst organisiert werden.
Verwaltung. Wenn der Datensee als Abladeplatz für alle Daten ohne angemessene Organisation behandelt wird, wird sein Wert schnell abnehmen, da es immer zeitaufwändiger wird, relevante Daten zu finden. Auch bekannt als Datensumpf

Data Lake-Anbieter

Wenn Sie über die nötige Erfahrung im eigenen Haus oder durch Berater Ihres Vertrauens verfügen, bieten diese Anbieter alle robuste Data Lake-Lösungen an.

Alternativen

Ressourcen

Diesen Beitrag teilen

Datenanalytik