Data Lakes - bijna alles wat je moet weten

Door

Marco Westergren

Gepubliceerd op

4 januari 2022

Gegevensanalyse

Inhoudsopgave

Deel dit bericht

Het begint met een stroom...

Waarom schrijven we belangrijke dingen op? Is het omdat we willen dat toekomstige generaties op de hoogte zijn van onze lunchafspraken of Strava-records? Of is het omdat we willen onthouden wat we moeten doen, of als we onze sportprestaties aan het verbeteren zijn? Organisaties hebben grotendeels dezelfde vragen, maar daar komt bij dat andere mensen en systemen toegang moeten hebben tot deze gegevens. En dus zijn databases een ding, en nu vraag je je af of je een data lake nodig hebt.

Overzicht

Data Lakes zijn centrale opslagsystemen waarin je enorme hoeveelheden gerelateerde, ongerelateerde en ongestructureerde gegevens kunt opslaan - alles van leuke tweets en telefoonopnames tot IoT-gegevens. Data Lakes verschillen van Data Warehouses, dat zijn databases voor het opslaan en analyseren van grote hoeveelheden relationele gegevens, meestal uit bedrijfsapplicaties. Vanwege de opgeslagen relationele gegevens hebben Data Warehouses strengere regels (schema) over wat en hoe gegevens kunnen worden opgeslagen.

Geschiedenis en hype

In het begin waren er big data. Mensen en bedrijven begonnen zich de waarde te realiseren of te herontdekken van het verbinden van 'ongerelateerde' datasets om te proberen nieuwe inzichten te verkrijgen. Veel hiervan werd gedreven door grote techbedrijven die enorme hoeveelheden gebruikersgegevens verzamelden en deze gegevens wilden gebruiken om meer inzichten te krijgen in klantgedrag om een concurrentievoordeel te behalen.

Toen factoren zoals aanzienlijke verlagingen van de opslagkosten, de beschikbaarheid van breedband en het relatieve gemak van het gebruik van cloudservices voor hosting een rol gingen spelen, nam de hoeveelheid gegevens die werd gegenereerd en bewaard steeds verder toe.

Het werd al snel duidelijk dat het opslaan van al deze gegevens in traditionele relationele databases niet ideaal was. Er waren geen duidelijke 'relaties' die gebruikt konden worden om deze gegevens te categoriseren en netjes op te slaan. Het idee bij Big Data is om te proberen deze relaties te ontdekken. Er was dus een 'database voor ongerelateerde gegevens' nodig, die al snel bekend werd als een 'Data Lake', een veel eenvoudiger concept om te communiceren en te verkopen.

Waar ze voor worden gebruikt

Analyse - beter begrijpen wat er is gebeurd en waarom.
Bron voor voorspelling - dat begrip gebruiken om te voorspellen wat er in toekomstige scenario's zou kunnen gebeuren
Gegevens opslaan voor toekomstig gebruik, bijvoorbeeld door Machine Learning of AI.

Wat een data lake is en hoe het werkt

In wezen is een data lake gewoon een emmer waarin gegevens kunnen worden geplaatst. Deze gegevens kunnen documenten, spreadsheets, foto's, video en zelfs sensormetingen en tweets zijn. In dit opzicht kan het worden gezien als een map waarin veel bestanden worden toegevoegd. Degenen onder ons die graag dingen georganiseerd houden, zullen grimassen trekken bij deze gedachte, en dit is een belangrijke manier waarop data lakes verschillen van databases en datawarehouses. Een traditionele database heeft structuur; Alle kattenfoto's worden bijvoorbeeld op één locatie opgeslagen met tags voor ras en schattigheid. Alle personeelsgegevens worden apart bewaard, enzovoort. Dit vereist planning, waarbij moet worden nagedacht over alle soorten gegevens die zullen worden ondergebracht.

Data Lakes maken komaf met deze specifieke planning en houden gewoon alles bij elkaar. Om dit echter bruikbaar te maken, moeten de gegevens gecatalogiseerd. Dit proces voegt begeleidende metadata aan alle inhoud in het data lake. Dit betekent dat relevante gegevens later door een persoon of programma kunnen worden opgehaald op basis van zoekcriteria. Op deze manier wordt de structuur van het data lake opgelegd door de zoeker wanneer deze zijn zoekopdracht uitvoert, en niet door de beheerder van het data lake. Dit proces van catalogiseren kan op verschillende manieren worden uitgevoerd (zoals tijdens Extract, Transform en Load (ETL), links die dit uitleggen staan hieronder onder 'meer lezen'.

Waarom je er misschien een nodig hebt

Als je echt een vorm van Data Lake nodig hebt, dan is het waarschijnlijk dat je weet dat je het nodig hebt. Je bent je bewust van de omvang van de verschillende datasets waarmee je werkt en je bent bekend met de uitdagingen die je ervan weerhouden om de volledige waarde te halen uit de gegevens die je hebt.

Als je dit leest uit nieuwsgierigheid, dan is een Data Lake misschien niet de beste route naar waarde voor jou op dit moment. Net zoals een tunnelboormachine niet de beste manier is om een sleuf te graven om een kabel naar de garage te leggen, zijn Data Lakes een specialistische oplossing voor een complex probleem.

Waarom je er misschien nog geen nodig hebt

Er zijn andere oplossingen die de analyse van gestructureerde en ongestructureerde gegevens vergemakkelijken. Deze kunnen variëren van doe-het-zelf tools zoals Power BI tot kant-en-klare oplossingen die grote hoeveelheden gegevens kunnen opnemen, verwerken en opslaan voor latere analyse, zowel in de oplossing als in externe software via API's. Als je deze weg kiest, geef dan de voorkeur aan oplossingen met open standaarden die je niet vastpinnen op een bepaald ecosysteem. Het zijn jouw gegevens, ongeacht waar je ze opslaat.

Deze platformgebaseerde oplossingen zijn vaak beter voor organisaties met eenvoudige tot geavanceerde analytics-behoeften (meestal met minder dan 10.000 mensen) die nog geen miljoenen kostende big data-projecten hoeven uit te voeren.

Wat we niet hebben behandeld

Beveiliging. Dit is erg belangrijk als je bedenkt dat organisaties allerlei gevoelige gegevens in het data lake kunnen plaatsen.
Opslag. Data Lakes zijn gebouwd bovenop opslagservices, vaak serverloos.
Beheer. Hoewel een Data Lake ongestructureerde gegevens opslaat, moet er enige organisatie zijn voor zowel de inhoudscatalogus als het onderhoud van het Lake zelf.
Governance. Als het datameer wordt behandeld als een dumpplaats voor alle gegevens zonder de juiste organisatie, zal de waarde ervan snel afnemen omdat het tijdrovender wordt om relevante gegevens te vinden. Ook bekend als een datamoeras

Aanbieders van datameren

Als je de nodige ervaring in huis hebt of via consultants die je vertrouwt, hebben deze leveranciers allemaal robuuste Data Lake-oplossingen.

Alternatieven

Bronnen

Deel dit bericht

Gegevensanalyse