Data Lakes - nesten alt du trenger å vite

Marco Westergren

Publisert på

4. januar 2022

Innholdsfortegnelse

Del dette innlegget

Det begynner med en strøm...

Hvorfor skriver vi ned viktige ting? Er det fordi vi vil at fremtidige generasjoner skal få vite om lunsjavtalene våre eller Strava-rekorder? Eller er det fordi vi ønsker å huske hva vi skal gjøre, eller om vi forbedrer idrettsprestasjonene våre? Organisasjoner har omtrent de samme spørsmålene, men i tillegg kommer behovet for at andre mennesker og systemer skal ha tilgang til disse opplysningene. Databaser er altså en ting, og nå lurer du på om du trenger en datasjø.

Oversikt

Data Lakes er sentrale lagringssystemer der du kan lagre enorme mengder relaterte, urelaterte og ustrukturerte data - alt fra hyggelige tweets og telefonopptak til IoT-data. Data Lakes skiller seg fra Data Warehouses, som er databaser for lagring og analyse av store mengder relasjonsdata, vanligvis fra forretningsapplikasjoner. På grunn av de lagrede relasjonsdataene har datavarehusene strengere regler (skjema) for hva og hvordan data kan lagres.

Historie og hype

I begynnelsen var det stordata. Folk og selskaper begynte å innse eller gjenoppdage verdien av å koble sammen "urelaterte" datasett for å prøve å trekke ut ny innsikt. Mye av dette var drevet av store teknologiselskaper som samlet inn enorme mengder brukerdata og ønsket å utnytte disse dataene til å avdekke mer innsikt i kundeatferd for å oppnå et konkurransefortrinn.

Når faktorer som betydelig reduserte lagringskostnader, utbredt bredbåndstilgang og den relativt enkle bruken av skytjenester for hosting av data kom inn i bildet, økte datamengden som ble generert og lagret stadig mer.

Det ble raskt klart at det ikke var ideelt å lagre alle disse dataene i tradisjonelle relasjonsdatabaser. Det fantes ingen åpenbare "relasjoner" som kunne brukes til å kategorisere og lagre disse dataene på en ryddig måte. Ideen med Big Data er å forsøke å oppdage disse sammenhengene. Dermed ble det behov for en "database for urelaterte data", som raskt ble kjent som en "Data Lake", et konsept som var mye enklere å kommunisere og selge.

Hva de brukes til

Analyse - å få en dypere forståelse av hva som skjedde og hvorfor.
Kilde for prediksjon - bruk denne forståelsen til å forutsi hva som kan skje i fremtidige scenarier
Lagring av data for fremtidig bruk - for eksempel ved hjelp av maskinlæring eller kunstig intelligens.

Hva en datasjø er og hvordan den fungerer

I bunn og grunn er en datasjø rett og slett en bøtte som data kan plasseres i. Disse dataene kan være dokumenter, regneark, bilder, video og til og med sensormålinger og tweets. I så måte kan man tenke på det som en katalog der mange filer legges inn. De av oss som liker å holde orden på ting, vil trekke på smilebåndet ved tanken på dette, og det er en av de viktigste forskjellene mellom datasjøer og databaser og datavarehus. En tradisjonell database har struktur; For eksempel lagres alle kattebildene på ett sted, med tagger for rase og søthet. Alle medarbeiderregistreringer oppbevares separat, og så videre. Dette krever planlegging, og man må tenke gjennom alle typer data som skal lagres.

Data Lakes gjør slutt på denne planleggingen og holder bare alt samlet. Men for at dette skal være nyttig, må dataene være katalogisert. Denne prosessen legger til tilhørende metadata til alt innholdet i datasjøen. Dette betyr at relevante data senere kan hentes frem av en person eller et program basert på søkekriterier. På denne måten blir strukturen strukturen i datasjøen på denne måten av søkeren når han eller hun foretar søket, og ikke av administratoren av datasjøen. Denne katalogiseringsprosessen kan utføres på ulike måter (for eksempel under ETL (Extract, Transform and Load), og lenker som forklarer dette, finnes under "videre lesning" nedenfor.

Hvorfor du kanskje trenger en

Hvis du virkelig har behov for en eller annen form for Data Lake, vet du sannsynligvis vet at du trenger det. Du er klar over omfanget av de ulike datasettene du jobber med, og du er kjent med utfordringene som hindrer deg i å utnytte den fulle verdien av dataene du har.

Hvis du leser dette av ren nysgjerrighet, er det ikke sikkert at en Data Lake er den beste løsningen for deg akkurat nå. På samme måte som en tunnelboremaskin ikke er den beste måten å grave en grøft på for å legge en kabel til garasjen, er Data Lakes en spesialistløsning på et komplekst problem.

Derfor trenger du kanskje ikke en - ennå

Det finnes andre løsninger som gjør det enklere å analysere strukturerte og ustrukturerte data. Det kan være alt fra gjør-det-selv-verktøy som Power BI til nøkkelferdige løsninger som kan ta inn, behandle og lagre store datamengder for senere analyse, både i løsningen og i ekstern programvare via API-er. Hvis du går denne veien, bør du velge løsninger med åpne standarder som ikke låser deg til et bestemt økosystem. Det er dine data, uansett hvor du velger å lagre dem.

Disse plattformbaserte løsningene er ofte bedre for organisasjoner med enkle til avanserte analysebehov (vanligvis med færre enn 10 000 ansatte) som ennå ikke har behov for å gjennomføre stordataprosjekter til flere millioner dollar.

Det vi ikke dekket

Sikkerhet. Dette er svært viktig når man tenker på at organisasjoner kan plassere alle slags sensitive data i datasjøen.
Lagring. Datasjøer er bygget på toppen av lagringstjenester, ofte serverløse.
Administrasjon. Selv om en datasjø lagrer ustrukturerte data, må både innholdskatalogen og vedlikeholdet av selve datasjøen organiseres på en eller annen måte.
Styring. Hvis datasjøen behandles som en dumpingplass for alle slags data uten hensiktsmessig organisering, vil verdien raskt avta fordi det blir mer tidkrevende å finne relevante data. Også kjent som en datasump

Leverandører av datasjøer

Hvis du har den nødvendige erfaringen internt eller gjennom konsulenter du stoler på, har alle disse leverandørene robuste Data Lake-løsninger.

Alternativer

Ressurser

Del dette innlegget

Dataanalyse