Articles
Lacs de données - presque tout ce qu'il faut savoir

Lacs de données - presque tout ce qu'il faut savoir

Par
Marco Westergren
Publié le
-
4 janvier 2022
Analyse des données
Table des matières
Partager cet article

Cela commence par un flux...

Pourquoi notons-nous les choses importantes ? Est-ce parce que nous voulons que les générations futures soient au courant de nos rendez-vous au déjeuner ou de nos records Strava ? Ou parce que nous voulons nous souvenir de ce que nous devons faire, ou si nous améliorons nos performances sportives ? Les organisations se posent à peu près les mêmes questions, mais il faut en plus que d'autres personnes et d'autres systèmes puissent accéder à ces données. C'est ainsi que les bases de données ont vu le jour, et vous vous demandez maintenant si vous avez besoin d'un lac de données.

Vue d'ensemble

Les lacs de données sont des systèmes de stockage centraux dans lesquels vous pouvez stocker des quantités massives de données liées, non liées et non structurées - tout, des tweets sympathiques aux enregistrements téléphoniques, en passant par les données IoT. Les lacs de données diffèrent des entrepôts de données, qui sont des bases de données destinées au stockage et à l'analyse de grandes quantités de données relationnelles, provenant généralement d'applications commerciales. En raison des données relationnelles stockées, les entrepôts de données ont des règles plus strictes (schéma) sur ce que les données peuvent être stockées et comment elles peuvent l'être.

Histoire et battage médiatique

Au début, il y avait le big data. Des personnes et des entreprises commençaient à réaliser ou à redécouvrir la valeur de l'interconnexion d'ensembles de données "sans rapport" pour tenter d'en tirer de nouvelles informations. Ce phénomène était en grande partie impulsé par les grandes entreprises technologiques qui accumulaient de grandes quantités de données sur les utilisateurs et qui souhaitaient exploiter ces données pour mieux comprendre le comportement de leurs clients afin d'acquérir un avantage concurrentiel.

Lorsque des facteurs favorables tels que la réduction significative des coûts de stockage, la disponibilité d'une large bande et la facilité relative d'utilisation des services d'hébergement en nuage sont entrés en jeu, la quantité de données générées et conservées a connu une tendance à la hausse.

Il est rapidement apparu que le stockage de toutes ces données dans des bases de données relationnelles traditionnelles n'était pas la solution idéale. Il n'y avait pas de "relations" apparentes à utiliser pour catégoriser et stocker proprement ces données. L'idée du Big Data est d'essayer de découvrir ces relations. Il fallait donc une "base de données pour les données non liées", qui a rapidement pris le nom de "lac de données", un concept beaucoup plus facile à communiquer et à vendre.

A quoi servent-ils ?

  • Analyse - mieux comprendre ce qui s'est passé et pourquoi.
  • Source de prédiction - utiliser cette compréhension pour prédire ce qui pourrait se produire dans des scénarios futurs
  • Stocker des données en vue d'une utilisation future - par exemple, par l'apprentissage automatique ou l'IA.

Qu'est-ce qu'un lac de données et comment fonctionne-t-il ?

À la base, un lac de données est simplement un réservoir dans lequel des données peuvent être placées. Ces données peuvent être des documents, des feuilles de calcul, des photos, des vidéos, voire des relevés de capteurs et des tweets. À cet égard, il peut être considéré comme un répertoire dans lequel de nombreux fichiers sont ajoutés. Ceux d'entre nous qui aiment garder les choses organisées grimaceront à cette idée, et c'est là une des principales différences entre les lacs de données et les bases de données et entrepôts de données. Une base de données traditionnelle a une structure ; Par exemple, toutes les photos de chats sont stockées au même endroit, avec des étiquettes pour la race et la beauté. Tous les dossiers des employés sont conservés séparément, et ainsi de suite. Une base de données traditionnelle est structurée ; par exemple, toutes les photos de chats sont stockées au même endroit, avec des étiquettes pour la race et la beauté du chat.

Les lacs de données suppriment cette planification particulière et se contentent de tout regrouper. Cependant, pour que cela soit utile, les données doivent être cataloguées. Ce processus ajoute des métadonnées à tout le contenu du lac de données. Cela signifie que les données pertinentes peuvent être récupérées ultérieurement par une personne ou un programme sur la base de critères de recherche. De cette manière, la structure du lac de données est imposée par le chercheur lorsqu'il effectue sa recherche, et non par l'administrateur du lac de données. Ce processus de catalogage peut être réalisé de différentes manières (par exemple lors de l'extraction, de la transformation et du chargement (ETL), des liens expliquant ce processus sont fournis dans la section "lectures complémentaires" ci-dessous.

Pourquoi en avez-vous besoin ?

Si vous avez réellement besoin d'une forme de lac de données, vous savez probablement savez que vous en avez besoin. Vous êtes conscient de l'ampleur des différents ensembles de données avec lesquels vous travaillez et vous connaissez les défis qui vous empêchent d'exploiter pleinement la valeur des données dont vous disposez.

Si vous lisez ces lignes par curiosité, il se peut qu'un lac de données ne soit pas la meilleure solution pour vous dans l'immédiat. De la même manière qu'un tunnelier n'est pas le meilleur moyen de creuser une tranchée pour poser un câble jusqu'au garage, les lacs de données sont une solution spécialisée à un problème complexe.

Pourquoi vous n'en avez peut-être pas besoin - pour l'instant

Il existe d'autres solutions qui facilitent l'analyse des données structurées et non structurées. Il peut s'agir d'outils bricolés tels que Power BI ou de solutions clés en main capables d'ingérer, de traiter et de stocker de grandes quantités de données en vue d'une analyse ultérieure, à la fois dans la solution et dans un logiciel externe par le biais d'interfaces de programmation (API). Si vous optez pour cette solution, privilégiez les solutions aux normes ouvertes qui ne vous enferment pas dans un écosystème particulier. Il s'agit de vos données, quel que soit l'endroit où vous décidez de les stocker.

Ces solutions basées sur des plateformes sont souvent mieux adaptées aux organisations ayant des besoins d'analyse simples à avancés (généralement moins de 10 000 personnes) et qui n'ont pas encore besoin de poursuivre des projets de big data de plusieurs millions de dollars.

Ce que nous n'avons pas couvert

  • La sécurité. Cet aspect est très important si l'on considère que les organisations peuvent placer toutes sortes de données sensibles dans le lac de données.
  • Stockage. Les lacs de données sont construits au-dessus des services de stockage, souvent sans serveur.
  • La gestion. Si un lac de données stocke des données non structurées, il doit y avoir une certaine organisation à la fois pour le catalogue de contenu et pour la maintenance du lac lui-même.
  • La gouvernance. Si le lac de données est traité comme un dépotoir pour toutes les données sans organisation appropriée, sa valeur diminuera rapidement car il faudra plus de temps pour trouver les données pertinentes. Également connu sous le nom de "marécage de données".

Fournisseurs de lac de données

Si vous disposez de l'expérience nécessaire en interne ou par l'intermédiaire de consultants en qui vous avez confiance, ces fournisseurs proposent tous des solutions de lac de données robustes.

Alternatives

Ressources

Partager cet article
Analyse des données