Qu’est-ce qu’un data lake ?

Fidélité avec les données brutes et stockage à long terme dans le cloud.

Un data lake et un entrepôt de données sont deux méthodes de stockage, mais aux vocations opposées. Les entrepôts de données structurent et conditionnent les données dans une optique de qualité, de cohérence, de réutilisation et de performances simultanées élevées. Les data lakes viennent compléter les entrepôts en veillant à conserver le format original des données brutes et à assurer leur stockage sur le long terme à moindre coût, tout en ouvrant la voie à de nouvelles formes d’analyse agile.

La valeur des data lakes

Les data lakes répondent à la nécessité d’exploiter et de valoriser de manière économique des volumes de données en pleine expansion. Ces « dark data » issues de nouvelles sources – web, mobiles, objets connectés – ont souvent été délaissées par le passé, alors qu’elles recèlent parfois de précieuses informations. Leurs volumes massifs, auxquels s’ajoutent de nouvelles formes d’analyse de données, nécessitent une nouvelle méthode pour gérer les données et en tirer toute la valeur.

Un data lake est un ensemble de conteneurs de longue durée qui collectent, perfectionnent et explorent toutes formes de données brutes à l'échelle. Sa mise en œuvre est rendue possible par des technologies peu coûteuses dans lesquelles plusieurs systèmes en aval peuvent puiser, notamment les data marts, les entrepôts de données et les moteurs de recommandation.

Obtenir des informations à partir de données non structurées
Avant l'essor du Big Data, l’intégration des données normalisait les informations sous une forme persistante – dans une base de données, par exemple – afin de générer de la valeur. Or cela ne suffit plus pour gérer la totalité des données d'une entreprise, car toute tentative de structurer celles-ci en ôte toute la valeur. C’est pourquoi les dark data sont rarement capturées dans une base de données, bien que les data scientists les explorent souvent à la recherche d’éléments dignes d'intérêt.

De nouvelles formes d’analyse
Des technologies comme Spark et d’autres innovations permettent d'utiliser en parallèle des langages de programmation procéduraux, ce qui a donné naissance à une toute nouvelle catégorie d’analyses. Ces nouvelles formes d’analyse peuvent être effectuées efficacement à grande échelle, notamment au moyen d’algorithmes graphiques, textuels et de machine learning qui obtiennent une réponse avant de la comparer à la donnée suivante, et ce jusqu’à parvenir à une conclusion.

Le data lake et la mémoire de l’entreprise
L’archivage des données inutilisées depuis longtemps peut permettre d'économiser de l’espace de stockage au sein d'un entrepôt de données. Avant l’invention du data lake, il n’existait pas d’autre emplacement où conserver des données anciennes pour y accéder occasionnellement que l'entrepôt de données très performant ou les bandes de sauvegarde hors ligne. Au moyen d’outils de requêtes virtuels, les utilisateurs peuvent facilement accéder à ces données inactives, en même temps qu'aux données actives au sein de l’entrepôt à partir d’une requête unique.

Nouvelle approche de l’intégration des données
L’archivage des données inutilisées depuis longtemps peut permettre d'économiser de l’espace de stockage au sein d'un entrepôt de données. Avant l’invention du data lake, il n’existait pas d’autre emplacement où conserver des données anciennes pour y accéder occasionnellement que l'entrepôt de données très performant ou les bandes de sauvegarde hors ligne. Au moyen d’outils de requêtes virtuels, les utilisateurs peuvent facilement accéder à ces données inactives, en même temps qu'aux données actives au sein de l’entrepôt à partir d’une requête unique.

Les écueils courants des data lakes

De prime abord, les data lakes apparaissent comme un moyen simple de gérer et d’exploiter des volumes conséquents de données structurées et non structurées. Cependant, ils ne sont pas aussi simples qu’ils en ont l’air et il n’est pas rare de voir des projets de data lakes échourer dans un grand nombre de secteurs et d’entreprises. Les premiers projets dans ce domaine ont rencontré des problèmes, car les bonnes pratiques faisaient encore défaut. Aujourd’hui, l’absence de conception robuste est la première raison pour laquelle les data lakes n’exploitent pas toutes leurs capacités de création de valeur.

Silo de données et prolifération des clusters.
il existe une idée reçue selon laquelle les data lakes possèdent une faible barrière à l’entrée et peuvent être improvisés dans le cloud. Cela aboutit à une redondance des données et à une incohérence entre les différents data lakes, ainsi qu’à des problèmes de synchronisation.

Manque d'adhésion des utilisateurs finaux.
les utilisateurs ont l’impression – juste ou erronée – qu’il est trop compliqué d’obtenir des réponses à partir de data lakes, car cela nécessite des compétences pointues de programmation, ou bien ils redoutent de ne pas parvenir à trouver l'information dont ils ont besoin dans la multitude de données.

Limitation des outils commerciaux prêts à l'emploi.
De nombreux fournisseurs affirment se connecter à Hadoop ou à des systèmes de stockage objet dans le cloud, mais leurs offres souffrent d’un manque d’intégration poussée et la plupart de ces produits ont été conçus pour des entrepôts, et non pour des data lakes.

Objectifs contradictoires pour l’accès aux données.
Il est nécessaire de trouver un juste équilibre entre la rigueur des mesures de sécurité et la facilité d’accès aux données. Il convient pour cela de mettre en place des plans et procédures qui concilient les points de vue de toutes les parties prenantes.

Modèle de conception du data lake

La conception de la structure du data lake implique un ensemble de charges de travail et d’attentes qui déterminent le succès de sa mise en œuvre. Avec l’arrivée à maturité des technologies et l’expérience acquise dans ce domaine, une architecture et des exigences correspondantes ont émergé, de sorte que les principaux fournisseurs se sont accordés sur de bonnes pratiques de déploiement. Si les technologies jouent un rôle crucial, la structure – qui est indépendante de la technologie – est primordiale. Un data lake peut reposer sur diverses technologies. Même si HDFS (Hadoop Distributed File System) est le plus souvent la première qui vient à l’esprit, cette technologie n’est pas indispensable.

Teradata Data Lake Solutions

Teradata Vantage, la plateforme d’intelligence de données, est conçue pour exploiter les précieuses d’informations contenues dans les données client. L’équipe en charge des services Teradata possède des connaissance approfondies dans le domaine de l’exploitation des nombreux avantages des data lakes et des technologies connexes telles que Hadoop, Cassandra et des solutions de stockage objet comme Amazon S3 ou Azure Blob.

Eviter les goulets d’étranglement et la complexité inutile en migrant les analyses dans le cloud