ENTREPÔTS DE DONNEES :
Les fondements de l'analyse 

Qu’est-ce qu’un entrepôt de données ?

Un entrepôt de données est une structure ou architecture de données qui conserve sur la durée des données intégrées, cohérentes et détaillées, en établissant des relations entre elles au moyen de métadonnées et d’un modèle.

Les origines de l’entrepôt de données

Le concept d’entrepôt de données remonte à 1988 lorsque Barry Devlin et Paul Murphy ont publié leur article fondateur dans la revue IBM Systems Journal. Leur vision a suscité le besoin de définir plus spécifiquement la mise en place de bases de données, formulée par Bill Inmon et Ralph Kimball au début des années 1990 et clarifiées par Gartner en 2005. Désormais, toute discussion au sujet des entrepôts de données englobe également le mode ou le lieu de mise en place d’une solution d’entrepôt de données, que ce soit dans le cloud, sur site ou dans le cloud hybride.

Un entrepôt de données n’est pas un ensemble de tables et ne se mesure pas en téraoctets. Il s'agit d'une structure, d'une architecture de données qui présente de nombreuses caractéristiques :

Orienté sujet
L’entrepôt reflète les entités et processus métiers avec lesquels l’entreprise travaille au quotidien. C’est le niveau de détail dans le domaine ou le thème considéré qui fait la différence. En présence de données détaillées, nous avons affaire à un entrepôt de données. Dans le cas de données résumées ou restreintes, il s’agit d’un datamart. 

Intégré, cohérent
Les formats et les valeurs des données sont normalisés entre toutes les tables de sorte que les données soient complètes, exactes et compréhensibles par les utilisateurs. L’intégrité est également une condition nécessaire : par exemple, il n’est pas possible d’enregistrer une transaction s’il n’existe pas de fiche client correspondante. 

Historique stable
Un entrepôt capture les modifications de données et assure leur suivi dans le temps. Toutes les données sont conservées et ne changent pas au fil des mises à jour transactionnelles. Qu’il soit traditionnel, dans le cloud ou hybride, un entrepôt de données représente en réalité la « mémoire de l’entreprise » et rassemble ses données les plus significatives. 

Métadonnées, modèle, dictionnaire

Les entreprises collectent habituellement toutes les informations concernant les clients et les ventes. Ces informations sont ainsi liées entre elles, mais aussi à des descriptifs de produits, des états de stocks, des nomenclatures de pièces, des fiches de support et des campagnes marketing. Les domaines sont matérialisés par des tables relationnelles composées d’en-têtes de colonne et de lignes de données. Ces en-têtes, appelés "métadonnées" car ils décrivent le contexte des valeurs figurant dans chaque colonne, contiennent les noms des champs et leur type de données (date, heure, monnaie, nombre entier, texte…). Chaque enregistrement stocké comporte au moins un champ-clé permettant un accès aléatoire (direct). Toutes les définitions de tables – les métadonnées – forment collectivement un modèle et sont rassemblées dans le dictionnaire de données. Un entrepôt de données complet compte entre 4 000 à 7 000 tables relationnelles organisées par thèmes.

Comment les données arrivent-elles dans l’entrepôt de données ?

Sources de données
Il n’est pas rare de voir 200 voire 500 applications différentes envoyer des données vers l’entrepôt, qui les regroupe et les intègre par thématique. L’entrepôt reçoit des données issues d’applications telles que des progiciels de gestion intégrés (ERP) ou des logiciels de gestion de la relation client (CRM) ou de la chaîne d'approvisionnement (SCM).

Les données qui proveniennent des clics sur des pages web constituent une autre source, tout comme les capteurs installés sur des machines ou des véhicules. Il existe également des données non structurées, notamment de type JSON (JavaScript Object Notation), qui ne se rangent pas en lignes et en colonnes mais peuvent néanmoins être conservées dans l’entrepôt. 

Chargement des données
Les données sont chargées dans l’entrepôt en continu, tout au long de la journée. Le chargement des données sert la vocation de l’entrepôt : constituer une base permettant de trouver des réponses à des questions. Les data scientists appliquent des formules mathématiques avancées pour découvrir des tendances et des anomalies, tandis que les analystes s'aident des rapports et des tableaux de bord pour visualiser les données.

Le chargement des données a pour but d'acheminer celles-ci vers les utilisateurs métier afin de les aider à trouver des réponses à des problématiques spécifiques. Les data scientists appliquent des formules mathématiques avancées à de vastes quantités de données afin de dévoiler des tendances et des anomalies. L’analyse multidimensionnelle permet de synthétiser la totalité des données, ce qui permet de passer rapidement en revue des récapitulatifs par région, par ville, par agent commercial et par produit vendu notamment. Les cadres décideurs et les analystes commerciaux (ou les data scientists improvisés) exploitent des rapports et des tableaux de bord pour visualiser des données issues de la source administrée qu’est l’entrepôt de données. 

Intégration des données
Avant d’arriver dans la base de l’entrepôt, les données passent d’abord par l’étape d’intégration, un processus complexe qui rationalise et uniformise les données issues de sources multiples. À l’origine, on parlait de processus ETL (Extract, Transform, Load) car les données devaient être extraites de leur source, transformées, puis chargées dans les tables relationnelles de l’entrepôt. 

Nettoyage des données
Les processus modernes d’intégration comprennent un nettoyage des données, qui consiste à détecter et corriger les enregistrements altérés ou inexacts, que ce soit à la suite d’une saisie erronée, d’une défaillance matérielle ou d’une erreur humaine. L’intégration combine les meilleures données, les plus précises et les plus complètes issues de diverses applications, afin de constituer un enregistrement propre et fiable qui servira de référence au sein de l’entrepôt. 

L’entrepôt de données Teradata

Depuis ses débuts, Teradata est un acteur incontournable dans l’évolution des bases et entrepôts de données d'analyse. De fait, Teradata Vantage – anciennement Teradata Database – et l’approche adoptée par Teradata en matière d’entrepôts de données jouent souvent un rôle central dans l’essor de ses clients au sein de leur secteur respectif : télécommunications, médias et divertissement, services financiers, santé et biosciences, commerce, réseaux collectifs, fabrication, voyage et transport, etc.

Entrepôt de données Cloud et Teradata Vantage

Teradata et l’ensemble du secteur ont évolué afin d’intégrer les avantages du cloud en matière de déploiement et d’adaptabilité. Teradata Vantage, le produit phare de l'entreprise, s’appuie sur les fondations solides de Teradata Database et incorpore les capacités d'analyse avancées acquises grâce à Aster Data en 2011.

Vantage est disponible sur Amazon Web Services (AWS), Microsoft Azure, Google Cloud, Teradata Cloud ou un cloud client, ainsi que sur des équipements courants dotés du logiciel de virtualisation VMware.

Migrer les analyses de données dans le cloud