Qu’est-ce que le nettoyage des données ?

Le nettoyage des données est un processus de détection, de correction ou de suppression des données ou des enregistrements inexacts au sein d’une base de données. Ce terme peut également faire référence à la correction ou à la suppression de données et d’enregistrements mal formatés ou en double. Les données supprimées au cours ce processus sont souvent appelées « données sales ». Le nettoyage des données est une tâche essentielle pour préserver la qualité des données. Les grandes entreprises qui possèdent de vastes ensembles et actifs de données utilisent généralement des outils et des algorithmes automatisés afin de repérer ces enregistrements et de corriger les erreurs courantes (telles que les codes postaux manquants sur les fiches de renseignements clients).

Les environnements de Big Data les plus puissants disposent d’outils et de processus de nettoyage des données rigoureux afin de garantir que la qualité des données est préservée à l'échelle et que la confiance de tous les utilisateurs dans les ensembles de données demeure élevée.