Rencontre data gouvernance #3 : La qualité des données !
Présentation des intervenants
Cet atelier a été présenté par :
Introduction
La qualité des données est un des facteurs clés de succès de tout projet Data. Avant même de parler d’Intelligence Artificielle ou de Machine Learning, il faut s’assurer d’avoir des données de bonne qualité.
La mise en place d’une démarche de data qualité est un projet en soi qui peut être appréhendée comme une démarche d’amélioration continue.
Problématiques soulevées
Comment définir les ambitions de la démarche?
Quels sont les impacts du cadre réglementaire, du contexte de l’entreprise?
Comment évaluer le point de départ?
Comment suivre les progrès de la qualité?
Quels KPI sont à définir?
Comment maintenir le niveau de qualité dans le temps?
A retenir de cette discussion
- Afin d’être exploité par les métiers et les experts data (Data Analyst, Data scientists,...), il faut structurer les données au sein d’un référentiel.
- Au-delà de la qualité, le référentiel permet de disposer d’une source unique pour le calcul des indicateurs de l'entreprise et permet une cohérence
- La qualité des données est une problématique métier, il faut définir les indicateurs clés avec les métiers (KPI). Les métiers sont garants du contexte et du sens de la donnée
- Quelques bonnes pratiques pour démarrer la construction du référentiel :
- partir de quelques cas d’usages définis avec les métiers et validés par le Comex
- impliquer et expliquer aux métiers en quoi cette démarche de qualité est utile pour eux
- bien définir les périmètres des données concernées
- mettre en place des data stewards qui ont les connaissances métier et qui sont garants de la qualité des données sur leur périmètre
- définir de façon précise le référentiel (c’est toujours mieux de savoir où on va !)
- s’assurer que la donnée est bien présente et comprendre pourquoi
- vérifier si ses données ont bien un sens (valeurs cohérentes validées par les Data Stewards)
- nettoyer ses données à la source (si possible) pour éviter d’avoir à refaire le nettoyage en boucle (perte de temps)
- La grande difficulté pour alimenter un référentiel reste le mapping avec chaque système source, d’où l’importance de définir une cible précise pour le référentiel et de travailler avec des fichiers plats et un codage unique pour chaque sous-système
- Avoir des règles communes dans les systèmes sources facilite grandement la tâche, mais ce n’est pas toujours possible (notamment avec des fournisseurs externes !)
- Les dictionnaires de données et les tables de références sont primordiales pour assurer la qualité et rendre la donnée fonctionnelle
- Dans un monde idéal chaque interface et chaque applicatif doivent documenter précisément les critères de validité pour accepter une donnée, les transformations réalisées et les critères de validité pour envoyer une donnée !
- Pour mesurer la pertinence de la mise en place de la gouvernance rien de mieux que la règle des 3 U : les données doivent être utiles, utilisables et utilisées