ATELIER - Causal Discovery : partons à la découverte du graphe causal

Causal Discovery : partons à la découverte du graphe causal

Présentation des intervenants
Cet atelier a été animé par : 

Introduction
Cet atelier a fait suite à l’atelier « Les apports de l'approche causale : Exploration sur des cas d’usage concrets » du 14 février 2023. Nous avions notamment vu que la singularité de l’approche causale par rapport aux approches classiques des statistiques réside notamment dans la modélisation des relations entre les variables d’entrée sous forme d’un graphe causal. Dans cet atelier nous avons décidé de nous concentrer sur la « découverte » de ce graphe causal lors de l’étape appelée « Causal Discovery ».

Données utilisées
Lors de cet atelier, nous avons utilisé des données anonymisées d’Ekimetrics afin de tester leur méthode consistant à vérifier étape par étape si le graphe causal intuité à partir des connaissances métiers se retrouve mathématiquement dans les données. 

Déroulé de l’atelier
Cet atelier s’est déroulé en 2 parties :
1. temps d’échange sur les concepts et les approches permettant de trouver le graphe causal et introduction de la méthode Eki permettant de valider le graphe
2. mise en pratique pour tester puis challenger la méthode Eki


La première partie de l’atelier a permis de reprendre rapidement ce qui avait été vu dans le précédent atelier et notamment les 3 niveaux de complexité du modèle causal qui sont :
1. le graphe orienté acyclique (DAG)
2. la loi de probabilité P (conditions markoviennes)
3. les équations structurales

Pour caractériser les phénomènes causaux et établir le graphe associé, deux types de méthodes existent : 

  • Constraint based methods : se basent sur des tests d’indépendance entre les variables pour découvrir les phénomènes causaux
  • Noise based methods : se basent sur des régressions linéaires entre les variables et leurs différents résidus pour découvrir les phénomènes causaux

Finalement, Audrey nous a présenté la méthode dont le principe est de prendre en entrée un graphe élaboré par les connaissances des équipes métiers ainsi que le jeu de données de la problématique. Ce graphe est alors confronté aux données par des tests d’indépendance réalisés sur les données et des tests d’existence de chemin sur le graphe afin de voir si le graphe initial correspond bien aux données. En fonction des résultats de ces tests, le graphe est adapté par itération jusqu’à être validé par les données. 

La seconde partie de l’atelier était dédiée à la mise en pratique de cette méthode. Le code permettait de générer des données synthétiques à partir d’une matrice d’adjacence d’un graphe connu. Ensuite, la méthode Eki pouvait être testée pour s’assurer que les données étaient bien en accord avec le graphe. Il était également possible de créer un “faux graphe”, qui ne correspondait pas aux données générées, et de voir ce que la méthode permettait de conclure à travers des cas simples comme l’ajout et/ou l’oubli d’une arête. 

Enfin, la dernière partie du cas pratique nous laissait carte blanche pour trouver le graphe d’un dataset anonymisé d’Ekimetrics. Le but était de retrouver le graphe causal associé à de vraies données. 


Conclusion
Ce second atelier sur le thème de la causalité nous a permis d’aller encore plus loin dans l’utilisation de la causalité au sein même de nos données grâce à des méthodes permettant de générer un graphe causal et de la méthode Eki permettant de le valider ou non. Cet atelier s’est terminé par la mise à disposition d’un dataset permettant de challenger et de trouver les limites de la méthode Eki. N’hésitez donc pas à prendre cet outil en main et à le tester avec vos propres données. Si vous souhaitez continuer l’aventure causale, n'hésitez pas à venir au prochain événement qui aura lieu prochainement.

N’hésitez pas à regarder la rediffusion de l’atelier sur Youtube. Vous pouvez également retrouver les slides de présentation sur notre Github

Share