Back

REX - Collecte, nettoyage et fusion de données : cas d'application à l'optimisation des achats

Présentation de l'intervenant

Emmanuel Daugeras, fondateur de Basedig.com, plateforme de collecte et d'analyse de données.

Introduction

La mise en place de pipelines de données est un pré-requis inévitable de l'industrialisation des applications d'IA. Cette partie peut s'avérer laborieuse et complexe et parfois même conduire à l'échec du passage à l'échelle.
Dans le monde du composant électronique et des semi-conducteur, on retrouve un processus de vente assez commun :
- Les fabricants produisent des composants dans de très grandes quantité et variété, en flux continu car les chaines de production ont peu de flexibilité
- Les acheteurs (entreprises qui utilisent les composants pour les intégrer dans des produits à destination du grand public style smartphone, voitures, ...) achètent des composants bien précis en lots. Leur production dépend de la demande du marché.
- Les distributeurs jouent un rôle intermédiaire, puisque ils servent de tampon entre les fabricants et les acheteurs : ils achètent des composants à différents fabricants et less réunissent sous forme de batch qu'ils revendent aux acheteurs.

Les distributeurs doivent donc gérer des millions de références, ayant toutes des fiches techniques et des nomenclatures qui varient en fonction du fabriquant y compris pour un même composant, le tout en passant par des APIs propres à chaque fabricants qui leur permettent d'accéder à ces données.
L'implémentation d'un pipeline de données robuste est donc clé dans cette industrie, et peut se transposer à toutes les supply chain dans lesquelles un distributeur fait le lien entre un fabricant peu flexible et des acheteurs qui nécessitent une forte flexibilité.

Cas d'usage : les étapes clé de la mise en place d'un pipeline robuste

Connection à des APIs GraphQL (beaucoup plus complètes et flexibles que les APIs REST)
Crawling de sites
Création d'un référentiel commun de données
Interprétation et structuration des fiches descriptives et spécifications
Recherche de composants similaires
Optimisation des compromis prix unitaire/délais d'approvisionnements
Interfaçage avec les infrastructures client

Tous les détails de la mise en oeuvre de ces étapes peuvent être retrouvées dans la vidéo de l'atelier. Retrouvez également les slides de la présentation sur notre drive.

Si les sujets de data science / data engineering vous passionnent, rendez-vous le 19 octobre à notre meet-up de retour d'expérience en science des données organisé avec l'association R-Ladies.

N'oubliez pas de jeter un oeil à nos prochains ateliers, certains pourraient vous intéresser !