Niveau en Machine Learning
** : Connaissances avancées en ML/Data/IA
Niveau en Python
** : Bonnes connaissances en Python
Prérequis techniques
Apporter son PC portable
Intervenants
Cet atelier sera animé par :
Présentation de l’atelier
Sur de gros volumes de données non annotées les méthodes de clustering sont indispensables pour explorer et structurer les données.
Lors de cet atelier, nous aurons l’occasion d’appliquer des techniques de représentation non supervisée pour explorer les données clients complexes provenant de différentes applications développées par Kovalee.
Vous serez amené à essayer plusieurs méthodes de clustering et de tester la méthode développée par HephIA. Nous échangerons sur les aspects suivants :
1 – le potentiel des techniques à détecter les corrélations non linéaires entre les variables et former des groupes de clients
2 – potentiel des techniques à proposer un échantillonnage régulier des données.
3 – le potentiel des techniques à expliquer les clusters
Description du jeu de données
Le jeu de données provient de 4 applications différentes est composé d’événements déclenchés par les utilisateurs de ces applications depuis l’installation. Les dates d’installation varient entre le 1er novembre 2022 et le 15 novembre 2022 et les utilisateurs ont créé des événements jusqu’au 25 janvier 2023.
Chaque ligne du dataset correspond à un événement qui a été généré par l’utilisateur de l’application et envoyé au serveur.
Le dataset est composé de 5.123.647 événements, réalisés par 77.261 utilisateurs uniques.
Déroulement de l’atelier
14h – 15h : Présentation des données et des outils HephIA
15h – 17h : Utilisation des différentes solutions
17h – 18h : Mise en commun des solutions
Liens utiles