ATELIER - DONNEES SYNTHETIQUES : METHODES DE GENERATION ET LIMITES

Cet atelier a été animé par Gilles Essoki & Aymeric Floyrac, Health Data Hub

Description 

Certaines bases de données sont particulièrement complexes à manipuler, voire inaccessibles pour le datascientist (pour des raisons, par exemple, d’autorisations). Disposer de données synthétiques, c’est-à-dire de données semblables aux données réelles mais générées aléatoirement, permet au datascientist de développer des scripts et d’acquérir une maîtrise de la base sans jamais l’avoir vue.

Déroulé de l'atelier

  • Introduction: les données synthétiques, définition et intérêt
  • Comment créer des données synthétiques?
    1. première approche: sans avoir accès à la base de données réelle
    2. deuxième approche: les problèmes de confidentialité, l’avatarisation
    3. troisième approche: les méthodes de deep learning (réseaux adverses génératifs, autoencodeurs variationnels)
  • Conclusion: choisir la meilleure approche et savoir en identifier les limites

 

Cet événement est labellisé “Paris AI week”.

Si vous souhaitez en savoir plus sur le contenu de cet atelier, n'hésitez pas à vous rendre sur notre Github.
Activité réalisé le 9 Novembre 2021
Share