Loading Events
21 Jun 2023 10:00 - 18:00
Event Tags:
datacraft –
13 Rue des Arquebusiers
75003 Paris, France

ATELIER – Clustering de graphe appliqué à l’exploration du microbiome marin inconnu

Niveau en Machine Learning
** : Bonnes connaissances avancées en ML/Data/IA

Niveau en Python
** : Bonnes connaissances en Python

 Prérequis techniques
Apporter son PC portable

Intervenants
Cet atelier sera animé par : 

  • Pavla Debeljak – SupBiotech & Atelier de Bio-informatique MNHN
  • Lucie Bittner – Sorbonne Université & Atelier de Bio-informatique MNHN

Présentation de l’atelier
De nombreuses données peuvent se représenter sous forme de graph et nécessiter des approches de clustering pour en tirer de l’information, comme :

  • les données de réseaux sociaux, pour identifier des groupes ayant les mêmes centres d’intérêts
  • les données de consommation pour identifier les personnes ayant les mêmes habitudes de consommation

Lors de cet atelier vous aurez l’occasion de travailler sur des approches de clustering spécifiques aux graphes, qui sont des approches différentes que les approches de clustering sur des nuages de points.

Cet atelier présentera dans un premier temps les principes de base des microbiomes océaniques ainsi que la manière de stocker ce type de données.
Puis, une première approche de clustering par réseaux de similarité développée par Pavla et Lucie sera présentée.
Nous vous proposerons ensuite de coder votre propre méthode de clustering et de la comparer à la méthode de Pavla et de Lucie à l’aide d’une métrique qui sera définie.

Contexte
Durant cette dernière décennie les études sur les communautés de microorganismes, c’est à dire les microbiomes, ont connu un véritable essor à la fois dans le domaine médical (i.e., étude des microbiomes humains : de l’intestin, de la peau), de la biodiversité et de l’écologie (i.e., écosystèmes terrestres, marins, aérosols). Les progrès du séquençage de l’ADN permettent désormais une acquisition de données dite haut-débit, produisant pour chaque étude des millions voire des milliards de fragments de génome. Une diversité considérable est décrite que ce soit à la fois en nombre d’espèces, de fonctions ou de métabolismes. L’une des plus grandes collections de données sur les microbiomes provient des océans, avec notamment une initiative française, la Fondation Tara Océan, qui a financé plusieurs campagnes océanographiques.

La première campagne menée entre 2009 et 2013, a permis de conduire une étude d’ampleur inédite sur les microbiomes océaniques, au cours d’un périple de 140 000 kilomètres sur tous les océans de la planète. Au total, 40 000 échantillons d’eau de mer ont été prélevés dans 210 stations réparties dans 20 provinces biogéographiques. Cependant, au maximum 50 % des protéines trouvées dans ces microbiomes ont pu être reliées à une fonction déjà connue. Afin de résoudre le mystère de ces 50 % de séquences inconnues, nous avons essayé une approche de regroupement fonctionnel utilisant un réseau de similarité de séquences protéiques. Étant donné la grande taille du jeu de données (8 TB), il est complexe de découper les composantes de ce réseau, tout en obtenant la structure et les liens au sein des composantes. Les outils classiques pour découper les composantes atteignent notamment leur limite pour cette étape (e.g., igraph).

Description du jeu de données
Le jeu de données est composé du score de similarité (arête) entre deux séquences génomiques (nœuds), pour un ensemble choisi de séquences (le jeu de données de toutes les séquences serait trop volumineux).

Déroulement de l’atelier
10h–12h : Présentation de la problématique et exploration du jeu de données
14h-18h : Session de codage pour répondre à la problématique

Approches algorithmiques
– Algorithme de Louvain
– Algorithme de Paris

< All past workshops