La médecine génomique change actuellement d'échelle grâce à diverses initiatives nationales de séquençage. Les initiatives de partage des données et l'adoption des principes FAIR (Findability, Accessibility, Interoperability, and Reuse of digital assets) offrent à la communauté scientifique une opportunité sans précédent d'explorer et d'améliorer l'interprétation du génome humain. En France, le Plan France Médecine Génomique 2025 mené par AVIESAN vise, avec le Collecteur Analyseur de Données (CAD), à fournir un accès à des ensembles de données bien génotypées et phénotypées, afin de décrypter les mécanismes de pathogénicité. D'autres initiatives nationales, telles que UK biobank ou FinnGen, permettent d'accéder à des ensembles de données de séquençage pan-génomique associées à un phénotypage approfondi.
Pourtant, la plupart des patients restent en attente d'un diagnostic. Il existe un besoin criant d'outils pour aider les biologistes cliniques à traduire ces données de séquençage en clinique, notamment pour prédire in silico les effets de variants génomiques. Les tests génétiques cliniques actuels se concentrent presque exclusivement sur les régions du génome qui codent directement pour les protéines, or l'importance des variants dans les régions non codantes est cependant de plus en plus démontré.
L'objectif de cette thèse est de développer des modèles basés sur l'apprentissage automatique capables de fournir des informations accessibles pour l'interprétation clinique des variations génétiques dans les régions non codantes du génome.
L'équipe d'accueil (équipe PRIME CNRS LIRMM/IGMM/IMAG) a développé différents modèles statistiques capables de prédire de nombreux types de régulations génomiques (liaison de TF, ouverture de la chromatine, méthylation) associées à un locus (séquence d'ADN) donné. L'objectif du projet de thèse est de capitaliser sur ces approches pour construire un modèle capable de prédire la variation d'expression d'un gène cible en combinant les prédictions faites sur différents loci connus pour être associés au gène par des analyses eQTL. Différentes méthodologies pourront être développées pour répondre à ce problème, allant de modèles linéaires spécifiques, jusqu'à des approches de modélisation Bayésiennes ou des réseaux de neurone de type graph neural networks.
Contexte de travail
LIRMM (joint team with IGMM, IMAG and CHU Montpellier)
Le doctorant pourra être amené à faire des séjours de quelque semaines au laboratoire LIS (CNRS-AMU) dans l'équipe de Cécile Capponi, partenaire du projet.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Informations complémentaires
PEPR Santé Numérique. Projet M4DI.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.