Au cours d'un cancer, différentes mutations s'accumulent sur les cellules cancéreuses, générant plusieurs lignées cellulaires qui co-existent dans une tumeur donnée. L'objectif de ce projet est d'étudier l'histoire évolutive d'une tumeur à partir de données de séquençage haut débit dites "bulk", c'est-à-dire mélangeant différentes cellules de la tumeur.
Ces données sont complexes à la fois pour des raisons biologiques et techniques. L'évolution d'un cancer dépend en effet de nombreux processus biologiques, qui induisent notamment des mutations, des altérations structurelles de certaines régions du génome dans certaines cellules, ainsi que des variations de taille de la tumeur. D'un point de vue technique, le séquençage haut-débit ne fournit pas des séquences entières de génomes, mais renvoie un très grand nombre de petits fragments, appelés "reads", que l'on place sur une séquence de référence pour pouvoir les exploiter. Dans le cas de données bulk où l'on séquence plusieurs cellules, il n'est de plus pas possible de déterminer directement à quelle cellule appartient tel ou tel read.
L'objectif principal de la thèse est de reconstruire l'histoire de la composition cellulaire de la tumeur d'un patient à partir de biopsies de suivi réalisées à plusieurs temps différents et séquencées. L'approche envisagée repose sur la mise au point d'un modèle stochastique des données de séquençage bulk d'une tumeur. Un tel modèle se décompose naturellement deux parties principales. Un processus de naissance et mort (pour la division et la mort cellulaire), couplé à un processus de Poisson (pour les mutations), peut en premier lieu être utilisé pour modéliser l'évolution du nombre de cellules de chaque lignée et l'apparition de nouvelles lignées. Conditionnellement à cet effectif des lignées cellulaires, la seconde partie modélise le prélèvement des cellules tumorales et leur séquençage haut débit, qui produit l'ensemble des reads observés.
Ce modèle pourra être utilisé dans un premier temps pour simuler des données de séquençage sous diverses hypothèses biologiques, afin de tester la robustesse et la précision des méthodes de reconstructions déjà existantes, telles que Pairtree [3] ou CALDER [2].
Dans un second temps, l'objectif sera de calculer la vraisemblance de données de séquençage bulk sous ce modèle afin de proposer une nouvelle méthode d'inférence statistique, en adaptant par exemple l'approche de [1] pour la première partie du modèle.
[1] Didier, Laurin. 2020. Systematic Biology. 69:1068–1087.
[2] Myers, Satas, Raphael. 2019. Cell systems. 8:514–522.
[3] Wintersinger, Dobson, Kulman, et al. 2022. Blood Cancer Discovery. 3:208–219
Contexte de travail
La thèse se déroulera à l'Institut Montpelliérain Alexander Grothendiek (IMAG) à Montpellier, en collaboration avec le MAP5 à Paris. Il sera encadré par Gilles Didier (IMAG) et Paul Bastide (MAP5), en collaboration avec Alice Cleynen (IMAG) et Sophie Lèbre (IMAG). Le projet s'inscrit dans l'ANR IdenTHiC (Identification of Tumor HIstory at the Clone level), qui porte sur l'étude de données cliniques de patients atteints de cancers pour l'aide au diagnostic.
Le développement de l'outil de simulation nécessite un goût pour la programmation, notamment en R, C/C++ ou python. L'étude du modèle met en oeuvre des compétences en probabilité et statistiques et bénéficierait d'un intérêt pour les applications biologiques.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.