Topic description
Contrairement au code amino-acide des protéines, connu depuis
plusieurs décennies, le code cis-régulateur du génome, c'est-à-dire le
code génomique qui régule l'expression génique parmi la grande
diversité des types de cellules et des conditions, reste largement
inconnu. Ces dernières années, plusieurs approches d'apprentissage
automatique ont été proposées à cette fin. Ces modèles prennent en
entrée une séquence d'ADN et sont entraînés à prédire un signal lié à
l'expression. Outre leur pouvoir prédictif, ces modèles peuvent aider
à déchiffrer le code génomique. Le raisonnement est qu'un modèle
précis a probablement capturé les règles de régulation, c'est-à-dire
les motifs et les combinaisons de motifs dont la présence sur la
séquence régulent le signal étudié. Lorsque c'est le cas, une
procédure de rétro-ingénierie est alors appliquée pour extraire ces
règles du modèle.
Les réseaux neuronaux convolutifs (CNN) ont été largement utilisés
pour ce problème. Cependant, les modèles CNN actuels sont confrontés à
deux problèmes majeurs : 1/ Un modèle entraîné pour prédire un signal
dans une condition spécifique ne peut pas être utilisé dans une
condition différente, c'est-à-dire que le modèle ne peut pas être
utilisé pour prédire le signal dans des conditions inconnues. 2/
Aucune mesure d'importance n'est associée aux motifs identifiés lors
de la procédure de rétro-ingénierie. Dans ce thèse, nous proposons
de développer une nouvelle architecture CNN et un nouveau schéma
d'apprentissage qui répondent à ces deux limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Contrary to the amino-acid code of proteins that has been known for several decades, the cis-regulatory code of the genome, i.e. the genomic code that regulate gene expression among the wide diversity of cell types and conditions remains largely unknown. In recent years, several machine-learning approaches have been proposed for this purpose. These models take a DNA sequence in input and are trained to predict a signal related to gene expression. Besides their predictive power, these models can help decipher the genomic code. The rational is that an accurate model has probably captured the regulatory rules, i.e. the motifs and motif-combinations whose presence on the sequence regulates the signal under study. When this is the case, a reverse-engineering procedure is then apply to extract these rules from the model.
Convolutional neural networks (CNNs) have been widely used for this problem. However current CNN models face two major issues: 1/ A model trained to predict a signal on a specific condition cannot be used on a different condition, i.e. the model cannot be used to predict the signal on unseen conditions. 2/ No importance measure is associated with the motifs identified during the reverse-engineering procedure. In this thesis project, we propose to develop a new CNN architecture and a new learning scheme that address these two limitations.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.