Topic description
La conception de peptides thérapeutiques ciblant les interactions protéine-protéine (PPI) nécessite d'optimiser simultanément plusieurs propriétés moléculaires. Deux familles de méthodes computationnelles existent mais présentent des limitations complémentaires. Les modèles de design structural (hallucination AlphaFold/ColabDesign, ProteinMPNN, modèles de co-diffusion séquence-structure) conçoivent des séquences structuralement compatibles avec un site de liaison, mais sont entraînés sur des bases générales (PDB) dépourvues de contraintes fonctionnelles spécifiques. Les modèles de fitness appris sur des données de criblage (phage display, deep mutational scanning) capturent les relations séquence-fonction expérimentales, mais restent confinés à l'espace de séquences exploré.
Ce projet développe un cadre intégratif combinant deux sources d'information complémentaires pour la conception de peptides. D'un côté, les grands modèles pré-entraînés de prédiction de structure (AlphaFold2, AlphaFold3), appris sur l'ensemble des structures protéiques connues, permettent de concevoir des séquences géométriquement compatibles avec un site de liaison cible. De l'autre, des modèles de fitness basés sur la séquence, entraînés directement sur les données issues d'expériences de criblage à haut débit, capturent les relations entre séquence et fonction telles qu'observées expérimentalement. Ces modèles de fitness, fondés sur notre cadre multi-modal publié (Fernandez-de-Cossio-Diaz, Uguzzoni et al., PLOS Comput Biol, ), sont capables d'apprendre simultanément plusieurs propriétés moléculaires, y compris des phénotypes complexes comme la toxicité ou la sélectivité membranaire, des propriétés qui résultent d'interactions multiples avec l'organisme hôte et qui ne peuvent pas être prédites à partir de la structure d'un seul complexe moléculaire. L'innovation centrale du projet consiste à coupler ces deux familles de modèles : la fonction de fitness apprise guide le processus de génération du modèle structural, produisant des candidats peptidiques qui satisfont à la fois la complémentarité structurale avec la cible et les critères fonctionnels issus de l'expérience.
Le cadre sera développé et validé sur deux applications thérapeutiques :
Application 1 — Peptides antiviraux anti-influenza (Axe 1). Des peptides inhibant l'interaction PA-PB1 de la polymérase grippale ont été développés au CEA-IRIG par phage display (M variants, ~20 séquences NGS) et design structural (ProteinMPNN), avec une inhibition virale améliorée d'un facteur (brevet mai ). Ce système servira à valider l'intégration fitness-structure. Les candidats seront validés par mesures d'affinité (BLI, TSA), essais cellulaires (Institut Pasteur) et cristallographie (IBS).
Application 2 — Peptides antimicrobiens (Axe 2). Les données publiques de deep mutational scanning du Protegrin-1 (activité antibactérienne et hémolyse, Nat Biomed Eng, ) et de l'Oncocin (~ mutants, ACS Synth Biol, ) serviront de banc d'essai pour le modèle multi-modal et l'optimisation du compromis activité/toxicité.
La thèse sera dirigée par C. Battail (DR CEA) et co-encadrée par G. Uguzzoni (CR CEA), en collaboration avec D. Hart (IBS/CEA-IRIG) pour les données expérimentales et la validation, et J. Fernandez de Cossio Diaz (IPhT, CEA-Saclay) pour les aspects théoriques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The design of therapeutic peptides targeting protein-protein interactions (PPIs) requires the simultaneous optimization of multiple molecular properties. Two complementary families of computational methods exist but present opposite limitations. Structural design models (AlphaFold hallucination/ColabDesign, ProteinMPNN, sequence-structure co-diffusion models) generate sequences structurally compatible with a binding site, but are trained on general databases (PDB) lacking system-specific functional constraints. Fitness models learned from screening data (phage display, deep mutational scanning) capture experimental sequence-function relationships, but remain confined to the experimentally explored sequence space.
This project develops an integrative framework combining two complementary sources of information for peptide design. On one side, large pre-trained structure prediction models (AlphaFold2, AlphaFold3), trained on all known protein structures, enable the design of sequences geometrically compatible with a target binding site. On the other, sequence-based fitness models, trained directly on data from high-throughput screening experiments, capture sequence-function relationships as observed experimentally. These fitness models, based on our published multi-modal framework (Fernandez-de-Cossio-Diaz, Uguzzoni et al., PLOS Comput Biol, ), can simultaneously learn multiple molecular properties, including complex phenotypes such as toxicity or membrane selectivity, properties that arise from multiple interactions with the host organism and cannot be predicted from the structure of a single molecular complex. The central innovation of this project is to couple these two families of models: the learned fitness function guides the generation process of the structural model, producing peptide candidates that satisfy both structural complementarity with the target and functional criteria derived from experiment.
The framework will be developed and validated on two therapeutic applications:
Application 1 — Anti-influenza antiviral peptides (Axis 1). Peptides inhibiting the PA-PB1 interaction of the influenza polymerase were developed at CEA-IRIG through phage display (M variants, ~20, NGS sequences) and structural design (ProteinMPNN), achieving -fold improved viral inhibition (patent filed May ). Candidates will be validated through affinity measurements (BLI, TSA), cellular assays (Institut Pasteur), and X-ray crystallography (IBS).
Application 2 — Antimicrobial peptides (Axis 2). Public deep mutational scanning data from Protegrin-1 (antibacterial activity and hemolysis, Nat Biomed Eng, ) and Oncocin (~, mutants, ACS Synth Biol, ) will serve as testbeds for the multi-modal model and the activity/toxicity trade-off optimization.
The thesis will be supervised by C. Battail (DR CEA) and co-supervised by G. Uguzzoni (CR CEA), in collaboration with D. Hart (IBS/CEA-IRIG) for experimental data and validation, and J. Fernandez de Cossio Diaz (IPhT, CEA-Saclay) for theoretical aspects.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Public funding alone (i.e. government, region, European, international organization research grant)
Funding further details
Concours pour un contrat doctoral
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.