Topic description
Les polluants organiques persistants (POP) sont des substances chimiques bioaccumulables auxquelles la population générale est principalement exposée par l'alimentation. En raison de leur longue demi-vie biologique, l'exposition interne est mieux évaluée à l'aide de biomarqueurs sanguins ; toutefois, le biomonitoring est coûteux et limite la taille des échantillons ainsi que la puissance statistique dans les grandes études épidémiologiques. Les méthodes indirectes existantes d'évaluation de l'exposition présentent des erreurs de mesure ou une scalabilité limitée. L'apprentissage automatique (machine learning, ML) offre une alternative prometteuse en combinant de multiples variables liées à l'exposition afin de prédire les concentrations internes de POP dans de larges populations, permettant ainsi des analyses plus puissantes des effets des POP sur la santé, notamment le cancer du sein.
Les principaux objectifs de ce projet sont : 1) de prédire l'exposition interne aux POP dans la cohorte E3N-Générations à l'aide de modèles de ML entraînés sur des données de biomarqueurs mesurées ; et 2) d'évaluer l'association entre l'exposition prédite aux POP et le risque de cancer du sein.
Environ 1 femmes de la cohorte E3N-Générations disposent déjà de mesures des taux sanguins de POP. Des données détaillées sur l'alimentation, le mode de vie, les facteurs reproductifs et les caractéristiques anthropométriques sont également disponibles.
Cette sous-cohorte sera divisée en un ensemble d'entraînement (90 %) et un ensemble de test. Une large bibliothèque de modèles sera évaluée, incluant des régressions linéaires et pénalisées, des modèles additifs généralisés, des machines à vecteurs de support, des méthodes de gradient boosting et des réseaux de neurones. Un Super Learner adaptatif aux données combinera ces modèles en un ensemble pondéré de manière optimale à l'aide de la validation croisée.
Les expositions prédites seront attribuées à environ 75 femmes de la cohorte E3N, dont plus de 8 cas incidents de cancer du sein, et analysées à l'aide de modèles de Cox, globalement et selon le statut des récepteurs aux œstrogènes (ER). Les effets des mélanges de POP seront évalués à l'aide de plusieurs approches de modélisation.
Ce projet permettra de développer un cadre méthodologique validé et scalable basé sur le ML pour prédire l'exposition interne aux POP dans de grandes cohortes, et de produire de nouvelles connaissances sur l'association entre les POP et le risque de cancer du sein.
Le/la doctorant(e) sera encadré(e) par Francesca Romana Mancini (directrice de thèse) et Germán Cano-Sancho (co-directeur), combinant une expertise en épidémiologie environnementale et en évaluation des expositions, et travaillera en étroite collaboration avec Vittorio Perduca (co-encadrant), qui possède une vaste expérience en ML appliqué aux études épidémiologiques.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Persistent Organic Pollutants (POPs) are bioaccumulative chemicals to which the general population is primarily exposed through diet. Due to their long biological half-lives, internal exposure is best assessed using blood biomarkers; however, biomonitoring is costly and limits sample size and statistical power in large epidemiological studies. Existing indirect exposure assessment methods suffer from measurement error or limited scalability. Machine learning (ML) offers a promising alternative by combining multiple exposure-related variables to predict internal POP concentrations in large populations, enabling more powerful analyses of POP-related health effects, including breast cancer.
The main objectives of this project are 1) to predict internal exposure to POPs in the E3N-Generations cohort using ML models trained on measured biomarker data, and 2) to assess the association between predicted POPs exposure and breast cancer risk.
Approximately 1, women of the E3N-Generations cohort have already measured POPs blood levels. Detailed dietary, lifestyle, reproductive, anthropometric data are also available.
This subcohort will be split into training (90%) and test sets. A broad library of models will be evaluated, including linear and penalized regression, generalized additive models, support vector machines, gradient boosting, and neural networks. A data-adaptive Super Learner will combine models into an optimally weighted ensemble using cross-validation.
Predicted exposures will be assigned to ~75, E3N women, including over 8, incident breast cancer cases, and analysed using Cox models, overall and by ER status. POPs mixture effects will be assessed using multiple modelling approaches.
This project will deliver a validated, scalable ML framework to predict internal POPs exposure in large cohorts and generate new evidence on POPs and breast cancer risk.
The PhD fellow will be supervised by Francesca Romana Mancini (directrice de these) and Germán Cano-Sancho (co-directeur), combining expertise in environmental epidemiology and exposure assessment, and will work closely with Vittorio Perduca (Co-Encadrant), who has vast experience in ML applied to epidemiology studies.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
WEB :
Funding category
Funding further details
Contrats ED : Programme blanc GS-SanPub
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.