Votre rôle
Orange est en train d’établir un observatoire de la mobilité (des personnes et des marchandises), reposant sur l’analyse anonymisée des données de signalisation des réseaux mobiles.
Les données individuelles relatives à la mobilité humaine sont riches en information mais, à l’état brut, elles peuvent révéler des éléments sensibles sur les personnes sous-jacentes. Leur exploitation exige donc des mécanismes de protection limitant le risque de réidentification. Dans ce contexte, les traces de mobilité synthétiques, générées artificiellement à partir de données réelles, représentent une alternative prometteuse: elles visent à préserver la confidentialité des individus tout en conservant les caractéristiques statistiques nécessaires à l’analyse. Le stage évaluera précisément si, et dans quelle mesure, ces données synthétiques peuvent remplacer les données réelles sans dégrader la valeur analytique.
L’objectif principal du stage est d’évaluer dans quelle mesure l’utilisation de traces de mobilité synthétiques issues de modèles génératifs profonds peut alimenter des modèles de prédiction de la qualité de l’air, en comparaison avec l’utilisation de données réelles.
Le stage s’inscrit dans un projet collaboratif de recherche visant à construire une chaine de modélisation de la qualité de l’air à partir des traces de mobilité dérivées des données de signalisation des réseaux mobiles. Le ou la stagiaire interagira avec les différentes parties prenantes du projet (data scientists, experts mobilité/air, ingénieurs), afin d’aligner les hypothèses, partager les résultats et consolider les recommandations.
Dans ce cadre, le ou la stagiaire commencera par réaliser un état de l’art sur l’intégration des données de mobilité dans la prédiction de la qualité de l’air et les métriques associées, afin de bien comprendre les approches existantes et les enjeux associés.
Il ou elle analysera ensuite différentes versions de traces de mobilité synthétiques, à partir d’une base de données de trace de mobilité réelles en étudiant leurs caractéristiques statistiques (distributions des trajets, dynamiques temporelles, matrices origine–destination, corrélations spatio-temporelles). Ces traces synthétiques seront intégrées dans un ou plusieurs modèles de prédiction de la qualité de l’air, afin d’évaluer leur impact sur la performance prédictive par rapport à des modèles entrainés avec des traces de mobilités réelles, en mobilisant des métriques appropriées. Enfin, une analyse approfondie des résultats permettra d’identifier les limites de des données synthétiques du point de vue de l’utilité et de proposer des pistes d’amélioration ou des perspectives pour de futurs travaux.
Le travail aboutira à un protocole d’évaluation reproductible, un corpus de code documenté (Python) pour l’intégration et l’évaluation des données synthétiques. Selon l’avancement, des contributions scientifiques (papier de recherche) pourront être envisagées.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.