Topic description
La prolifération rapide des dispositifs intelligents, tels que les téléphones mobiles, les objets connectés, les technologies portables ou encore les véhicules autonomes, entraîne la génération continue de grandes quantités de données distribuées, souvent sensibles. Ces données ouvrent des perspectives majeures pour des applications telles que la santé, les villes intelligentes, la maintenance prédictive ou les services personnalisés, mais soulèvent aussi des enjeux cruciaux de confidentialité, de sécurité et de gouvernance des données.
Dans ce contexte, l'apprentissage distribué constitue une alternative prometteuse aux approches centralisées, en permettant à plusieurs dispositifs d'apprendre de manière collaborative sans partager directement leurs données locales. Deux grandes familles sont aujourd'hui au cœur de ce domaine : l'apprentissage fédéré, coordonné par un serveur central, et l'apprentissage décentralisé, qui repose sur des échanges directs entre agents sans serveur. Si ces approches offrent des garanties intéressantes en matière de confidentialité, elles restent confrontées à plusieurs verrous scientifiques, notamment l'hétérogénéité des données entre dispositifs, la multimodalité des informations collectées, les contraintes de communication et les limitations de calcul ou d'énergie des terminaux.
Cette thèse vise à développer de nouveaux modèles, algorithmes et outils théoriques pour l'apprentissage distribué en environnements hétérogènes. Une première partie portera sur la prise en compte des données non-iid et multimodales, afin de concevoir des stratégies d'apprentissage collaboratif plus robustes et plus adaptées aux réalités des réseaux distribués. Une seconde partie s'intéressera à la compression des informations échangées entre dispositifs, avec l'objectif de proposer des méthodes à la fois économes en ressources, performantes et compatibles avec les contraintes de confidentialité.
Les travaux s'inscriront dans la continuité des contributions antérieures de l'équipe encadrante sur l'apprentissage distribué de modèles simples, tout en s'ouvrant à des cadres plus complexes impliquant des réseaux de neurones profonds et des modèles à grande échelle, y compris les LLM. L'ambition est de faire progresser les fondements méthodologiques de l'apprentissage distribué frugal, afin de permettre un passage à l'échelle efficace et sûr dans des environnements réalistes.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The rapid proliferation of intelligent devices, including smartphones, wearable technologies, autonomous vehicles, and Internet of Things (IoT) systems, has led to the continuous generation of large amounts of distributed and often sensitive data. These data create major opportunities for applications such as healthcare, smart cities, predictive maintenance, and personalized services, while also raising critical issues related to privacy, security, and data governance.
In this context, distributed learning has emerged as a promising alternative to centralized machine learning, allowing multiple devices to collaboratively train models without directly sharing their local data. Two major paradigms structure this field: federated learning, which relies on a central server for coordination, and decentralized learning, where agents communicate directly without a server. Although these approaches improve privacy preservation, several scientific and technical challenges remain open, including data heterogeneity across devices, multimodal sensing, communication constraints, and the limited computational and energy resources available at the edge.
This PhD thesis aims to develop new models, algorithms, and analytical tools for distributed learning in heterogeneous environments. A first part of the thesis will focus on handling non-iid and multimodal data in order to design collaborative learning strategies that are more robust and better suited to realistic distributed settings. A second part will address communication-efficient learning through the compression of information exchanged between devices, with the goal of proposing methods that are both resource-efficient and compatible with privacy constraints.
The thesis will build on the previous contributions of the supervisory team in distributed learning for simpler settings and will extend them to more realistic large-scale machine learning frameworks, including deep neural networks and large language models. The overall objective is to advance the foundations of privacy-aware and resource-efficient distributed learning, enabling scalable, secure, and practical deployment in real-world environments.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Funding further details
Contrat doctoral EDSTIC-DS4H
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.