Votre rôle
Échantillonnage de données par bandits pour l'entrainement des LLMs F/H
Positionnement
L’allocation optimale de l’effort d’entraînement entre plusieurs jeux de données est aujourd’hui un enjeu central pour l’apprentissage des LLMs. De récents travaux (Ye et al., 2024 ; Zhu et al., 2025 ; Belenki et al., 2025 ; Liu et al., 2025) ont montré que l’optimisation automatique de ces mélanges, via des modèles prédictifs ou régressifs, permet d’améliorer significativement les résultats, tout en révélant la complexité des interactions entre domaines. Cependant, ces méthodes d’estimation de poids sont généralement a priori (avant l’entraînement) et via des proxys des modèles (et non les réels modèles destinés à être entraînés). Les dynamiques d’apprentissage, notamment inhérente au modèle réel, ne sont pas prises en compte.
Plus généralement, ce problème d’allocation s’inscrit à l’interface de plusieurs cadres théoriques, tels que le curriculum learning (Bengio et al., 2009), l’apprentissage multi-tâches (Caruana, 1997), l’apprentissage multi-tâches (Sener & Koltun, 2018) ou encore l’active learning (Settles, 2012), qui proposent chacun des stratégies pour guider dynamiquement la sélection des données ou des tâches au cours de l’entraînement.
Adapter dynamiquement les proportions d’échantillonnage peut être vu comme un problème d’apprentissage par renforcement (Sutton & Barto, 2018), où un agent interagit avec un LLM apprenant en choisissant les proportions d’échantillonnage des sources, et le LLM récompense l’agent en fonction des performances obtenues. Cependant, l’application du cadre de l’apprentissage par renforcement aux LLMs soulève des défis spécifiques : horizon d’apprentissage court, coût élevé de l’exploration, feedback bruité ou biaisé, contraintes d’allocation complexes et interactions potentielles complexes entre sources.
C’est pourquoi, dans ce stage, nous nous intéresserons aux algorithmes de bandits, un cas particulier de l’apprentissage par renforcement, où la récompense est obtenue après avoir choisi une action. Le premier avantage des algorithmes de bandits est leur vitesse de convergence : comme ils résolvent un problème plus simple que l’apprentissage par renforcement classique, ils trouvent une solution plus rapidement.
En effet, les algorithmes de bandits comme le Thompson Sampling sont optimaux pour gérer le dilemme exploration/exploitation (Lattimore & Szepesvári, 2020). Le second avantage est leur plasticité qui permet d’adapter ces algorithmes aux spécificités du problème traité (Bouneffouf & Féraud, 2024).
Le stage visera à intégrer ces spécificités dans la formalisation du problème de bandits et à proposer des solutions adaptées afin de rapprocher la théorie des besoins pratiques de l’entraînement moderne des LLMs.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.