Échantillonnage de données par bandits pour l'entrainement des LLMs F/H
Positionnement
L'allocation optimale de l'effort d'entraînement entre plusieurs jeux de données est aujourd'hui un enjeu central pour l'apprentissage des LLMs. De récents travaux (Ye et al., 2024 ; Zhu et al., 2025 ; Belenki et al., 2025 ; Liu et al., 2025) ont montré que l'optimisation automatique de ces mélanges, via des modèles prédictifs ou régressifs, permet d'améliorer significativement les résultats, tout en révélant la complexité des interactions entre domaines. Cependant, ces méthodes d'estimation de poids sont généralement a priori (avant l'entraînement) et via des proxys des modèles (et non les réels modèles destinés à être entraînés). Les dynamiques d'apprentissage, notamment inhérente au modèle réel, ne sont pas prises en compte.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.