Thèse "mélange de données via des bandits pour l'apprentissage de modèles de langue" f/h

Alternance

Orange

Publiée le 3 juin

Description de l'offre

Date de publication : Apr 14, 2026, 12:16AM

Votre rôleest d’effectuer un travail de thèse sur le « mélange de données via des bandits pour l'apprentissage de modèles de langue ».

Contexte global et problématique

L’entraînement des modèles modernes, en particulier des grands modèles de langage (LLMs), s’appuie sur de multiples sources de données. Vu le coût élevé d’entraînement, il devient crucial d’allouer efficacement le budget de calcul : sous-échantillonner les sources peu utiles et sur-échantillonner celles profitables. Des travaux récents sur le data mixing pour LLMs optimisent ces proportions via des lois de mélange ou des modèles de régression mais ils capturent imparfaitement les dynamiques d’apprentissage et la non-stationnarité de l’utilité des données. Une alternative est de formaliser l’ajustement des proportions d’échantillonnage : à chaque étape, un agent choisit une allocation sur les sources et observe un retour lié aux progrès du LLM. Les bandits, et notamment leurs variantes non-stationnaires ou à changements de régime, fournissent un cadre pratique pour gérer l’exploration/exploitation tout en modélisant l’évolution de l’utilité des sources.

Objectif scientifique - résultats et verrous à lever

L’objectif de la thèse est de proposer des méthodes originales pour adapter dynamiquement les proportions d’échantillonnage entre plusieurs sources pour l’apprentissage de modèles statistiques, en particulier les LLMs, via une modélisation de type bandits et des algorithmes d’allocation compatibles avec l’entraînement à grande échelle.

Les verrous principaux sont :

* estimer un feedback d’utilité exploitable malgré un signal indirect (loss/perplexité), bruité et parfois biaisé ;
* traiter la non-stationnarité induite par l’apprentissage (l’utilité d’une source change au fil du temps, avec saturation ou changements de régime) ;
* prendre en compte les interactions entre sources (synergie, redondance, interférence) au-delà de l’hypothèse d’indépendance des bras ;
* limiter le coût d’exploration sous contraintes de calcul, horizons courts, et retours potentiellement retardés.

Les résultats visés sont :

* une formalisation bandit réaliste du data mixing,
de nouveaux algorithmes d’échantillonnage adaptatif et leurs évaluations à l’échelle.

Références

* Ye et al., Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Model Performance
* Liu et al., REGMIX: Data Mixture as Regression for Language Model Pretraining
* Belenki et al., Optimizing PreTraining Data Mixtures with Mixtures of Data Expert Models
* Zhu et al., Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts
* Bouneffouf & Féraud, Bandits Meets LLM
* Zhao et al., Towards a Pretrained Model for Restless Bandits via Multiarm Generalization
* Garivier & Moulines, On Upper-Confidence Bound Policies for Switching Bandit Problems
* Allesiardo et al., The Non-Stationary Stochastic Multi-Armed Bandits
* Honda et al., FPL Achieves Best-of-Both-Worlds for Bandit Problems

Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste

* Scientifiques et techniques
o Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation
o Maîtrise de Python et des librairies de data science (NumPy, PyTorch...)
o Connaissances en apprentissage automatique et deep learning
* Qualités personnelles
o Intérêt pour la recherche appliquée et la validation expérimentale
o Curiosité scientifique, rigueur et autonomie.
o Goût pour le travail en équipe et la communication de résultats
o Esprit d’initiative et capacité d’adaptation à des problématiques complexes
o Bonnes capacités communicationnelles (prise de parole, rédaction, anglais)

Formation demandée(master, diplôme d’ingénieur, doctorat, domaine scientifique et technique …)

* Master 2 ou école d’ingénieur en informatique ou mathématiques appliquées

Expériences souhaitées(stages, …)

* Idéalement, un stage dans un environnement de recherche en machine learning
* Participation à un projet de recherche innovant, au cœur des enjeux de l’IA moderne et de l’optimisation des ressources pour l’entraînement de LLMs.
* Ecosystème recherche riche qui vous permettra de publier dans les meilleures conférences en IA.
* Pratique de la recherche analogue à la recherche académiques (problématiques fondamentales, présences de chercheurs et doctornats) mais dans environnement industriel.

L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.

Nous formons les expertes et les experts des technologies d’aujourd’hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l’innovation dont 740 chercheurs. Porteurs d’une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité…), les femmes et les hommes de Innovation sont à l’écoute et au service des pays, des régions et des business units pour faire d’Orange un opérateur multiservices de confiance.

Au sein de Innovation, vous serez intégré(e) au sein de deux équipes de recherche à la pointe de l’innovation et de l’expertise sur le traitement automatique des langues et l’apprentissage statistique. Vous y bénéficierez d’un environnement stimulant : présence de nombreux chercheurs, doctorants et data scientists ; interconnexions avec les problématiques applicatives du groupe ; disponibilité de grandes infrastructures de calcul.

Chez Orange, seules vos compétences comptent.

Quel que soit votre âge, genre, origine, parcours, religion, orientation sexuelle, handicap, neuroatypie, ou apparence, nous encourageons activement la diversité au sein de nos équipes, car elle constitue une force pour le collectif et un vecteur d’innovation.
Orange est une entreprise handi-accueillante : n’hésitez pas à nous faire part de vos besoins spécifiques.

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Responsable sécurité du système d'information - rssi (f/h)

Cesson-Sévigné

Orange

Responsable sécurité

60 000 € par an

Offre similaire

Chargé(e) de formation f/h

Cesson-Sévigné

Orange

Chargé de formation

1 200 € par mois

Offre similaire

Chargé de formation en alternance – santé & rh

Cesson-Sévigné

Alternance

Orange

Chargé de formation

1 200 € par mois