Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Thèse "mélange de données via des bandits pour l'apprentissage de modèles de langue" f/h

Alternance
Orange
Publiée le 30 avril
Description de l'offre

Date de publication : Apr 14, 2026, 12:16AM

Votre rôleest d’effectuer un travail de thèse sur le « mélange de données via des bandits pour l'apprentissage de modèles de langue ».

Contexte global et problématique

L’entraînement des modèles modernes, en particulier des grands modèles de langage (LLMs), s’appuie sur de multiples sources de données. Vu le coût élevé d’entraînement, il devient crucial d’allouer efficacement le budget de calcul : sous-échantillonner les sources peu utiles et sur-échantillonner celles profitables. Des travaux récents sur le data mixing pour LLMs optimisent ces proportions via des lois de mélange ou des modèles de régression mais ils capturent imparfaitement les dynamiques d’apprentissage et la non-stationnarité de l’utilité des données. Une alternative est de formaliser l’ajustement des proportions d’échantillonnage : à chaque étape, un agent choisit une allocation sur les sources et observe un retour lié aux progrès du LLM. Les bandits, et notamment leurs variantes non-stationnaires ou à changements de régime, fournissent un cadre pratique pour gérer l’exploration/exploitation tout en modélisant l’évolution de l’utilité des sources.


Objectif scientifique - résultats et verrous à lever

L’objectif de la thèse est de proposer des méthodes originales pour adapter dynamiquement les proportions d’échantillonnage entre plusieurs sources pour l’apprentissage de modèles statistiques, en particulier les LLMs, via une modélisation de type bandits et des algorithmes d’allocation compatibles avec l’entraînement à grande échelle.

Les verrous principaux sont :

* estimer un feedback d’utilité exploitable malgré un signal indirect (loss/perplexité), bruité et parfois biaisé ;
* traiter la non-stationnarité induite par l’apprentissage (l’utilité d’une source change au fil du temps, avec saturation ou changements de régime) ;
* prendre en compte les interactions entre sources (synergie, redondance, interférence) au-delà de l’hypothèse d’indépendance des bras ;
* limiter le coût d’exploration sous contraintes de calcul, horizons courts, et retours potentiellement retardés.

Les résultats visés sont :

* une formalisation bandit réaliste du data mixing,
de nouveaux algorithmes d’échantillonnage adaptatif et leurs évaluations à l’échelle.


Références

* Ye et al., Data Mixing Laws: Optimizing Data Mixtures by Predicting Language Model Performance
* Liu et al., REGMIX: Data Mixture as Regression for Language Model Pretraining
* Belenki et al., Optimizing PreTraining Data Mixtures with Mixtures of Data Expert Models
* Zhu et al., Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts
* Bouneffouf & Féraud, Bandits Meets LLM
* Zhao et al., Towards a Pretrained Model for Restless Bandits via Multiarm Generalization
* Garivier & Moulines, On Upper-Confidence Bound Policies for Switching Bandit Problems
* Allesiardo et al., The Non-Stationary Stochastic Multi-Armed Bandits
* Honda et al., FPL Achieves Best-of-Both-Worlds for Bandit Problems

Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste

* Scientifiques et techniques
o Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation
o Maîtrise de Python et des librairies de data science (NumPy, PyTorch...)
o Connaissances en apprentissage automatique et deep learning
* Qualités personnelles
o Intérêt pour la recherche appliquée et la validation expérimentale
o Curiosité scientifique, rigueur et autonomie.
o Goût pour le travail en équipe et la communication de résultats
o Esprit d’initiative et capacité d’adaptation à des problématiques complexes
o Bonnes capacités communicationnelles (prise de parole, rédaction, anglais)

Formation demandée(master, diplôme d’ingénieur, doctorat, domaine scientifique et technique …)

* Master 2 ou école d’ingénieur en informatique ou mathématiques appliquées

Expériences souhaitées(stages, …)

* Idéalement, un stage dans un environnement de recherche en machine learning
* Participation à un projet de recherche innovant, au cœur des enjeux de l’IA moderne et de l’optimisation des ressources pour l’entraînement de LLMs.
* Ecosystème recherche riche qui vous permettra de publier dans les meilleures conférences en IA.
* Pratique de la recherche analogue à la recherche académiques (problématiques fondamentales, présences de chercheurs et doctornats) mais dans environnement industriel.

L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.

Nous formons les expertes et les experts des technologies d’aujourd’hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l’innovation dont 740 chercheurs. Porteurs d’une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité…), les femmes et les hommes de Innovation sont à l’écoute et au service des pays, des régions et des business units pour faire d’Orange un opérateur multiservices de confiance.

Au sein de Innovation, vous serez intégré(e) au sein de deux équipes de recherche à la pointe de l’innovation et de l’expertise sur le traitement automatique des langues et l’apprentissage statistique. Vous y bénéficierez d’un environnement stimulant : présence de nombreux chercheurs, doctorants et data scientists ; interconnexions avec les problématiques applicatives du groupe ; disponibilité de grandes infrastructures de calcul.

Chez Orange, seules vos compétences comptent.

Quel que soit votre âge, genre, origine, parcours, religion, orientation sexuelle, handicap, neuroatypie, ou apparence, nous encourageons activement la diversité au sein de nos équipes, car elle constitue une force pour le collectif et un vecteur d’innovation.
Orange est une entreprise handi-accueillante : n’hésitez pas à nous faire part de vos besoins spécifiques.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Alternance - conseiller clients en boutique f/h
Saint-Benoît
Alternance
Orange
Chargé de clientèle
Offre similaire
Alternance- conseiller client front commercial 971 (f/h)
Alternance
Orange
Chargé de clientèle
Offre similaire
Conseiller client en contrat de professionnalisation cqpt h/f
Puilboreau
Alternance
Contrat de professionnalisation
Orange
Chargé de clientèle
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange
Orange Intérim
Accueil > Emploi > Thèse "Mélange de données via des bandits pour l'apprentissage de modèles de langue" F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2026 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder