Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Phd 'data mixing using bandits to train llms' f/h

Lannion
Orange
35 000 € par an
Publiée le 21 avril
Description de l'offre

L'entraînement des grands modèles de langage (LLMs) nécessite de gérer efficacement un coût élevé en données. Il faut sous-échantillonner les sources peu utiles et sur-échantillonner celles profitables. Les méthodes actuelles de data mixing, basées sur des lois de mélange ou régressions, ne captent pas parfaitement la dynamique d'apprentissage ni la non-stationnarité de l'utilité des données. Une alternative consiste à formaliser l'ajustement des proportions d'échantillonnage via un agent qui, à chaque étape, choisit une source et observe un retour lié aux progrès du modèle. Les bandits, notamment non-stationnaires, offrent un cadre pour gérer exploration/exploitation et l'évolution de l'utilité des sources. L'objectif est de développer des méthodes innovantes pour adapter dynamiquement l'échantillonnage entre sources lors de l'apprentissage de modèles statistiques, en particulier les LLMs, en utilisant des modèles de bandits et des algorithmes d'allocation adaptés à l'entraînement à grande échelle. Les principaux défis sont : Estimer un feedback utile malgré un signal indirect, bruité et biaisé ; Gérer la non-stationnarité de l'utilité des sources au fil du temps ; Prendre en compte les interactions entre sources (synergie, redondance, interférence) ; Limiter le coût d'exploration dans un contexte de contraintes de calcul et de retards dans les retours. Résultats attendus : Formalisation d'un modèle bandit réaliste pour le data mixing, développement de nouveaux algorithmes d'échantillonnage adaptatif, et leur évaluation à grande échelle. Compétences (scientifiques et techniques) et qualités personnelles exigées par le poste - Scientifiques et techniques ? Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation ? Maîtrise de Python et des librairies de data science (NumPy, PyTorch) ? Connaissances en apprentissage automatique et deep learning - Qualités personnelles ? Intérêt pour la recherche appliquée et la validation expérimentale ? Curiosité scientifique, rigueur et autonomie. ? Goût pour le travail en équipe et la communication de résultats ? Esprit d'initiative et capacité d'adaptation à des problématiques complexes ? Bonnes capacités communicationnelles (prise de parole, rédaction, anglais) Formation demandée (master, diplôme d'ingénieur, doctorat, domaine scientifique et technique ) - Master 2 ou école d'ingénieur en informatique ou mathématiques appliquées Expériences souhaitées (stages, ) - Idéalement, un stage dans un environnement de recherche en machine learning Orange est un acteur majeur en Europe et en Afrique dans le mobile et l'ADSL, et un leader mondial des services télécoms aux entreprises. Description de l'entité/équipe La Division Innovation vise à renforcer le leadership technologique d'Orange en mobilisant la recherche pour une innovation responsable, au service de l'humain, et pour éclairer les choix stratégiques du Groupe. Elle rassemble 6 000 employés dans le monde, dont 740 chercheurs, avec une grande diversité de profils (chercheurs, ingénieurs, data scientists, sociologues, etc.). Leur mission est d'améliorer continuellement la performance des services et de faire d'Orange un opérateur multiservices de confiance. Au sein de cette division, vous intégrerez deux équipes de recherche spécialisées dans le traitement automatique des langues et l'apprentissage statistique, dans un environnement stimulant avec de nombreux chercheurs, doctorants, data scientists, et de grandes infrastructures de calcul.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Ingénieur sécurité des réseaux mobiles f/h
Lannion
Orange
Ingénieur sécurité
Offre similaire
Thèse ' resilient infrastructures in front of climate change' h/f
Caouënnec-Lanvézéac
CDD
Orange
Offre similaire
Phd-conception d'un outil développant les compétences cyber grand public h/f
Lannion
CDD
Orange
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange
Emploi Orange à Lannion
Emploi Lannion
Emploi Côtes-d'Armor
Emploi Bretagne
Orange Intérim
Intérim Orange à Lannion
Intérim Lannion
Intérim Côtes-d'Armor
Intérim Bretagne
Accueil > Emploi > PhD 'Data mixing using bandits to train LLMs' F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2026 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder