Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage - machine learning / mathématiques appliquées f/h

Lannion
Stage
Orange
Publiée le 14 novembre
Description de l'offre

Votre rôle

Échantillonnage de données par bandits pour l'entrainement des LLMs F/H

Positionnement


L’allocation optimale de l’effort d’entraînement entre plusieurs jeux de données est aujourd’hui un enjeu central pour l’apprentissage des LLMs. De récents travaux (Ye et al., 2024 ; Zhu et al., 2025 ; Belenki et al., 2025 ; Liu et al., 2025) ont montré que l’optimisation automatique de ces mélanges, via des modèles prédictifs ou régressifs, permet d’améliorer significativement les résultats, tout en révélant la complexité des interactions entre domaines. Cependant, ces méthodes d’estimation de poids sont généralement a priori (avant l’entraînement) et via des proxys des modèles (et non les réels modèles destinés à être entraînés). Les dynamiques d’apprentissage, notamment inhérente au modèle réel, ne sont pas prises en compte.


Plus généralement, ce problème d’allocation s’inscrit à l’interface de plusieurs cadres théoriques, tels que le curriculum learning (Bengio et al., 2009), l’apprentissage multi-tâches (Caruana, 1997), l’apprentissage multi-tâches (Sener & Koltun, 2018) ou encore l’active learning (Settles, 2012), qui proposent chacun des stratégies pour guider dynamiquement la sélection des données ou des tâches au cours de l’entraînement.


Adapter dynamiquement les proportions d’échantillonnage peut être vu comme un problème d’apprentissage par renforcement (Sutton & Barto, 2018), où un agent interagit avec un LLM apprenant en choisissant les proportions d’échantillonnage des sources, et le LLM récompense l’agent en fonction des performances obtenues. Cependant, l’application du cadre de l’apprentissage par renforcement aux LLMs soulève des défis spécifiques : horizon d’apprentissage court, coût élevé de l’exploration, feedback bruité ou biaisé, contraintes d’allocation complexes et interactions potentielles complexes entre sources.

C’est pourquoi, dans ce stage, nous nous intéresserons aux algorithmes de bandits, un cas particulier de l’apprentissage par renforcement, où la récompense est obtenue après avoir choisi une action. Le premier avantage des algorithmes de bandits est leur vitesse de convergence : comme ils résolvent un problème plus simple que l’apprentissage par renforcement classique, ils trouvent une solution plus rapidement.

En effet, les algorithmes de bandits comme le Thompson Sampling sont optimaux pour gérer le dilemme exploration/exploitation (Lattimore & Szepesvári, 2020). Le second avantage est leur plasticité qui permet d’adapter ces algorithmes aux spécificités du problème traité (Bouneffouf & Féraud, 2024).


Le stage visera à intégrer ces spécificités dans la formalisation du problème de bandits et à proposer des solutions adaptées afin de rapprocher la théorie des besoins pratiques de l’entraînement moderne des LLMs.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Ingénierie de recherches en photonique f/h
Lannion
Stage
Orange
Offre similaire
Stage automatisation de tests wi-fi pour le système d'exploitation open-source prpl f/h
Lannion
Stage
Orange
Offre similaire
Stage intégration/tests automatisés du logiciel livebox à l'aide d'un agent ia f/h
Lannion
Stage
Orange
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange
Emploi Orange à Lannion
Emploi Lannion
Emploi Côtes-d'Armor
Emploi Bretagne
Orange Intérim
Intérim Orange à Lannion
Intérim Lannion
Intérim Côtes-d'Armor
Intérim Bretagne
Accueil > Emploi > Stage - Machine learning / Mathématiques appliquées F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder