Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage : stage - exploration des modèles de récompense pour améliorer le comportement des llms f/h

Lannion
Stage
Orange
Publiée le 7 décembre
Description de l'offre

Votre rôle Ce stage se concentrera sur l’entrainement et l’évaluation des modèles de récompense utilisés pour améliorer les modèles de langue (l’alignement avec des préférences humaines). Nous avons implémenté un modèle de récompense, c'est à dire un modèle de régression, qui utilise l’approche d'adaptation de domaine par inversion du gradient [Ganin and Lempitsky 2015]. Cette approche est utilisée lorsqu’il y a très peu des données cibles disponibles et nous utilisons des données similaires qui proviennent des autres domaines. L’adaptation de domaine par inversion du gradient fait que le modèle est capable de généraliser entre les différents domaines sans être biaisé par le domaine qui a le plus de données. Les étapes à mener pendant ce stage sont les suivantes : · Se familiariser avec l’adaptation de domaine par inversion du gradient et comprendre le modèle de régression que nous avons déjà implémenté. · Sélectionner un jeu de données et un critère d’évaluation (par exemple la fiabilité) pour évaluer les modèles de régression. · Comparer la performance du modèle d’adaptation avec les modèles de régression classique. · Se familiariser avec l’apprentissage par renforcement et notamment la bibliothèque python TRL de Huggingface pour améliorer les modèles de langue en utilisant le renforcement. · Evaluer le modèle de récompense adapté par rapport aux modèles de régression classique dans TRL afin de déterminer s'il y a un gain observé. Sous la responsabilité de votre maître de stage vous collaborez aux activités de Recherche de l'équipe NADIA axées sur l’amélioration des modèles de langue (l’alignement). Vous interagissez avec différents membres de l'équipe (chercheurs, doctorant, data-scientists, développeurs). Ce sujet de stage est en lien avec un thèse doctorale. [Ganin and Lempitsky 2015]. Unsupervised domain adaptation by backpropagation. ICML 2015. votre profil Dans le cadre de votre formation bac5 (école ingénieur ou master 2 informatique ou statistiques), vous êtes à la recherche d'un stage de 6 mois. · Vous avez des connaissances en statistiques et informatique. · Des connaissances en Python sont impératives. · Des connaissances en apprentissage statistique sont requises. · Vous êtes familiarisé avec PyTorch · Vous connaissez les Transformers et vous êtes familiarisé avec le code OpenSource de Huggingface. · Vous avez des connaissances sur les modèles de langue génératifs · Vous pouvez lire les articles académiques en anglais. entité L’équipe NADIA « NAtural DIAlogue interaction » (NADIA) travaille - au sein de la direction DATA-IA dans la division Innovation. C’est une équipe pluridisciplinaire composée d’une vingtaine de chercheurs, data-scientists, ingénieurs logiciels, doctorants et apprentis. Nous sommes spécialisés dans le traitement et l'analyse du dialogue, avec un focus sur le développement de solutions innovantes pour améliorer l'interaction homme-machine. contrat Stage Durée : 6 mois Date souhaitée de prise de poste : 02 févr. 2026 Niveau d’études préparé pendant le stage Indemnité brute selon école Bac5 de 1621 € à 2162 € / mois Seules vos compétences comptent Quel que soit votre âge, genre, origine, religion, orientation sexuelle, neuroatypie, handicap ou apparence, nous encourageons la diversité au sein de nos équipes car c’est une force pour le collectif et un vecteur d’innovation Orange est une entreprise handi-accueillante : n'hésitez pas à nous faire part de vos besoins spécifiques.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage : exploration de solutions techniques pour le traitement et l'analyse du dialogue
Lannion
Stage
Orange
Offre similaire
Stage : stage- analyse et prédiction de la qualité wifi par intelligence artificielle f/h
Lannion
Stage
Orange
Qualité
Offre similaire
Stage : stagiaire designer d'interface web f/h
Lannion
Stage
Orange
Design
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange
Emploi Orange à Lannion
Emploi Lannion
Emploi Côtes-d'Armor
Emploi Bretagne
Orange Intérim
Intérim Orange à Lannion
Intérim Lannion
Intérim Côtes-d'Armor
Intérim Bretagne
Accueil > Emploi > Stage : Stage - Exploration des modèles de récompense pour améliorer le comportement des LLMs F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder