Stage : stage - exploration des modèles de récompense pour améliorer le comportement des llms f/h

Lannion

Stage

Orange

Publiée le 7 décembre

Description de l'offre

Votre rôle Ce stage se concentrera sur l’entrainement et l’évaluation des modèles de récompense utilisés pour améliorer les modèles de langue (l’alignement avec des préférences humaines). Nous avons implémenté un modèle de récompense, c'est à dire un modèle de régression, qui utilise l’approche d'adaptation de domaine par inversion du gradient [Ganin and Lempitsky 2015]. Cette approche est utilisée lorsqu’il y a très peu des données cibles disponibles et nous utilisons des données similaires qui proviennent des autres domaines. L’adaptation de domaine par inversion du gradient fait que le modèle est capable de généraliser entre les différents domaines sans être biaisé par le domaine qui a le plus de données. Les étapes à mener pendant ce stage sont les suivantes : · Se familiariser avec l’adaptation de domaine par inversion du gradient et comprendre le modèle de régression que nous avons déjà implémenté. · Sélectionner un jeu de données et un critère d’évaluation (par exemple la fiabilité) pour évaluer les modèles de régression. · Comparer la performance du modèle d’adaptation avec les modèles de régression classique. · Se familiariser avec l’apprentissage par renforcement et notamment la bibliothèque python TRL de Huggingface pour améliorer les modèles de langue en utilisant le renforcement. · Evaluer le modèle de récompense adapté par rapport aux modèles de régression classique dans TRL afin de déterminer s'il y a un gain observé. Sous la responsabilité de votre maître de stage vous collaborez aux activités de Recherche de l'équipe NADIA axées sur l’amélioration des modèles de langue (l’alignement). Vous interagissez avec différents membres de l'équipe (chercheurs, doctorant, data-scientists, développeurs). Ce sujet de stage est en lien avec un thèse doctorale. [Ganin and Lempitsky 2015]. Unsupervised domain adaptation by backpropagation. ICML 2015. votre profil Dans le cadre de votre formation bac5 (école ingénieur ou master 2 informatique ou statistiques), vous êtes à la recherche d'un stage de 6 mois. · Vous avez des connaissances en statistiques et informatique. · Des connaissances en Python sont impératives. · Des connaissances en apprentissage statistique sont requises. · Vous êtes familiarisé avec PyTorch · Vous connaissez les Transformers et vous êtes familiarisé avec le code OpenSource de Huggingface. · Vous avez des connaissances sur les modèles de langue génératifs · Vous pouvez lire les articles académiques en anglais. entité L’équipe NADIA « NAtural DIAlogue interaction » (NADIA) travaille - au sein de la direction DATA-IA dans la division Innovation. C’est une équipe pluridisciplinaire composée d’une vingtaine de chercheurs, data-scientists, ingénieurs logiciels, doctorants et apprentis. Nous sommes spécialisés dans le traitement et l'analyse du dialogue, avec un focus sur le développement de solutions innovantes pour améliorer l'interaction homme-machine. contrat Stage Durée : 6 mois Date souhaitée de prise de poste : 02 févr. 2026 Niveau d’études préparé pendant le stage Indemnité brute selon école Bac5 de 1621 € à 2162 € / mois Seules vos compétences comptent Quel que soit votre âge, genre, origine, religion, orientation sexuelle, neuroatypie, handicap ou apparence, nous encourageons la diversité au sein de nos équipes car c’est une force pour le collectif et un vecteur d’innovation Orange est une entreprise handi-accueillante : n'hésitez pas à nous faire part de vos besoins spécifiques.

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Stage : exploration de solutions techniques pour le traitement et l'analyse du dialogue

Lannion

Stage

Orange

Offre similaire

Stage : stage- analyse et prédiction de la qualité wifi par intelligence artificielle f/h

Lannion

Stage

Orange

Qualité

Offre similaire

Stage : stagiaire designer d'interface web f/h

Lannion

Stage

Orange

Design

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.