Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage m2 : apprentissage par renforcement observationnel

Castanet-Tolosan
Stage
Alternance
4,35 € de l'heure
Publiée le 15 octobre
Description de l'offre

Retour à la liste des résultats


Présentation INRAE

L’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement (INRAE) est un établissement public de recherche rassemblant une communauté de travail de 12 000 personnes, avec 272 unités de recherche, de service et expérimentales, implantées dans 18 centres sur toute la France.INRAE se positionne parmi les tout premiers leaders mondiaux en sciences agricoles et alimentaires, en sciences du végétal et de l’animal. Ses recherches visent à construire des solutions pour des agricultures multi-performantes, une alimentation de qualité et une gestion durable des ressources et des écosystèmes.

Le stage se déroulera au sein de l'unité MIAT (Mathématiques et Informatique Appliquées de Toulouse).

Vous serez encadré par Meritxell Vinyals, Léo Saulières et Régis Sabbadin (MIAT, INRAE, Toulouse), dont les sujets de recherche gravitent autour de l’apprentissage par renforcement.


Environnement de travail, missions et activités

Nous considérons l’apprentissage comme l’amélioration des performances à travers l’expérience. Les expériences directes sont celles que l’apprenant acquiert par ses propres interactions avec l’environnement. Les expériences indirectes, quant `a elles, proviennent de l’observation d’autres individus interagissant dans ce même environnement.
D’un côté, l’apprentissage par observation (AO) [BRH11] – apprendre en observant le comportement d’autres agents dans le même environnement – permet aux humains et aux animaux de découvrir des comportements utiles qui seraient difficiles à acquérir par l’exploration individuelle, et de s’adapter rapidement à de nouvelles circonstances. De l’autre, l’apprentissage par renforcement (AR) [SB18] est un paradigme dans lequel un agent apprend à interagir avec un environnement afin de maximiser un signal de récompense en élaborant une politique de décision. La combinaison de ces deux approches, appelée apprentissage par renforcement observationnel (ARO), constitue un champ de recherche ´émergeant [BPMP17, NELJ21]. L’ARO vise à apprendre des politiques d’AR en exploitant les observations des actions d’autres agents dans l’environnement. Cependant, ce domaine manque encore de benchmarks standardisés permettant de tester et de comparer les algorithmes existants.
L’objectif principal de ce stage est donc de concevoir un benchmark pour l’apprentissage par renforcement observationnel. Ce benchmark sera développé en Python avec l’API Gymnasium (https://gymnasium.farama.org), dédiée à la création d’environnements de simulation pour le développement et l’évaluation d’algorithmes d’apprentissage par renforcement. Un second objectif consistera `a implémenter et évaluer des stratégies simples (heuristiques) ainsi que des algorithmes existants dans ce benchmark.

Objectifs du stage :
— Réaliser une revue de la littérature sur l’apprentissage par renforcement observationnel.
— Concevoir et implémenter un benchmark dédié`a l’ARO en utilisant l’API Gymnasium.
— Implémenter et évaluer des stratégies simples (heuristiques) et des algorithmes d’ARO existants dans ce benchmark.

Références :

[BPMP17] Diana Borsa, Bilal Piot, R´emi Munos, and Olivier Pietquin. Observational learning by reinforcement learning. arXiv preprint arXiv :1706.06617, 2017.

[BRH11] Robert Boyd, Peter J Richerson, and Joseph Henrich. The cultural niche : Why social learning is essential for human adaptation. Proceedings of the National Academy of Sciences, 108(supplement 2) :10918–10925, 2011.

[NELJ21] Kamal K Ndousse, Douglas Eck, Sergey Levine, and Natasha Jaques. Emergent social learning via multi-agent reinforcement learning. In International conference on machine learning, pages 7991–8004. PMLR, 2021.

[SB18] Richard S. Sutton and Andrew G. Barto. Reinforcement Learning : An Introduction. The MIT Press, second edition, 2018.


Formations et compétences recherchées

Licence/Master (Bac+3/5)

— Connaissances en apprentissage par renforcement.
— Expérience en programmation Python.
— Autonomie et capacité de travail en équipe, de rédaction, de synthèse.
— Des compétences en développement collaboratif (utilisation de GIT, tests unitaires, documentation...) sont un plus, même si elles pourront être acquises pendant le stage.


Votre qualité de vie à INRAE

En rejoignant INRAE, vous bénéficiez(selon le type de contrat et sa durée) :

- jusqu'à30 jours de congés+ 15 RTTpar an (pour un temps plein)
- d'un soutienà la parentalité : CESUgarded'enfants, prestations pour les loisirs ;
- de dispositifs de développement des compétences: formation, conseilen orientation professionnelle ;
- d'un accompagnementsocial : conseil et écoute, aides et prêts sociaux ;
- de prestationsvacancesetloisirs :chèque-vacances,hébergements à tarif préférentiel ;
- d'activitéssportivesetculturelles ;
- d'unerestaurationcollective.


Modalités pour postuler

J'envoie mon CV et ma lettre de motivation

Les personnes accueillies à INRAE, établissement public de recherche, sont soumises aux dispositions du Code de la fonction publiquenotamment en ce qui concerne l’obligation de neutralité et le respect du principe de laïcité. A ce titre, dans l’exercice de leurs fonctions, qu’elles soient ou non au contact du public, elles ne doivent pas manifester leurs convictions, par leur comportement ou leur tenue, qu’elles soient religieuses, philosophiques ou politiques.> En savoir plus : site fonction publique.gouv.fr

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Castanet-Tolosan
Emploi Haute-Garonne
Emploi Midi-Pyrénées
Intérim Castanet-Tolosan
Intérim Haute-Garonne
Intérim Midi-Pyrénées
Accueil > Emploi > Stage M2 : Apprentissage par renforcement observationnel

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder