Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage - data scientist spécialisé en apprentissage par renforcement (rl) f/h/n

Paris
Stage
Alternance
Octo-Technology
Data Scientist
Publiée le 25 août
Description de l'offre

Description du poste


Le sujet du stage : Optimisation et industrialisation des agents (LLMs) en entreprise

Comment améliorer l'efficacité et la performance des LLMs en utilisant l'apprentissage par renforcement (RL) ? En s'inspirant d'innovations récentes comme celles de Kimi K2, nous explorerons différentes stratégies d'optimisation pour créer des solutions industrialisables et adaptables.

Le Why du stage :

Le marché optimise les workflows d'agents, mais les vrais gains viennent de l'optimisation directe via RL. Récemment : des modèles 1.5B surpassent o1-preview avec $42 de coût d'entraînement, un modèle 7B bat un modèle de 671B sur des tâches spécialisées (Sakana AI, 2025).

Nous recherchons un profil motivé pour apprendre à industrialiser ces techniques en quantifiant leur robustesse multi-domaines.

Les missions du stage :

* Recherche et approfondissement de la littérature
* Développer et valider expérimentalement de nouveaux algorithmes d'optimisation pour agents LLMs.
* Entrainer des modèles pour des métiers spécialisés.
* Écriture d’un article sur la méthodologie développée durant le stage.

Le déroulement du stage :

Étape 1 : Découverte et cadrage

* Faire de la veille bibliographique.
* Choisir les algorithmes à explorer.
* Définir la roadmap avec les objectifs à réaliser.

Étape 2 : Exploration

* Exploration des possibilités existantes de package proposant d'implémenter ce genre de solution.

Étape 3 : Contribution

* Contribution à l’outil OpenSource répondant aux besoins.

Étape 4 : Partage

* Partage aux autres Octos pendant et à la fin du stage, rédaction d’un article.

Livrable : Stack technique : Python, Git


Qualifications


OCTO Wanted

* Vous préparez un BAC+5 et vous êtes à la recherche d'un stage de fin d'études.
* Vous avez une appétence pour les sujets de Data Science et pour l’exploration de l’état de l’art.
* Vous savez expliquer comme marche un modèle complexe et êtes intéressé par le Reinforcement Learning.
* Vous souhaitez approfondir vos compétences en participant à des sujets open-source.
* Vous êtes curieux, ambitieux et autonome.


Informations supplémentaires


OCTO Rewards

Et parce que nous savons qu’un stage n’est pas “juste” un stage, on vous partage aussi quelques petits + qui font notre différence :

* 6 participations, 6 podiums au palmarès « Great Place To Work », le bien-être et la progression des Octos est vraiment au cœur de nos préoccupations et nous venons de renouveler notre certification pour la 7e fois cette année !

* “There is always a better way” : nous encourageons et soutenons l’innovation par la R&D. Au-delà d’une direction Scientifique dédiée, nous valorisons le temps hors mission pour partager ses connaissances : blog OCTO, talks, meet-up, livre blanc, BBL… en bref de l’open source alimenté par tous les Octos ;

* Parce que ce ne sont pas que des mots, nous marquons au quotidien notre engagement en matière de numérique responsable : depuis 2021 OCTO est Certifié BCorp. Nous formons les Octos et nos clients à la fresque du climat et œuvrons pour la sobriété numérique en interne et auprès de nos clients ;

* Le management est un point central de notre culture. Les Octos tuteurs sont formés pour vous accompagner dans le développement de vos compétences ;

* Parce qu’on n’a jamais fini d’apprendre, vous pourrez tirer parti de nos formations, apprendre avec des OCTOs plus expérimentés, et faire parti d'un collectif de passionnés !

* Signataire, en 2023, de la charte de la diversité et de l'accord Handicap, et depuis 2022, de la Charte de l’Autre Cercle concernant l’inclusion des personnes LGBTQI+ en entreprise.

Sans oublier les fondamentaux :

* Matériel au choix : ordinateur (PC ou Mac) ;

* Télétravail ;

* Et bien sûr : carte Swile, absences autorisées payées, CSE

OCTO priority

Collaborer avec des personnes talentueuses issues de différents horizons. Aussi, ce que nous cherchons avant tout, ce sont des personnalités qui enrichiront OCTO.

En respectant l'égalité des chances, les candidatures sont examinées sans aucun préjugé quant à l'âge, l'ethnie, l'identité de genre, l’expression de genre, le handicap, la nationalité, la religion ou l'orientation sexuelle.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage data scientist h/f
Palaiseau
CDI
Stage
Socotec
Data Scientist
Offre similaire
Alternance data analyst - h/f - clichy (f/h)
Clichy
Stage
Alternance
iscod alternance
Data Scientist
Offre similaire
Alternance data analyst - puteaux (f/h)
Puteaux
Stage
Alternance
iscod alternance
Data Scientist
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Informatique à Paris
Emploi Paris
Emploi Paris
Emploi Ile-de-France
Intérim Informatique à Paris
Intérim Paris
Intérim Paris
Intérim Ile-de-France
Accueil > Emploi > Emploi Informatique > Emploi Data Scientist > Emploi Data Scientist à Paris > Stage - Data Scientist spécialisé en apprentissage par renforcement (RL) F/H/N

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder