Il s'agit d'une mission en contrat (freelance) d'une durée initiale de 6 mois, avec possibilité de prolongation.
Localisation : basé(e) à Paris de préférence ; à défaut, télétravail en Europe pour les candidat(e)s particulièrement qualifié(e)s.
20 heures par semaine en moyenne.
Nous développons et évaluons des modèles de langage de grande taille (LLM) de pointe et recherchons des ingénieurs logiciels expérimentés pour rejoindre notre équipe d'évaluation et d'annotation. Ce rôle se situe à l'intersection de l'ingénierie logicielle appliquée, de l'évaluation de modèles et de l'IA appliquée. Il est central pour améliorer la fiabilité des modèles, la qualité du raisonnement et la qualité du code généré.
Vous concevrez des tâches de programmation exigeantes, évaluerez les sorties des modèles selon des benchmarks rigoureux, identifierez les modes d'échec et contribuerez aux workflows d'apprentissage par renforcement et d'amélioration des modèles.
Il ne s'agit pas d'un poste junior en annotation. Nous recherchons des profils expérimentés, avec une pratique approfondie du développement, capables de raisonner à la fois comme ingénieur et comme évaluateur.
Responsabilités
Concevoir des prompts de programmation de haute qualité ainsi que des réponses de référence (type benchmark, par exemple similaires à SWE-Bench)
Évaluer les sorties des LLM pour des tâches de génération de code, refactorisation, débogage et implémentation
Identifier et documenter les défaillances des modèles, cas limites et lacunes de raisonnement
Réaliser des évaluations comparatives entre des LLM privés (basés sur Mistral) et des modèles externes de référence
Mettre en place ou configurer des environnements de développement pour soutenir l'évaluation et l'apprentissage par renforcement
(RL)Suivre des directives d'annotation et d'évaluation détaillées avec un haut niveau de coherence
Profil recherché:
Minimum 10 ans d'expérience professionnelle en développement logiciel
Solides compétences en Python (obligatoire)
Maîtrise d'au moins un autre langage de programmation (atout)
Minimum 1 an d'expérience en annotation de code et/ou évaluation de LLM (même à temps partiel) pour un laboratoire d'IA de premier plan ou une entreprise d'infrastructure
IA Expérience préalable en revue de code appréciée
Capacité démontrée à appliquer des critères d'évaluation structurés et à rédiger des retours techniques clairs
Maîtrise de l'anglais à l'écrit et àl'oral
Expérience en management technique ou mentorat constitue un atout significatif
Pourquoi ce poste:
Travailler directement avec des LLM de pointe
Appliquer un jugement d'ingénierie concret à l'évaluation et à l'amélioration desmodèles
Travail technique à fort impact au sein d'une équipe senior et spécialisée
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.