Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage: annotation automatique de relations sémantiques par grands modèles de langage (llm)

Grenoble
Stage
Inria
Publiée le Il y a 21 h
Description de l'offre

Contexte et atouts du poste

Le ou la stagiaire travaillera au sein d’Inria Défense & Sécurité, créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et du ministère de l’Intérieur. Le stage se déroulera au sein du pôle Données, sous la direction de Pauline Soutrenon et de Lucie Bader (ingénieures TAL/NLP).

Le stage s’inscrit dans le cadre du projet CORALIA (CORpus, Annotation et LLM : Impacts et Ajustements), qui vise à comparer l’annotation humaine à celle d’une IA générative, et qui prolonge les travaux amorcés dans l'un des projets Inria Défense et Sécurité. Ce dernier a abouti à la constitution d’un corpus de données textuelles annotées manuellement d’après un guide d’annotation spécifiquement conçu pour ce projet. Ces données, issues de documents textuels produits par le journal Le Monde, concernent la guerre en Ukraine entre février et mars 2022. L’accumulation de documents textuels journalistiques en lien avec ce conflit offre l’opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent.

Les données comprennent à la fois des entités nommées et des relations sémantiques d’intérêt, et constituent une ressource rare et précieuse pour l’entraînement et l’évaluation de modèles d’apprentissage automatique. En effet, le développement de systèmes performants repose fortement sur des jeux de données annotées de haute qualité. Ces annotations, qui peuvent inclure des étiquettes de catégories, des entités nommées ou des relations syntaxiques, sont essentielles pour permettre aux modèles de capturer les subtilités du langage humain.

L’annotation manuelle est toutefois une tâche complexe, chronophage et coûteuse, et qui nécessite une expertise linguistique, une standardisation rigoureuse et des efforts considérables pour garantir la cohérence des annotations. Le manque de données annotées de qualité, surtout dans les domaines spécialisés comme la défense ou pour les langues peu dotées, constitue une problématique majeure dans le domaine du TAL. L’émergence des Grands Modèles de Langage (LLM), tels que GPT, LLaMA ou Mistral, offre aujourd’hui l’opportunité de compléter le travail des annotateurs humains grâce à des méthodes de prompt engineering adaptées.

Le projet CORALIA s’inscrit dans une démarche de continuité qui s’appuie à la fois :

1. sur notre participation au défi TextMine 2025 pour lequel nous avons mené des travaux d’augmentation de données avec un LLM afin d’optimiser les performances d’un modèle d’extraction de relations ;
2. et sur les travaux d’un stage réalisé en 2025 qui visait à explorer les capacités des LLM pour la génération de données synthétiques annotées (en particulier les entités nommées)

L’objectif du projet CORALIA est ainsi d’explorer l’utilité des LLM dans des scénarios d’annotation d’entités nommées et de relations sémantiques sur des textes spécialisés comportant un vocabulaire d’intérêt défense. L’idée est de comparer et d’évaluer l’apport des modèles plus récents sur différents corpus, afin d’évaluer la faisabilité et la robustesse des méthodes sur des styles et contenus variés.

Mission confiée

Le ou la stagiaire travaillera sur l’annotation automatique des relations sémantiques. La mission s’articulera en plusieurs étapes successives.

Dans un premier temps, il s’agira de se familiariser avec les données disponibles, le guide d’annotation des relations ainsi que les travaux déjà réalisés. Cette phase inclura également une exploration comparative des différents LLM afin d’identifier le(s) plus adapté(s) à la tâche.

Le cœur de la mission consistera ensuite à concevoir une stratégie d’annotation automatique : définition du ou des prompts, élaboration d’un processus garantissant la qualité et la cohérence des annotations, et mise en place d’une chaîne de traitement prenant en compte le traitement et le formatage des réponses générées par le modèle.

À partir des prompts conçus par le ou la stagiaire, une première campagne d’annotation automatique sera réalisée sur un sous-ensemble du corpus. Les résultats feront l’objet d’une évaluation comparative approfondie, en confrontant les annotations automatiques aux annotations manuelles existantes, afin de mettre en lumière les atouts et les limites du modèle retenu et de la stratégie utilisée.

Dans un second temps, le pipeline ainsi conçu sera appliqué à un corpus différent. L’objectif sera de mesurer la capacité de généralisation de l’approche et d’évaluer sa robustesse face à des données de nature et de style variés.

Principales activités

3. Analyser les besoins et se familiariser avec les données
4. Tester et sélectionner le LLM le plus pertinent ainsi que la méthode de prompt engineering la plus adaptée
5. Concevoir une stratégie d’annotation automatique
6. Mettre en place un pipeline dédié à l’annotation automatique des relations
7. Lancer une campagne d’annotation automatique sur un sous-ensemble du corpus
8. Évaluer les résultats obtenus en les confrontant aux annotations manuelles existantes
9. Identifier les atouts et limites du LLM et de la stratégie
10. Appliquer le pipeline à un corpus différent et évaluer la capacité de généralisation de la méthode
11. Documenter etprésenter les résultats

Compétences

Compétences requises

12. Maîtrise du français écrit et parlé
13. Connaissances solides en TAL et en linguistique
14. Bonnes compétences en Python
15. Connaissance des grands modèles de langage (LLM) et de leur mise en œuvre (idéalement via des plateformes comme Ollama)
16. Capacité à concevoir et évaluer des prompts, et à mettre en place une chaîne de traitement automatisée

Compétences facultatives

17. Expérience avec des outils d’annotation (Label Studio, Doccano)
18. Expérience avec le logiciel de gestion de version Git
19. Connaissance de la plateforme Ollama
20. Connaissance du langage de programmation Bash et du système d’exploitation Linux

Avantages

21. 15 jours de congés pour 6 mois de stage
22. Télétravail possible après 2 mois d’ancienneté (jusqu’à deux jours par semaine)
23. Restauration subventionnée
24. Transports publics remboursés partiellement
25. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
26. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d’Inria)

Rémunération

4.35€ /h

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage gratifié - création d'une plateforme de capture 4d mobile basée raspberry pi
Montbonnot-Saint-Martin
Stage
Inria
Offre similaire
Sujet de stage master: évaluation et adaptation de modèles de langage multimodaux pour la robotique sociale
Montbonnot-Saint-Martin
Stage
Inria
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Inria
Emploi Inria à Grenoble
Emploi Grenoble
Emploi Isère
Emploi Rhône-Alpes
Intérim Grenoble
Intérim Isère
Intérim Rhône-Alpes
Accueil > Emploi > Stage: Annotation automatique de relations sémantiques par Grands Modèles de Langage (LLM)

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder