Stage: annotation automatique de relations sémantiques par grands modèles de langage (llm)

Grenoble

Stage

Inria

Publiée le 16 novembre

Description de l'offre

Contexte et atouts du poste

Le ou la stagiaire travaillera au sein d’Inria Défense & Sécurité, créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et du ministère de l’Intérieur. Le stage se déroulera au sein du pôle Données, sous la direction de Pauline Soutrenon et de Lucie Bader (ingénieures TAL/NLP).

Le stage s’inscrit dans le cadre du projet CORALIA (CORpus, Annotation et LLM : Impacts et Ajustements), qui vise à comparer l’annotation humaine à celle d’une IA générative, et qui prolonge les travaux amorcés dans l'un des projets Inria Défense et Sécurité. Ce dernier a abouti à la constitution d’un corpus de données textuelles annotées manuellement d’après un guide d’annotation spécifiquement conçu pour ce projet. Ces données, issues de documents textuels produits par le journal Le Monde, concernent la guerre en Ukraine entre février et mars 2022. L’accumulation de documents textuels journalistiques en lien avec ce conflit offre l’opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent.

Les données comprennent à la fois des entités nommées et des relations sémantiques d’intérêt, et constituent une ressource rare et précieuse pour l’entraînement et l’évaluation de modèles d’apprentissage automatique. En effet, le développement de systèmes performants repose fortement sur des jeux de données annotées de haute qualité. Ces annotations, qui peuvent inclure des étiquettes de catégories, des entités nommées ou des relations syntaxiques, sont essentielles pour permettre aux modèles de capturer les subtilités du langage humain.

L’annotation manuelle est toutefois une tâche complexe, chronophage et coûteuse, et qui nécessite une expertise linguistique, une standardisation rigoureuse et des efforts considérables pour garantir la cohérence des annotations. Le manque de données annotées de qualité, surtout dans les domaines spécialisés comme la défense ou pour les langues peu dotées, constitue une problématique majeure dans le domaine du TAL. L’émergence des Grands Modèles de Langage (LLM), tels que GPT, LLaMA ou Mistral, offre aujourd’hui l’opportunité de compléter le travail des annotateurs humains grâce à des méthodes de prompt engineering adaptées.

Le projet CORALIA s’inscrit dans une démarche de continuité qui s’appuie à la fois :

1. sur notre participation au défi TextMine 2025 pour lequel nous avons mené des travaux d’augmentation de données avec un LLM afin d’optimiser les performances d’un modèle d’extraction de relations ;
2. et sur les travaux d’un stage réalisé en 2025 qui visait à explorer les capacités des LLM pour la génération de données synthétiques annotées (en particulier les entités nommées)

L’objectif du projet CORALIA est ainsi d’explorer l’utilité des LLM dans des scénarios d’annotation d’entités nommées et de relations sémantiques sur des textes spécialisés comportant un vocabulaire d’intérêt défense. L’idée est de comparer et d’évaluer l’apport des modèles plus récents sur différents corpus, afin d’évaluer la faisabilité et la robustesse des méthodes sur des styles et contenus variés.

Mission confiée

Le ou la stagiaire travaillera sur l’annotation automatique des relations sémantiques. La mission s’articulera en plusieurs étapes successives.

Dans un premier temps, il s’agira de se familiariser avec les données disponibles, le guide d’annotation des relations ainsi que les travaux déjà réalisés. Cette phase inclura également une exploration comparative des différents LLM afin d’identifier le(s) plus adapté(s) à la tâche.

Le cœur de la mission consistera ensuite à concevoir une stratégie d’annotation automatique : définition du ou des prompts, élaboration d’un processus garantissant la qualité et la cohérence des annotations, et mise en place d’une chaîne de traitement prenant en compte le traitement et le formatage des réponses générées par le modèle.

À partir des prompts conçus par le ou la stagiaire, une première campagne d’annotation automatique sera réalisée sur un sous-ensemble du corpus. Les résultats feront l’objet d’une évaluation comparative approfondie, en confrontant les annotations automatiques aux annotations manuelles existantes, afin de mettre en lumière les atouts et les limites du modèle retenu et de la stratégie utilisée.

Dans un second temps, le pipeline ainsi conçu sera appliqué à un corpus différent. L’objectif sera de mesurer la capacité de généralisation de l’approche et d’évaluer sa robustesse face à des données de nature et de style variés.

Principales activités

3. Analyser les besoins et se familiariser avec les données
4. Tester et sélectionner le LLM le plus pertinent ainsi que la méthode de prompt engineering la plus adaptée
5. Concevoir une stratégie d’annotation automatique
6. Mettre en place un pipeline dédié à l’annotation automatique des relations
7. Lancer une campagne d’annotation automatique sur un sous-ensemble du corpus
8. Évaluer les résultats obtenus en les confrontant aux annotations manuelles existantes
9. Identifier les atouts et limites du LLM et de la stratégie
10. Appliquer le pipeline à un corpus différent et évaluer la capacité de généralisation de la méthode
11. Documenter etprésenter les résultats

Compétences

Compétences requises

12. Maîtrise du français écrit et parlé
13. Connaissances solides en TAL et en linguistique
14. Bonnes compétences en Python
15. Connaissance des grands modèles de langage (LLM) et de leur mise en œuvre (idéalement via des plateformes comme Ollama)
16. Capacité à concevoir et évaluer des prompts, et à mettre en place une chaîne de traitement automatisée

Compétences facultatives

17. Expérience avec des outils d’annotation (Label Studio, Doccano)
18. Expérience avec le logiciel de gestion de version Git
19. Connaissance de la plateforme Ollama
20. Connaissance du langage de programmation Bash et du système d’exploitation Linux

Avantages

21. 15 jours de congés pour 6 mois de stage
22. Télétravail possible après 2 mois d’ancienneté (jusqu’à deux jours par semaine)
23. Restauration subventionnée
24. Transports publics remboursés partiellement
25. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
26. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d’Inria)

Rémunération

4.35€ /h

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Stage: amélioration de la qualité des annotations par détection et correction d’erreurs à l’aide de grands modèles de langage (llm)

Grenoble

Stage

Inria

Qualité

Offre similaire

Stage m2 recherche: optimisation de paramètres pour la modélisation d'inondations

Grenoble

Stage

Inria