Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Ingénieur(e) en traitement automatique des langues: corpus et modèles pour le renseignement

Grenoble
CDD
Inria
Publiée le 15 janvier
Description de l'offre

Contexte et atouts du poste

Le projet CapiTAL (extraction d’information et capitalisation automatique des connaissances pour le renseignement) vise à développer de nouvelles méthodes et ressources pour l’extraction automatique d’information à destination du renseignement, dans un contexte marqué par la spécificité du domaine défense (jargon spécialisé, phénomènes rares, données sensibles et faiblement annotées).


D’une durée de trois ans, du 1er janvier 2026 jusqu’au 31 décembre 2028, le projet est structuré autour de deux axes complémentaires :


Axe 1 : optimisation d’algorithmes d’extraction d’information, en particulier
l’extraction d’entités, avec des approches frugales et robustes adaptées à un domaine
pauvre en données.


Axe 2 : constitution de corpus textuels annotés représentatifs des besoins du renseignement, incluant de nouvelles conventions d’annotation couvrant des phénomènes spécifiques au domaine de la défense.


Les résultats attendus incluent des méthodologies innovantes, des modèles d’extraction d’information mieux alignés avec les besoins défense, ainsi que des ressources réutilisables (corpus annotés, codes sources, modèles entraînés).


Dans ce cadre, l’ingénieur(e) recruté(e) interviendra principalement sur l’axe 2, dont il/elle sera le ou la pilote, en collaboration avec un(e) post-doctorant(e) en charge de l’axe 1 et sous l’encadrement d’une ingénieure expérimentée, responsable du projet.


L’ingénieur(e) travaillera au sein d’Inria Défense & Sécurité créé pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et du ministère de l’Intérieur.


Il/elle sera rattaché(e) au pôle Données, chargé de concevoir, entraîner et valoriser des ressources linguistiques, dans une démarche collaborative entre équipes de recherche Inria, ministères et partenaires industriels.

Mission confiée

L’ingénieur(e) aura pour mission principale de concevoir, produire et améliorer la qualité de corpus annotés pour l’extraction d’information dans le domaine du renseignement, en français et à partir de données représentatives (opérationnelles et/ou journalistiques).


Il/elle contribuera à la définition et à l’application de conventions d’annotation adaptées aux besoins défense, à l’annotation semi-automatique de données, et au ré-entraînement et à l’évaluation de modèles d’extraction d’information à partir de ces nouvelles ressources.

Principales activités

Les activités s’inscrivent principalement dans l’axe 2 du projet et comprennent notamment :

1. Constitution et enrichissement de corpus textuels Collecte de données journalistiques (scraping de sources en ligne) et/ou exploitation de données opérationnelles fournies. Préparation, nettoyage et structuration des données textuelles.
2. Annotation d’entités nommées Extension de corpus existants via des annotations semi-automatiques à l’aide de modèles d’extraction d’entités. Mise en place de post-traitements pour résoudre les divergences de prédiction et améliorer la qualité des annotations. Réalisation d’analyses d’erreurs. Contribution à l’annotation manuelle de sous-ensembles de données destinés à l’évaluation.
3. Annotations structurées avancées
Ajout de couches d’annotation plus complexes : désambiguïsation d’entités, coréférences, extraction et classification de relations, slot filling, événements réifiés.
4. Ré-entraînement et évaluation des modèles
Collaboration avec le/la post-doctorant(e) sur le ré-entraînement et l’évaluation des modèles à mesure que de nouveaux corpus annotés deviennent disponibles. Evaluation des modèles et analyse des erreurs afin d’identifier les limites.
5. Documentation et valorisation des ressources produites
Documentation des corpus, des conventions d’annotation et des procédures
mises en place.

Compétences

Nous recherchons un(e) ingénieur(e) avec les compétences suivantes :

6. Maîtrise du français écrit et parlé (données en français).
7. Bonnes bases en programmation, idéalement en Python et notamment avec les bibliothèques telles que spaCy et NLTK.
8. Compétences solides en linguistique et TAL (corpus, annotation, extraction d’entités, évaluation).
9. Pratique de modèles de langage (notamment BERT) et des frameworks associés (PyTorch, TensorFlow, Hugging Face Transformers).
10. Expérience avec des outils d’annotation (Label Studio, Doccano, INCEpTION).
11. Connaissance des notions d’apprentissage automatique et de deep learning appliquées au texte.
12. Connaissance du logiciel de gestion de version Git.

Avantages

13. Restauration subventionnée
14. Transports publics remboursés partiellement
15. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
16. Possibilité de télétravail (après 3 mois d'ancienneté) et aménagement du temps de travail
17. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
18. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Ingénieur développeur système et réseaux slices-fr (h/f)
Grenoble
CDD
Inria
Ingénieur développeur
Offre similaire
Poste ingénieur - création d'une plateforme de capture 4d mobile basée raspberry pi
Montbonnot-Saint-Martin
CDD
Inria
Offre similaire
Post-doctorant(e) en traitement automatique des langues: extraction d’information frugale pour le renseignement
Grenoble
CDD
Inria
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Inria
Emploi Inria à Grenoble
Emploi Grenoble
Emploi Isère
Emploi Rhône-Alpes
Intérim Grenoble
Intérim Isère
Intérim Rhône-Alpes
Accueil > Emploi > Ingénieur(e) en Traitement Automatique des Langues: corpus et modèles pour le renseignement

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2026 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder