Contexte et atouts du poste
Dans le cadre du projet BPI Scribe, en partenariat avec les sociétés LightOn, Aleia le CNRS/Idris, l’ objectif est d'étendre et de développer des jeux de resources nécessaires au post training de modèles de langue spécialisés.
Mission confiée
Contexte :
L’un des aspects cruciaux des LLMs est leurs capacités à analyser des documents complexes tels que des documents financiers complexes, prospectus d’émission ou rapports annuels, dont l’analyse pose des difficultés considérables aux modèles de langage (LLMs). Ces textes sont souvent longs, très structurés, et contiennent des informations interdépendantes dispersées sur des dizaines, voire des centaines de pages. Un prospectus, par exemple, mêle sections narratives (stratégie, risques, gouvernance) et annexes techniques riches en tableaux et en notes explicatives. Pour en extraire du sens, il faut relier des éléments situés à des endroits éloignés — un chiffre dans un tableau de flux de trésorerie n’est interprétable qu’en fonction d’hypothèses comptables mentionnées ailleurs, ou de définitions juridiques données en amont. Les LLMs peinent encore à effectuer ce type de raisonnement transversal, limités par la taille de leur contexte et leur difficulté à interpréter la logique des renvois internes, des formules et des structures tabulaires. Les tableaux posent un problème particulièrement aigu : ils encodent l’information de manière implicite (hiérarchies d’en-têtes, regroupements, alignements) que les modèles textuels restituent mal. Pour explorer ces limites, nous avons déjà créé un jeu de données multimodal associant texte et tableaux chiffrés, sous forme de questions-réponses (Q&A), afin d’évaluer la capacité des modèles à naviguer entre différents types de contenu et à relier des informations dispersées.
Dans un premier temps, nous prévoyons désormais de l’étendre avec des questions mobilisant de longs contextes, simulant des raisonnements multi-sections proches des usages réels, et dans un second temps, transformer ce jeu de données Q&A en corpus "Instruct" pour le français, une ressource encore largement absente dans l’écosystème actuel. Cette démarche vise à combler un double manque : celui de données francophones adaptées à l’entraînement d’instructions complexes, et celui de benchmarks capables de mesurer la compréhension intégrée du texte et du tableau dans les documents financiers.
Supervision
Le ou la personne recrutée sera sous la responsabilité scientifique de Djamé Seddah.
Principales activités
Activité de recherche et de developpement : état de l'art, analyse, développement, etc.
Avantages
1. Restauration subventionnée
2. Transports publics remboursés partiellement
3. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
4. Possibilité de télétravail et aménagement du temps de travail
5. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
6. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
7. Accès à la formation professionnelle
8. Sécurité sociale
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.