Votre rôle
Sujet du stage : Analyse de la structure de documents complexes pour leur traitement par des LLMs
Avec l’émergence des Large Language Models et des capacités de raisonnement induites par les frameworks d’IA agentique, les cas d’usage impliquant des documents complexes et des documents visuellement riches (en anglais visually rich documents) se développent au sein des entreprises. La simple extraction du texte contenu dans ces documents est limitante et il est bien souvent essentiel d’en extraire la structure et l’ensemble des informations qu’ils contiennent au-delà du texte (tableaux, graphiques, etc..). Cette analyse est fondamentale pour que ces documents puissent être exploités par des systèmes en aval.
Certains documents, au-delà de leur structure intrinsèque complexe, présentent également la propriété d’évoluer dans le temps (documents de régulation, de spécification technique, contrats avec avenants, …) et il est important de pouvoir comparer efficacement les différentes versions d’un même document.
L'objectif du stage sera de mettre en place un système permettant d'analyser et de comparer de manière fine des documents qui peuvent être "complexes" du fait de leur mise en page, leur typographie ou encore la présence de tableaux ou d'illustrations. Vous serez amené à explorer des problématiques se rapportant à la détection de zones d'intérêt dans des documents (structure ou contenu sémantique) ainsi que leur exploitation pour mettre en évidence des différences entre plusieurs versions d'un même document [1] ou encore entre des documents de même nature mais provenant d'acteurs différents (par exemple des textes législatifs, des contrats etc.). Une piste à explorer sera la représentation d’un document sous forme de graphe, en s’inspirant par exemple de travaux récents [2], qui font appel à des modèles multimodaux (pouvant traiter à la fois du texte et des images) adaptés à cette tâche de compréhension des documents. Vous pourrez aborder des questions comme: comment aligner des parties similaires entre deux documents ? Comment identifier des éléments présents dans un document, mais absents dans un autre? Comment restructurer des documents selon une norme commune (notion de conformité)? Comment évaluer de manière fiable la performance d'un potentiel système répondant aux questions présentes ci-dessus ?
[1] Santosh T.y.s.s, Natwar Modani, and Apoorv Saxena. (2024). A Tale of Two Revisions: Summarizing Changes Across Document Versions. In Findings ACL 2024, Bangkok, Thailand.
[2] Chen, Y., Liu, R., Zheng, J., Wen, D., Peng, K., Zhang, J., & Stiefelhagen, R. (2025). Graph-based Document Structure Analysis. ICLR 2025, Singapour.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.