PRESENTATION DE CHAPSVISION Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses. Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée. Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux. Parallèlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles. CONTEXTE DU POSTE Vous rejoignez l’équipe spécialisée en NLP et extraction d’information, dont les travaux sont au cœur des solutions de renseignement, d’analyse et de structuration de la donnée de ChapsVision. Le stage porte sur un défi émergent : la Relation Resolution, un nouveau sous-domaine du NLP visant à aligner des relations extraites automatiquement (OpenIE) avec des schémas d’ontologies, ou à induire ces schémas à partir d’un corpus. Vous travaillerez à la frontière entre extraction d’information, clustering, embeddings sémantiques et ontologies, en vous appuyant sur la littérature récente VOS FUTURES MISSIONS Réaliser un état de l’art sur l’OpenIE, l’alignement d’ontologies et la Relation Resolution Concevoir une pipeline capable de mapper des relations OpenIE vers un schéma ontologique existant Implémenter et tester différentes approches : similarité d’embeddings, heuristiques graphe, clustering, LLM léger… Développer une méthode de génération automatique d’un schéma relationnel depuis un corpus Étudier l'utilisation de techniques frugales (modèles spécialisés, règles, agents SLM) pour améliorer la précision à moindre coût Documenter les résultats et proposer des pistes d’intégration dans les pipelines produits LES COMPETENCES ET QUALITES QUE NOUS RECHERCHONS Intérêt pour le NLP, l’extraction d’information ou les ontologie Bon niveau en Python Connaissances souhaitées : embeddings, clustering, graphes, KG Curiosité, autonomie, bon esprit d’analyse CE QUE NOUS OFFRONS À NOS STAGIAIRES Carte SWILE : 10€ / jour pris en charge à 60% Transport en commun : Pris en charge à 50% Télétravail : 3 jours/semaine maximum avec une indemnité de 26 euros par mois NOTRE PROCESS DE RECRUTEMENT Un entretien téléphonique avec l’un de nos recruteurs techniques pour faire connaissance. Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage. Tous nos postes sont ouverts aux personnes en situation de handicap. Bibliograhie : 1. Liu, P. et al. (2024) – A Survey on Open Information Extraction from Rule-based Model to Large Language Model. arXiv:2208.08690. Latest broad survey on OpenIE, covering rule-based, neural and LLM-based approaches. Link: https://arxiv.org/abs/2208.08690 arXiv 2. Bian, H. (2025) – LLM-empowered knowledge graph construction: A survey. arXiv:2510.20345. Systematic review of how LLMs are used for (semi-)automatic KG/ontology construction across schema design, extraction, and fusion. Link: https://arxiv.org/abs/2510.20345 arXiv 3. Vashishth, S., Jain, P., & Talukdar, P. (2018) – CESI: Canonicalizing Open Knowledge Bases Using Embeddings and Side Information. WWW 2018. Canonicalizes OpenIE-style triples (entities relations) via embeddings and side information; classic reference for relation/entity clustering. Link: https://doi.org/10.1145/3178876.3186030 GitHub 4. Dash, S., Rossiello, G., Mihindukulasooriya, N., Bagchi, S., & Gliozzo, A. (2021) – Open Knowledge Graphs Canonicalization using Variational Autoencoders. EMNLP 2021. Proposes CUVA, a VAE-based joint model for entity and relation canonicalization in open KGs. Link: https://aclanthology.org/2021.emnlp-main.811/ ACL Anthology 5. Lomaeva, M., & Jain, N. (2022) – Relation Canonicalization in Open Knowledge Graphs: A Quantitative Analysis. ESWC 2022 Satellite Events. Focuses specifically on relation canonicalization, with quantitative analysis and datasets built from OpenIE relations. Link: https://link.springer.com/chapter/10.1007/978-3-031-11609-4_4 OUCI
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.