Description de l'entrepriseInetum est un leader européen des services numériques. Pour les entreprises, les acteurs publics et la société dans son ensemble, les consultants et spécialistes du groupe visent chaque jour l'impact digital : des solutions qui contribuent à la performance, à l'innovation et au bien commun.Présent dans 19 pays au plus près des territoires, et avec ses grands partenaires éditeurs de logiciels, Inetum répond aux enjeux de la transformation digitale avec proximité et flexibilité.Porté par son ambition de croissance et d'industrialisation, Inetum a généré en un chiffre d'affaires de 2,5 milliards d'.Pour répondre à un marché en croissance continue depuis plus de 30ans, Inetum a fait le choix délibéré de se recentrer sur 4 métiers afin de gagner en puissance et proposer des solutions sur mesure, adaptées aux besoins spécifiques de ses clients : le conseil (Inetum Consulting), la gestion des infrastructures et applications à façon (Inetum Technologies), l'implémentation de progiciels (Inetum Solutions) et sa propre activité d'éditeur de logiciels (Inetum Software). Inetum a conclu des partenariats stratégiques avec 4 grands éditeurs mondiaux - Salesforce, ServiceNow, Microsoft et SAP et poursuit une stratégie d'acquisitions dédiée afin d'entrer dans le top 5 européen sur ces technologies et proposer la meilleure expertise à ses clients.Tous nos postes sont ouverts aux personnes en situation de handicap.Description du posteDans le cadre dun programme daccélération de lIntelligence Artificielle mené par un grand acteur du secteur bancaire nous recherchons un(e) Consultant(e) Data Vision-Langage & Extraction de Connaissance pour intervenir sur un chantier stratégique de Knowledge Management (KM).Lobjectif est de construire une base de connaissance à partir de documents non structurés (PDF, Word, HTML), afin de formaliser la connaissance de manière agnostique et réutilisable à long terme.QualificationsVos missions :Extraire du texte depuis des fichiers PDF, Word, HTML via des librairies adaptéesNettoyer et normaliser les contenus (suppression de bruit, OCR si nécessaire)Segmenter les textes en unités de connaissance structurées (sections, blocs)Enrichir les unités avec des métadonnées (source, date, thème, typologie)Concevoir un format pivot standardisé (Markdown enrichi ou JSON)Documenter le format et les choix de structurationCollaborer avec léquipe KM pour affiner les modèles de structurationMettre en place un pipeline automatisé et réutilisable pour traiter de nouveaux documentsCompétences techniques requisesp>Maîtrise des outils et librairies dextraction de texte (PDFMiner, Apache Tika, BeautifulSoup, etc.)Expérience en traitement de documents non structurés et en nettoyage de données textuellesConnaissance des techniques dOCR (Tesseract ou équivalent)Compréhension des modèles Vision-Langage (VLM) et de leur application à la structuration de contenuCapacité à concevoir des formats de données structurés (JSON, Markdown enrichi)Bonnes compétences en scripting (Python, etc.) pour automatiser les traitementsConnaissance de Domino Data Lab appréciéeInformations supplémentairesVos atouts pour réussir cette mission :Expérience significative en Knowledge Management, Data Engineering, ou Traitement Automatique du Langage (TAL)Autonomie, rigueur, et capacité à documenter clairement les choix techniquesBon relationnel pour collaborer avec des équipes pluridisciplinaires
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.