Construire une base de connaissance agnostique et réutilisable est un véritable défi. Dans le cadre d'un programme d'accélération de l'Intelligence Artificielle, nous recherchons un(e) Consultant Data Vision-Langage & Extraction de Connaissance .
Le but est de formaliser la connaissance à partir de documents non structurés (PDF, Word, HTML), afin qu'elle soit accessible et utile à long terme.
Pour atteindre cet objectif, vous devrez :
* Extraire du texte depuis des fichiers PDF, Word, HTML via des librairies adaptées
* Nettoyer et normaliser les contenus (suppression de bruit, OCR si nécessaire)
* Segmenter les textes en unités de connaissance structurées (sections, blocs)
* Enrichir les unités avec des métadonnées (source, date, thème, typologie)
* Concevoir un format pivot standardisé (Markdown enrichi ou JSON)
* Documenter le format et les choix de structuration
* Collaborer avec l'équipe KM pour affiner les modèles de structuration
* Mettre en place un pipeline automatisé et réutilisable pour traiter de nouveaux documents
Vous aurez l'occasion de travailler sur des projets variés et de développer vos compétences dans le domaine de l'IA.
Nous offrons également :
* * *
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.