Description du poste Projet en forfait Durée : 16 à 20 semaines Mission Concevoir et industrialiser la chaîne d’ingestion, de normalisation et de structuration de données externes dans le cadre d’une solution Data & IA de collecte et d’analyse de données multi-sources. Garantir : la qualité des données la robustesse des pipelines la traçabilité des traitements l’exploitabilité des flux pour les briques analytiques Rôle dans le projet Responsable du socle pipeline Data Prise en charge de : la collecte des sources externes le parsing documentaire la normalisation et structuration des données l’exposition des données vers les modules d’analyse (NLP / IA) Profil recherché 5 à 10 ans d’expérience Forte autonomie Expérience sur données non structurées (documents, web, PDF, etc.) Capacité à délivrer rapidement sans compromettre la robustesse Responsabilités principales Développer des pipelines d’ingestion automatisés Concevoir et implémenter des connecteurs vers des sources externes Gérer le parsing documentaire (découpage, nettoyage, structuration) Mettre en place des mécanismes de déduplication et de contrôle qualité Concevoir les modèles de données intermédiaires et normalisés Collaborer avec les équipes IA/NLP pour rendre les données exploitables Participer aux tests, à la documentation et à la fiabilité des traitements Compétences indispensables Python avancé Conception de pipelines de données et orchestration APIs, scraping raisonné, parsing documentaire (PDF, HTML…) SQL et modélisation de données PostgreSQL Culture forte de : qualité de données logs et monitoring tests et industrialisation Gestion des problématiques : volumétrie erreurs reprise sur incident supervision Compétences appréciées Airflow, Prefect ou équivalent Librairies de parsing documentaire (PyMuPDF, pdfplumber, OCR…) Elasticsearch, indexation, moteur de recherche Bases vectorielles (pgvector ou équivalent) Docker, GitLab CI/CD
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.