Description du poste
Projet en forfait
Durée : 16 à 20 semaines
Mission
Concevoir et industrialiser la chaîne d’ingestion, de normalisation et de structuration de données externes dans le cadre d’une solution Data & IA de collecte et d’analyse de données multi-sources.
Garantir :
* la qualité des données
* la robustesse des pipelines
* la traçabilité des traitements
* l’exploitabilité des flux pour les briques analytiques
Rôle dans le projet
* Responsable du socle pipeline Data
* Prise en charge de :
o la collecte des sources externes
o le parsing documentaire
o la normalisation et structuration des données
o l’exposition des données vers les modules d’analyse (NLP / IA)
Profil recherché
* 5 à 10 ans d’expérience
* Forte autonomie
* Expérience sur données non structurées (documents, web, PDF, etc.)
* Capacité à délivrer rapidement sans compromettre la robustesse
Responsabilités principales
* Développer des pipelines d’ingestion automatisés
* Concevoir et implémenter des connecteurs vers des sources externes
* Gérer le parsing documentaire (découpage, nettoyage, structuration)
* Mettre en place des mécanismes de déduplication et de contrôle qualité
* Concevoir les modèles de données intermédiaires et normalisés
* Collaborer avec les équipes IA/NLP pour rendre les données exploitables
* Participer aux tests, à la documentation et à la fiabilité des traitements
Compétences indispensables
* Python avancé
* Conception de pipelines de données et orchestration
* APIs, scraping raisonné, parsing documentaire (PDF, HTML…)
* SQL et modélisation de données
* PostgreSQL
* Culture forte de :
o qualité de données
o logs et monitoring
o tests et industrialisation
* Gestion des problématiques :
o volumétrie
o erreurs
o reprise sur incident
o supervision
Compétences appréciées
* Airflow, Prefect ou équivalent
* Librairies de parsing documentaire (PyMuPDF, pdfplumber, OCR…)
* Elasticsearch, indexation, moteur de recherche
* Bases vectorielles (pgvector ou équivalent)
* Docker, GitLab CI/CD
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.