Description du poste
Contexte
Grand groupe pharmaceutique international qui fait évoluer sa plateforme GenAI interne pour automatiser et fiabiliser la production documentaire à grande échelle. Dans un environnement fortement réglementé, l'enjeu est de construire des fondations data robustes et scalables pour alimenter les workflows d'intelligence artificielle en production.
Missions
* Parsing & ingestion : développer et maintenir des parsers multi-formats (DOCX avec styles, tables et track changes ; Excel avec cellules fusionnées, multi-feuilles et formules)
* Modèle de données intermédiaire : définir un format normalisé post-parsing, compatible avec les workflows Data Science en aval
* Traçabilité & qualité des données : implémenter la traçabilité source à travers les pipelines d'ingestion ; assurer les contrôles de complétude (doublons, métadonnées manquantes, cohérence)
* CI/CD & déploiement : concevoir et déployer des pipelines CI/CD via Terraform ; mettre en place des smoke tests et workflows de validation post-ingestion
Stack & compétences attendues
* Python avancé, notamment sur le parsing documentaire (DOCX, Excel)
* Data pipelines, CI/CD et infrastructure cloud (AWS, Terraform)
* Qualité des données, robustesse et scalabilité
* Interface régulière avec des équipes Data Science
Modalités
* Démarrage : dès que possible
* Localisation : Paris – 3j/semaine sur site
* TJM : selon profil
* Durée : mission longue durée
Profil recherché
1. 5 ans d'expérience minimum en tant que Data Engineer
2. Parsing documentaire avancé — maîtrise de python-docx, openpyxl ou équivalents, avec gestion des cas complexes (styles, track changes, cellules fusionnées, formules)
3. Data pipelines & qualité — expérience en ingestion, transformation, traçabilité et contrôles de complétude en environnement de production
4. Infrastructure cloud AWS + Terraform — capacité à concevoir et déployer une infra from scratch, pas juste l'utiliser
5. CI/CD appliqué à la data — smoke tests, validation post-ingestion, automatisation des déploiements pipelines
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.