RÉSUMÉ EXPRESS
Data Engineer senior (4 ans+, Bac+5) pour construire et opérer les pipelines data d'une plateforme cloud de paiement à fort volume transactionnel. Il maîtrise Python/PySpark et Databricks en production, conçoit les architectures data lakehouse sur AWS (S3, Redshift), optimise les jobs Spark et garantit la fiabilité et la qualité des données pour les usages analytics et ML. Expérience fintech ou paiement fortement appréciée.
2 jours de télétravail par semaine / Anglais professionnel opérationnel obligatoire.
MISSIONS PRINCIPALES
Design & Construction des Pipelines Data
Concevoir et construire les pipelines ETL/ELT d'ingestion, transformation et chargement depuis de multiples sources (terminaux POS, APIs, systèmes de paiement)
Choisir les patterns adaptés selon les cas d'usage : batch vs streaming, data warehouse vs data lake vs lakehouse
Développer en Python/PySpark avec des pratiques d'ingénierie logicielle solides (tests, packaging, code maintenable)
Databricks & Optimisation Spark
Construire et optimiser les workflows Databricks (Jobs, Delta Live Tables) en production sur des volumes significatifs
Optimiser les jobs Spark : partitionnement, broadcast joins, caching, memory management, tuning des performances et des coûts
Architecture Data & Stockage AWS
Concevoir les structures de données et les patterns de stockage sur AWS (S3, Redshift, formats Parquet/Delta/Iceberg)
Modéliser et optimiser les données dans Redshift (distribution keys, sort keys, requêtes analytiques)
Gérer la sécurité des données dans un contexte de données de paiement sensibles (IAM, chiffrement, conformité)
Fiabilité Production & Qualité des Données
Assurer le monitoring et l'alerting des pipelines en production, intervenir sur les incidents (données manquantes, pipeline en retard, données corrompues)
Mettre en place des contrôles de qualité des données (data validation, schema evolution, data lineage)
Collaboration & Veille
Travailler avec les data scientists pour comprendre leurs besoins et leur fournir des datasets de qualité pour le ML
Assurer une veille technologique active sur les nouvelles technologies et best practices data
Profil candidat:
PROFIL RECHERCHÉ
Bac+5, 4 ans minimum en data engineering
Expérience Databricks et Spark en production réelle sur des volumes significatifs
Expérience sur une data platform cloud AWS (S3, Redshift, Glue ou équivalent) en conditions de production
Expérience en contexte fintech, paiement ou IoT (données à fort volume) : fortement appréciée
Anglais upper-intermediate opérationnel (B2) : réunions, documentation et code reviews avec des équipes internationales au quotidien
COMPÉTENCES REQUISES
Python / PySpark (++) : Développement de pipelines data, transformations complexes, code maintenable et testé (pytest) ? niveau développeur senior, pas du scripting basique
Databricks (++) : Jobs, Delta Live Tables, gestion des clusters, optimisation Spark (partitionnement, caching, broadcast joins, tuning) ; Unity Catalog apprécié
Apache Spark (++) : PySpark en production réelle ? transformations à grande échelle, shuffle optimization, memory management, diagnostic et résolution de problèmes de performance
AWS Data Services (++) : Amazon Redshift (modélisation, distribution/sort keys, optimisation des requêtes), AWS S3 (partitionnement, formats Parquet/Delta/Iceberg), IAM pour la sécurité des données
ETL/ELT & Orchestration : Maîtrise des patterns d'ingestion batch et streaming, orchestration (Airflow ou AWS Step Functions probable), Delta Lake / Lakehouse patterns
Qualité & Sécurité des Données : Data validation, schema evolution, data lineage ; gestion des données sensibles en contexte PCI-DSS (chiffrement, anonymisation, contrôle d'accès)
Compétences complémentaires appréciées : Java Spring Boot (services d'ingestion ou d'exposition de données) ; Scala (contextes Spark avancés) ; NoSQL (DynamoDB, MongoDB)
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.