Dans le cadre d'un programme stratégique de transformation Data à très grande échelle, nous recherchons un(e) Architecte Big Data orienté Spark & Performance afin d'accompagner l'évolution et l'optimisation d'une plateforme de traitement de données massives.
Vous interviendrez dans un environnement critique à forte volumétrie, au sein d'un programme Agile à l'échelle regroupant plusieurs centaines de collaborateurs.
Contexte
La plateforme traite chaque mois plusieurs milliards de lignes de données issues de flux massifs et critiques pour l'activité métier.
Les enjeux principaux :
- performance des traitements distribués,
- optimisation des pipelines batch,
- maîtrise des temps d'exécution,
- qualité et exploitabilité opérationnelle des données,
- conservation longue durée des historiques.
L'environnement technique repose sur :
- une plateforme Big Data Hadoop / Cloudera,
- des traitements Spark distribués,
- un écosystème Java / Spring Batch,
- des infrastructures conteneurisées et cloud-native.
La volumétrie et les contraintes de performance imposent une forte maîtrise des problématiques liées :
- au partitionnement,
- aux traitements distribués,
- à la mémoire,
- aux shuffles,
- à l'optimisation des transformations Spark.
Vos missions
En tant qu'Architecte Big Data, vous serez amené(e) à :
- Concevoir et faire évoluer les architectures de traitement de données massives
- Accompagner les équipes sur les problématiques de performance Spark
- Optimiser les traitements batch distribués à très grande échelle
- Définir les bonnes pratiques de développement et d'industrialisation Data
- Participer aux choix d'architecture autour des plateformes Data et des flux événementiels
- Accompagner les équipes de développement dans l'optimisation des traitements
- Contribuer aux travaux d'urbanisation et de gouvernance technique
- Participer aux comités d'architecture et à la définition des standards techniques
- Superviser la bonne application des pratiques d'architecture et de performance
⚙️ Environnement technique
Big Data & Data Engineering
- Spark / PySpark
- Hadoop
- Cloudera
- HDFS
- Hive
- Traitements DataFrame
- Traitements batch distribués
Développement & Frameworks
- Python
- Java
- Spring Batch
Orchestration & Industrialisation
- Airflow / Oozie
- CI/CD & industrialisation Data
Streaming & Messaging
- Kafka
- Architectures événementielles
Infrastructure
- Kubernetes (connaissances appréciées)
Pourquoi rejoindre ce projet ?
- Volumétries rares et problématiques techniques stimulantes
- Programme stratégique à très forte visibilité
- Environnement Big Data mature et industrialisé
- Equipes expertes et culture forte de l'ingénierie
- Sujets mêlant architecture, performance et optimisation à grande échelle
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.