Ta mission Nettoyer, structurer et rationaliser les données legacy de Comet réparties sur plusieurs systèmes, afin de garantir une base data fiable, exploitable et maintenable, et de préparer la future centralisation des données sur une plateforme type DataBricks. Tu travailleras en direct avec Jérémy notre Tech Lead ainsi qu’avec Margaux et Marine nos Product Manager. Tu interviendras avec un haut niveau d’autonomie et seras force de proposition sur les choix techniques et méthodologiques. Ce que tu vas faire Audit & cartographie des données Auditer les sources de données et les outils de transformation existants (Apache Airflow et DBT, BigQuery, AWS Glue avec Pyspark, AWS Athena) Cartographier les flux entre systèmes (pipeline, stockage, usages) Identifier les dépendances critiques et les zones à risque Nettoyage & fiabilisation Identifier les incohérences, duplications et données obsolètes Mettre en place des stratégies de nettoyage et de déduplication Améliorer la qualité et la cohérence globale des datasets Archivage & rationalisation Définir, avec l’aide des autres équipes, ce qui doit être conservé, archivé ou supprimé Mettre en place des stratégies d’archivage (coût, accessibilité, conformité) Supprimer les données et pipelines inutiles ou redondants Réduire la complexité globale de la stack data Préparation à la centralisation Préparer les données pour une future centralisation sur une plateforme data comme Databricks Proposer une organisation cible des données Identifier les chantiers nécessaires pour la suite Collaboration & pilotage Être force de proposition sur les choix techniques Prioriser les chantiers en lien avec la tech et le produit Avancer de manière autonome sur des sujets complexes
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.