Contexte
L’entreprise évolue dans un environnement international à forte intensité digitale. Ses solutions IT s’appuient sur des plateformes digitales communes utilisées par l’ensemble des entités du groupe afin de développer, déployer et exploiter des produits digitaux à grande échelle.
Au sein d’une organisation dédiée au build, au run et au scale des plateformes digitales, l’équipe Site Reliability Engineering est responsable de la fiabilité, de la résilience et de l’observabilité des plateformes et des produits applicatifs.
Dans ce contexte, l’entreprise renforce son équipe SRE et recherche un(e) Site Reliability Engineer Senior capable d’intervenir à l’échelle internationale et de promouvoir les bonnes pratiques SRE auprès des équipes projets et produits.
Responsabilités principales
La personne recrutée interviendra sur des plateformes Cloud critiques et aura pour responsabilités :
* Définir et implémenter des mécanismes avancés de monitoring et d’alerting couvrant l’ensemble de la chaîne applicative (front-end, back-end, ETL, qualité des données, connectivité).
* Mettre en œuvre des solutions d’observabilité sur les environnements Cloud :
* AWS : Prometheus, CloudWatch (Logs, Metrics, Application Signals, Synthetics), PromQL, X-Ray.
* Azure : Azure Monitor, KQL, Application Insights, Container Insights, Log Analytics.
* Google Cloud Observability.
* Grafana.
* Contribuer à la résilience des applications :
* Implémenter et tester des mécanismes de sauvegarde et de restauration pour les bases de données, datalakes et stockages objets.
* Mettre en œuvre des scénarios de Chaos Engineering en environnements de production.
* Concevoir, mettre en place et tester des plans de reprise d’activité (Disaster Recovery Plan), incluant les pipelines de déploiement et les restaurations à partir de sauvegardes.
* Optimiser la gestion des incidents afin de réduire le MTTR :
* Amélioration de la détection et de la notification.
* Mise en place et exploitation d’outils de logging et d’analyse.
* Déployer des solutions d’AIOps pour renforcer l’observabilité, la résilience et la gestion des incidents :
* Implémenter et exploiter des agents IA capables de détecter des dysfonctionnements, proposer des améliorations de fiabilité et contribuer à la résolution des incidents.
* Promouvoir les bonnes pratiques SRE auprès des équipes produits et projets afin d’améliorer durablement la fiabilité des plateformes.
Profil recherché
La personne recherchée justifie :
* D’une expérience confirmée en tant que Site Reliability Engineer ou sur un rôle équivalent en environnements Cloud complexes.
* D’une expertise avancée sur Azure et d’une expérience solide sur AWS.
* D’une pratique confirmée des outils d’observabilité et de monitoring multi-cloud.
* D’une expérience en tests de résilience, sauvegarde, restauration et Disaster Recovery.
* D’une maîtrise des pratiques Infrastructure as Code (Terraform, Ansible).
* D’une bonne maîtrise de la programmation en Python.
* D’une expérience avancée avec OpenTelemetry.
* D’une expertise sur Git et les workflows associés.
* D’un niveau bilingue en anglais et d’un très bon niveau de français, à l’écrit comme à l’oral.
Compétences comportementales attendues :
* Autonomie dans la conduite des sujets confiés.
* Excellentes capacités de communication et de vulgarisation technique.
* Capacité à présenter et expliquer des architectures techniques complexes.
* Aisance relationnelle dans un contexte international et multi-équipes.
Environnement ou particularités
* Environnement international à grande échelle.
* Plateformes Cloud critiques et fortement exposées.
* Enjeux élevés de fiabilité, de résilience et de performance.
* Collaboration transverse avec de nombreuses équipes IT et produits.
Ce poste est ouvert aux personnes en situation de handicap.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.