Vos missions : Vos objectifs : - Assurer la fiabilité, la performance et l'évolutivité des systèmes de production. - Collaborer étroitement avec les équipes de développement et d'opérations pour mettre en oeuvre les meilleures pratiques SRE et réduire le "toil" (travail manuel répétitif). Fiabilité des Systèmes: - Surveiller et gérer la fiabilité des services et applications en production. - Définir et maintenir les indicateurs clés de performance (KPIs) et les objectifs de niveau de service (SLOs). - Répondre aux incidents, mener des analyses de causes profondes (RCA) et rédiger des post-mortems. Automatisation et Infrastructure: - Automatiser les tâches manuelles et répétitives pour réduire le "toil". - Développer et maintenir l'infrastructure en tant que code (IaC) avec des outils comme Terraform et Ansible. - Mettre en oeuvre et gérer des pipelines CI/CD et des pratiques GitOps. Observabilité et Surveillance: - Mettre en place des outils de surveillance et d'observabilité (par exemple, Prometheus, Grafana, ELK, Datadog). - Surveiller les "quatre signaux d'or" : latence, trafic, erreurs et saturation. - Configurer des alertes et des notifications pour les incidents potentiels. Collaboration et Communication: - Travailler en étroite collaboration avec les équipes de développement et d'opérations. - Promouvoir une culture "blameless" (sans culpabilité) pour l'analyse des incidents et l'apprentissage. - Communiquer efficacement avec les parties prenantes sur les questions de fiabilité et de performance.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.