Description du poste Taux journalier (TJM): 700 Contexte Pour le compte d'un client dans le secteur de l'assurance : Environnement IT critique, hybride, applicatif et infrastructure, avec enjeux forts de disponibilité, stabilité et réduction des incidents. Missions Intervenir au sein d’une équipe SRE transverse dédiée à l’amélioration de la fiabilité des services critiques. Analyser les incidents récurrents, identifier les causes racines, proposer des plans de remédiation et mettre en œuvre des améliorations durables sur les applications, workflows et mécanismes d’exploitation. Travailler en profondeur sur des problématiques de production complexes, en lien avec les équipes applicatives, infrastructure et métiers. Analyser les incidents de disponibilité, les problèmes récurrents et les signaux faibles de production. Conduire ou contribuer aux RCA, post-mortems et analyses blameless. Identifier les causes racines techniques et organisationnelles. Définir un plan d’action priorisé : quick wins, corrections structurelles, dette technique. Améliorer la résilience applicative : timeouts, retries, circuit breakers, dégradation contrôlée. Optimiser les performances applicatives et réduire le MTTR. Mettre en place ou améliorer les indicateurs de stabilité : disponibilité, erreurs, latence, saturation. Réduire le bruit d’alerting et renforcer l’observabilité. Automatiser les analyses, contrôles ou actions récurrentes lorsque pertinent. Documenter les patterns de fiabilité et contribuer à la montée en compétence des équipes internes. Outils & Environnement Analyse d’incidents complexes et démarches RCA. Observabilité : Dynatrace, Datadog, ELK, Prometheus, Grafana ou équivalents. Environnements applicatifs : Java, Python, AngularJS, Cobol ou SaaS. CI/CD : Jenkins, GitLab CI/CD ou équivalents. Automatisation : Python, Bash ou scripting équivalent. Environnements cloud ou hybrides, notamment AWS. Golden signals : latence, trafic, erreurs, saturation. Outils d’IA pour productivité : analyse de logs, corrélation d’incidents, génération de scripts, détection de code smells. Conditions de travail Type de mission : Freelance Présence : Hybride, 2 à 3 jours sur site par semaine Livrables attendus Analyses de causes racines et rapports de post-mortem. Backlog de remédiation priorisé. Actions correctives mises en œuvre. Tableaux de bord et indicateurs de fiabilité. Documentation des bonnes pratiques et patterns SRE. Contributions aux comités de suivi de la stabilité. Profil recherché Senior Reliability Engineer / Lead SRE avec minimum 10 ans d’expérience Idéalement issu d’un parcours production, DevOps puis SRE Expérience en banque, assurance, télécoms ou environnement fortement critique appréciée Expérience confirmée en SRE, DevOps, production critique ou ingénierie de fiabilité Très bonne maîtrise de l’analyse d’ incidents complexes et des démarches RCA Solide culture observabilité : Dynatrace, Datadog, ELK, Prometheus, Grafana ou équivalents Connaissance des environnements applicatifs Java, Python, AngularJS, Cobol ou SaaS Expérience CI/CD : Jenkins, GitLab CI/CD ou équivalents Compétences en automatisation : Python, Bash ou scripting équivalent Compréhension des environnements cloud ou hybrides, notamment AWS Pratique des golden signals : latence, trafic, erreurs, saturation Capacité à travailler avec des équipes transverses, produit, production et infrastructure Usage des outils d’IA comme levier de productivité : analyse de logs, corrélation d’incidents, génération de scripts, détection de code smells
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.