Description du poste
Taux journalier (TJM): 700
Contexte
Pour le compte d'un client dans le secteur de l'assurance : Environnement IT critique, hybride, applicatif et infrastructure, avec enjeux forts de disponibilité, stabilité et réduction des incidents.
Missions
* Intervenir au sein d’une équipe SRE transverse dédiée à l’amélioration de la fiabilité des services critiques.
* Analyser les incidents récurrents, identifier les causes racines, proposer des plans de remédiation et mettre en œuvre des améliorations durables sur les applications, workflows et mécanismes d’exploitation.
* Travailler en profondeur sur des problématiques de production complexes, en lien avec les équipes applicatives, infrastructure et métiers.
* Analyser les incidents de disponibilité, les problèmes récurrents et les signaux faibles de production.
* Conduire ou contribuer aux RCA, post-mortems et analyses blameless.
* Identifier les causes racines techniques et organisationnelles.
* Définir un plan d’action priorisé : quick wins, corrections structurelles, dette technique.
* Améliorer la résilience applicative : timeouts, retries, circuit breakers, dégradation contrôlée.
* Optimiser les performances applicatives et réduire le MTTR.
* Mettre en place ou améliorer les indicateurs de stabilité : disponibilité, erreurs, latence, saturation.
* Réduire le bruit d’alerting et renforcer l’observabilité.
* Automatiser les analyses, contrôles ou actions récurrentes lorsque pertinent.
* Documenter les patterns de fiabilité et contribuer à la montée en compétence des équipes internes.
Outils & Environnement
* Analyse d’incidents complexes et démarches RCA.
* Observabilité : Dynatrace, Datadog, ELK, Prometheus, Grafana ou équivalents.
* Environnements applicatifs : Java, Python, AngularJS, Cobol ou SaaS.
* CI/CD : Jenkins, GitLab CI/CD ou équivalents.
* Automatisation : Python, Bash ou scripting équivalent.
* Environnements cloud ou hybrides, notamment AWS.
* Golden signals : latence, trafic, erreurs, saturation.
* Outils d’IA pour productivité : analyse de logs, corrélation d’incidents, génération de scripts, détection de code smells.
Conditions de travail
* Type de mission : Freelance
* Présence : Hybride, 2 à 3 jours sur site par semaine
Livrables attendus
* Analyses de causes racines et rapports de post-mortem.
* Backlog de remédiation priorisé.
* Actions correctives mises en œuvre.
* Tableaux de bord et indicateurs de fiabilité.
* Documentation des bonnes pratiques et patterns SRE.
* Contributions aux comités de suivi de la stabilité.
Profil recherché
1. Senior Reliability Engineer / Lead SRE avec minimum 10 ans d’expérience
2. Idéalement issu d’un parcours production, DevOps puis SRE
3. Expérience en banque, assurance, télécoms ou environnement fortement critique appréciée
4. Expérience confirmée en SRE, DevOps, production critique ou ingénierie de fiabilité
5. Très bonne maîtrise de l’analyse d’incidents complexes et des démarches RCA
6. Solide culture observabilité : Dynatrace, Datadog, ELK, Prometheus, Grafana ou équivalents
7. Connaissance des environnements applicatifs Java, Python, AngularJS, Cobol ou SaaS
8. Expérience CI/CD : Jenkins, GitLab CI/CD ou équivalents
9. Compétences en automatisation : Python, Bash ou scripting équivalent
10. Compréhension des environnements cloud ou hybrides, notamment AWS
11. Pratique des golden signals : latence, trafic, erreurs, saturation
12. Capacité à travailler avec des équipes transverses, produit, production et infrastructure
13. Usage des outils d’IA comme levier de productivité : analyse de logs, corrélation d’incidents, génération de scripts, détection de code smells
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.