Description du poste
Taux journalier (TJM): 550
Contexte
Ce poste s'inscrit dans une démarche d'amélioration continue des pratiques Site Reliability Engineering (SRE) au sein d'une organisation cherchant à industrialiser ses processus, renforcer la pro-activité et optimiser la gestion des incidents et problèmes en production.
Missions
* Industrialisation et méthodologie SRE
o Piloter la pro-activité en s'appuyant sur une expérience quotidienne du support
o Identifier les tâches répétitives et les automatiser
o Piloter par la data : animer et suivre les indicateurs de niveau de service
o Augmenter les moyens d'observabilité : faire évoluer les tableaux de bord (Datadog) pour détecter et corriger les anomalies au plus tôt
* Résolution d'incidents et soutien applicatif (le "Run")
o Résoudre les incidents de production via l'outil SMAX
o Diagnostiquer, investiguer et résoudre les dysfonctionnements complexes nécessitant une compréhension approfondie des algorithmes et des flux métier
o Communiquer de manière rigoureuse (StatusPal) auprès des parties prenantes
* Gestion des problèmes et transversalité
o Identifier les causes racines pour assécher durablement les récurrences
o Coordonner les actions avec l'écosystème, assurer la cohérence avec les équipes partenaires et leurs applications
o Animer et suivre les actions des Post Mortems
Compétences
* SRE : Expert
* Architecture cloud-native : Élémentaire
* Rapports et indicateurs : Confirmé
* SMAX : Confirmé
* JAVA : Élémentaire
* DATADOG : Confirmé
Profil recherché
1. Expert en SRE
2. Confirmé en rapports et indicateurs
3. Confirmé en SMAX
4. Confirmé en Datadog
5. Élémentaire en architecture cloud-native
6. Élémentaire en JAVA
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.