NumSpot recrute un·e Site Reliability Engineer (SRE) confirmé·e pour fiabiliser et faire monter en puissance l’ensemble des services managés PaaS de sa plateforme cloud souveraine. Le rôle est au cœur de l’industrialisation : disponibilité, performance, et capacité à diagnostiquer vite quand ça bouge en production. Votre mission : mettre en place et faire vivre les pratiques, l’outillage et les automatismes qui permettent aux équipes Engineering de livrer des services managés stables, observables et opérables, avec des objectifs de fiabilité mesurés. Pourquoi maintenant : l’offre PaaS s’enrichit et se déploie. Pour tenir la trajectoire, la fiabilité doit être traitée comme un produit, avec des standards (SLI/SLO), des signaux (métriques, logs, traces) et des boucles d’amélioration continue. L’équipe et le rôle Vous travaillez au sein du département Engineering, en équipe avec les SRE, au contact direct des équipes de développement et des équipes en charge de l’exploitation. L’équipe Services Managés porte des services PaaS (dont Kubernetes et des bases de données managées) qui doivent être simples à consommer et robustes en production. Dans ce rôle, vous intervenez à la fois sur le terrain (incidents, troubleshooting, amélioration de la production) et sur la structure (observabilité, automatisation, SLO, standards d’exploitation). Vous aidez à transformer des problèmes récurrents en actions concrètes : instrumentation, amélioration d’un runbook, automatisation d’une opération, ou durcissement d’une configuration. Ce que vous ferez / Vos missions L’objectif est de rendre les services managés plus fiables et plus faciles à opérer. Fondations SRE (SLI/SLO, qualité de service) • Définir, formaliser et suivre les SLIs/SLOs des services managés, avec des alertes alignées sur l’impact. • Mettre en place des routines de revue de fiabilité (incidents, dette d’exploitation, actions priorisées). Observabilité & diagnostic • Implémenter et faire évoluer l’observabilité (métriques, logs, traces) et les tableaux de bord. • Améliorer la capacité de diagnostic : signaux exploitables, corrélation, réduction du MTTR. Automatisation & opérations • Automatiser les déploiements et les opérations via IaC et GitOps. • Concevoir et maintenir l’infrastructure des services managés PaaS, en gardant une approche reproductible et documentée. • Optimiser performances et coûts d’infrastructure, avec des mesures et des arbitrages explicites. Gestion d’incidents & amélioration continue • Gérer les incidents (on-call si applicable), conduire des post-mortems factuels, et transformer les conclusions en actions. • Travailler avec les équipes de développement pour améliorer la reliability (patterns, limites, garde-fous, tests de résilience).
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.