Description du poste :
En tant que Lead SRE Plateforme, vous concevez, déployez et opérez l'offre de services qui rend la plateforme utilisable. Vos missions incluent :
-Isolation & performances : garantir l'isolation multi-tenant, la résilience et les performances de la plateforme en production ;
-Catalogue de services managés : bases de données, caches, queues, secrets - déploiement régional puis extension multi-régions en collaboration avec en collaboration avec les équipes Storage et Compute ;
-Landing zone multi-tenant : namespaces, quotas, RBAC, templates, CI/CD - régional puis multi-régions ;
-Automatisation : industrialiser la plateforme pour garantir la reproductibilité des déploiements et réduire la charge d'exploitation ;
-Services transverses : mettre en œuvre observabilité as a service (métriques, logs, traces) et secrets as a service ;
-Gestion d'incidents : participation niveau N3/N4 et astreintes ;
-Pilotage : conduire l'exploitation par les SLO, error budgets et RETEX ;
-Équipe : encadrer techniquement les ingénieurs plateforme ; contribuer au recrutement et à la montée en compétences ;
-Documentation & formation : rédiger la documentation et accompagner les équipes utilisatrices.
Description du profil :
Nous cherchons SRE plateforme (10+ ans d'expérience), capable de construire et opérer des services managés robustes et d'offrir une expérience développeur de qualité.
Vous possédez de l'expérience professionnelle :
-Exploitation SRE de plateforme cloud à l'échelle : gestion d'incidents, astreintes, pilotage par SLO/SLI, RETEX ;
-Ingénierie plateforme : conception et exploitation de services managés sur Kubernetes (operators, Helm, Kustomize), CI/CD (GitLab CI, ArgoCD ou équivalents), landing zones multi-tenant ;
-Déploiements multi-sites avec approche automatisée et reproductible.
Vous disposez également des compétences techniques suivantes :
-Expertise d'au moins un langage d'infrastructure-as-code (e.g., Terraform Expertise d'une stack d'observabilité (Prometheus, Grafana, Loki ou équivalent), et des outils/méthodes de métrologies ;
-Maîtrise d'au moins un langage de programmation (Go, Python ou équivalent), capacité à contribuer aux operators et à l'outillage plateforme ;
-Très bonne compréhension des enjeux de systèmes distribués multi-regions (cohérence, consensus, réplication, CAP) et capacité à dialoguer avec une équipe experte ;
-Très bonne connaissance des questions de sécurité, capacité à dialoguer avec une chaîne SSI.
Vous êtes :
-Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité ;
-Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques ;
-Ancré dans une culture d'analyse factuelle et d'amélioration continue ;
Atouts appréciés :
-Expérience d'environnements multi-sites / multi-régions ;
-Expérience avec des environnements air-gapped ;
-Connaissance de SecNumCloud et IGI 1300 ;
-Contributions open source.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.