Vos missions en quelques mots En tant que Lead SRE Stockage, vous concevez, déployez et opérez l'infrastructure de stockage distribuée. Vos missions incluent : • Déployer et opérer le stockage bloc et objet au niveau régional puis étendre vers le multi-régions ; contribuer aux choix technologiques (e.g., Ceph ou alternatives) ; • Garantir l'isolation multi-tenant, la résilience et les performances du stockage distribué ; • Concevoir et opérer une architecture multi-régions résiliente face aux contraintes réseau (bande passante limitée, latence, coupures) en tenant compte du théorème CAP ; • Mettre en œuvre les procédures de backup, restauration et de PRA ; • Déployer et opérer la stack d'observabilité sur vos périmètres ; • Conduire l'exploitation par les SLO, error budgets et RETEX ; • Participer à la gestion d’incidents (niveau N3/N4) et aux astreintes ; • Équipe : encadrer techniquement les ingénieurs stockage ; contribuer au recrutement et à la montée en compétences. Profil recherché Nous cherchons un expert stockage distribué : soit 10 ans d'expérience en production, soit doctorat en systèmes distribués/stockage avec expérience significative en production de solutions à grande échelle. Vous possédez de l’expérience professionnelle : • Exploitation SRE de solutions de stockage distribué à grande échelle (Ceph, Longhorn, stack S3 ou équivalent) : déploiement, exploitation, optimisation ; • Dimensionnement de plateforme de stockage (IOPS, bande passante, latence) et arbitrages performance/coût/résilience ; • Observabilité avancée de stockage distribué avec alertes et métrologie ; • Tests de résilience et chaos engineering appliqué au stockage : perte de disques, partitions réseau, corruption de données ; • Gestion d'incidents en production (niveau N3/N4) et participation aux astreintes ; • Expérience de la culture SRE : pilotage par SLO/SLI, RETEX, amélioration continue. Vous disposez également des compétences techniques suivantes : • Expertise avancée sur au moins une solution de stockage distribuée bloc ou objet ; • Maîtrise de Linux avancé (optimisation performances, tuning kernel) et des couches réseau sous-jacentes ; • Maîtrise d'au moins un langage de programmation (Go, Python) et d'infrastructure-as-code (Terraform, Ansible) ; • Maîtrise d'une stack d'observabilité (Prometheus, Grafana, Loki) et des outils/méthodes de métrologie ; • Compréhension des fondamentaux théoriques : réplication, erasure coding, consensus distribué, cohérence sans consensus, théorème CAP ; • Capacité à concevoir des architectures résilientes face aux contraintes réseau (bande passante limitée, latence élevée, coupures) ; • Très bonne connaissance sécurité : multi-tenant, chiffrement at-rest/in-transit, gestion des secrets, capacité à dialoguer avec une chaîne SSI. Vous êtes : • Rigoureux : Capacité à concevoir et maintenir des infrastructures critiques avec une attention méticuleuse aux détails, particulièrement dans les aspects de sécurité et de reproductibilité ; • Innovant : Capacité à proposer des solutions techniques avancées et à implémenter des bonnes pratiques ; • Ancré dans une culture d'analyse factuelle et d'amélioration continue ; Atouts appréciés : • Expérience d'environnements multi-sites / multi-régions ; • Expérience avec des environnements avec de fortes exigences de disponibilité ; • Connaissance de SecNumCloud et IGI 1300 ; • Contributions open source Éléments de candidature Documents à transmettre Pour postuler à cette offre, l'envoi du CV et d'une lettre de motivation est obligatoire Personnes à contacter dc-dirisi-sdorh-rrh-gpc-gpec.mobilite.fct@intradef.gouv.fr laurent.prosperi@intradef.gouv.fr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.