Rejoignez une équipe Tech en pleine croissance
Dans un contexte de forte croissance et d'augmentation continue des usages de nos produits, nous renforçons notre équipe Infrastructure & Platform Engineering.
Notre ambition est de construire une plateforme fiable, scalable et sécurisée, permettant aux équipes de développement de se concentrer sur la création de valeur. Pour accompagner cette transformation, nous recherchons un(e) SRE Manager capable de piloter les enjeux de fiabilité, de supervision et d'excellence opérationnelle tout en accompagnant l'équipe dans sa montée en maturité.
Tu travailleras en étroite collaboration avec les équipes Infrastructure, Développement, Produit et SecOps afin de garantir la disponibilité de nos services et d'installer durablement une culture SRE au sein de l'organisation.
Ton rôle:
En tant que SRE Manager, tu seras le référent des sujets de fiabilité opérationnelle, d'observabilité et d'amélioration continue de notre plateforme.
Aux côtés du Responsable Infrastructure, tu contribueras à structurer les pratiques SRE, accompagner les équipes techniques et porter les projets liés à la supervision, à l'automatisation et à la continuité de service.
Tu seras également un acteur clé dans la mise en place d'une organisation de supervision 24/7 et dans la coordination des partenaires impliqués dans l'exploitation de notre plateforme.
Tes missions
Fiabilité et Excellence Opérationnelle
- Définir et piloter les indicateurs de fiabilité (SLI), les objectifs de service (SLO) et les budgets d'erreur.
- Garantir la disponibilité et la résilience des plateformes en production.
- Participer à la gestion des incidents majeurs et coordonner les cellules de crise lorsque nécessaire.
- Mettre en place et maintenir les runbooks opérationnels afin d'améliorer la réactivité des équipes.
- Animer les retours d'expérience et post-mortems dans une démarche d'amélioration continue.
- Accompagner les équipes dans l'adoption des bonnes pratiques SRE.
Observabilité et Supervision
- Définir et faire évoluer notre stratégie de monitoring et d'alerting.
- Structurer les pratiques d'observabilité (logs, métriques, traces).
- Développer une supervision proactive permettant d'anticiper les incidents avant leur impact utilisateur.
- Piloter la mise en place d'une supervision externalisée 24/7.
- Produire les indicateurs de suivi et les reportings liés à la disponibilité des services.
Platform Engineering & Automatisation
- Contribuer à l'évolution de notre plateforme cloud basée sur Kubernetes.
- Industrialiser les déploiements et le provisioning via l'Infrastructure as Code.
- Participer à l'amélioration des services proposés aux équipes de développement (alerting, documentation, self-service, automatisation).
- Réduire le "toil" en automatisant les tâches répétitives et en développant des mécanismes d'auto-remédiation.
Management & Coordination
- Accompagner la montée en compétences des membres de l'équipe.
- Assurer la coordination entre les équipes Infrastructure, Développement, Produit et Sécurité.
- Adapter ta communication à des interlocuteurs techniques comme non techniques.
- Représenter l'équipe auprès des partenaires internes et externes.
- Participer à la structuration des processus, de la documentation et des standards opérationnels.
Ce que nous pouvons t'apporter :
Notre stack technique:
Cloud & Infrastructure
- AWS (EKS, RDS, IAM, VPC, S3, Redshift, Bedrock)
- Kubernetes
- Docker
Infrastructure as Code
- Terraform
- OpenTofu (ou équivalent)
- Helm
- SOPS
CI/CD
- GitHub Actions
Observabilité
- Grafana
Data & Middleware
- PostgreSQL
- Elasticsearch
- Valke
Profil recherché :
Ton expérience
- Tu disposes d'au moins 5 ans d'expérience dans des environnements cloud critiques en tant que SRE, DevOps, Platform Engineer ou Infrastructure Engineer.
- Tu as déjà participé à la mise en place ou à la structuration de pratiques SRE.
- Une expérience dans un environnement SaaS, FinTech ou à forte volumétrie est un véritable atout.
Tes compétences techniques
- Tu maîtrises les environnements AWS et les architectures cloud modernes.
- Tu possèdes une solide expérience de Kubernetes et des architectures microservices.
- Tu es à l'aise avec Terraform ou des solutions équivalentes d'Infrastructure as Code.
- Tu maîtrises les sujets de monitoring, alerting, observabilité et gestion d'incidents.
- Tu connais les principes SRE : SLI, SLO, Error Budget, MTTD et MTTR.
- Tu apprécies l'automatisation et sais développer des scripts ou outils en Python, Go ou équivalent.
Ce qui fera la différence
- Une expérience dans la mise en place d'une supervision ou d'une astreinte 24/7.
- Une forte sensibilité aux sujets de Platform Engineering et d'expérience développeur.
- Une capacité à faire le lien entre enjeux techniques, opérationnels et humains.
- Une excellente communication et une capacité à vulgariser des sujets complexes.
- L'envie de construire, structurer et faire grandir une organisation technique.
Pourquoi nous rejoindre ?
- Pour participer à la construction d'une plateforme moderne et à fort impact.
- Pour avoir une réelle influence sur les choix d'architecture, d'observabilité et d'exploitation.
- Pour rejoindre une équipe experte, bienveillante et orientée amélioration continue.
- Pour contribuer activement à la diffusion de la culture SRE et Platform Engineering au sein de l'entreprise.
FULL REMOTE POSSIBLE
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.