Responsable engineering - site reliability engineering sre h/f

La Ciotat

CDI

Publiée le 20 mai

Description de l'offre

- Une réussite portée par notre excellence technologique, votre expérience et notre ambition partagée
- Un package de rémunération attractif
- Un développement des compétences en continu: parcours de formation, académies et communautés internes
- Un environnement inclusif, bienveillant et respectant l'équilibre des collaborateurs
- Un engagement sociétal et environnemental reconnu

Votre quotidien
En nous rejoignant à La Ciotat, vous intégrez un site idéalement localisé sur le littoral méditerranéen, au sein d'un environnement international regroupant nos activités d'identité et de sécurité numériques.
Au sein de **Cybersécurité et Identité Numérique (CDI)**, le **Cloud Center of Excellence (CCoE)** centralise l'expertise cloud pour accélérer la transformation numérique de Thales.

Le CCoE opère sur **Cloud Start**, **Cloud Boost**, et **Cloud Scale**, au service de plusieurs Business Lines (MCS, PAY, IBS).

Le département SRE protège la santé opérationnelle de cinq produits coeur :
- **Synapse** (passerelle IA gérée)
- **Jarvis** (tour de contrôle développeur)
- **Oxygen** (services de plateforme et API)
- **Photon** (services de données et calcul)
- **Foundations** (infrastructure et fondations de plateforme)

Le poste dirige les ingénieurs SRE responsables de la fiabilité, de l'observabilité et de l'excellence incident à l'échelle CCoE, avec **Datadog** comme colonne vertébrale stratégique de l'observabilité.

Vos missions

People Management
- Assumer le développement de carrière, les revues de performance et le mentorat des ingénieurs SRE
- Construire des plans de croissance avec un fort développement des capacités Datadog (infra, APM, logs, synthetics, RUM, sécurité, automation)
- Favoriser les post-mortems sans blâme, la sécurité psychologique et des pratiques d'astreinte durables
- Équilibrer la préparation aux incidents avec le développement à long terme de l'équipe

Delivery & Strategy
- S'associer à toutes les équipes produit pour définir et gouverner les SLOs, error budgets et cibles de fiabilité
- Améliorer la réponse aux incidents et le MTTR via des garde-fous automatisés et la maturité des runbooks
- Définir les standards de fiabilité et les processus d'excellence opérationnelle
- Piloter l'adoption et la maturité de Datadog dans l'ensemble de l'organisation
- Traduire la croissance business en plans de capacité et de résilience opérationnelle

Technical Oversight
- Orienter l'architecture de fiabilité sur Synapse, Jarvis, Oxygen, Photon et Foundations
- Garantir une couverture d'observabilité de haute qualité et une intelligence incident fiable
- Soutenir l'adoption des pratiques avancées Datadog (SLO/error budgets, prévision, détection d'anomalies, corrélation)
- Agir comme référent technique sans devenir un goulot d'étranglement opérationnel

Cross-functional Collaboration
- Co-responsabiliser les engagements de fiabilité avec les Product Owners et Engineering Managers
- Agir comme point de contact exécutif lors des incidents et revues de fiabilité
- Faire remonter les risques tôt et négocier les compromis innovation vs. stabilité
- Aligner les pratiques SRE sur le modèle opérationnel délégué du CCoE

Votre profil

- Vous êtes diplômé d'un Master 2 en ingénierie ou d'une école d'ingénieur

- Expérience avérée dans la gestion d'équipes SRE ou de plateforme engineering, incluant le management humain direct
- Solide background en site reliability engineering, observabilité et systèmes distribués
- Expérience pratique sur Datadog ou plateformes d'observabilité équivalentes à grande échelle
- Expérience démontrée dans la propriété de cadres SLO, error budgets et gestion d'incidents de production
- Exposition antérieure aux environnements cloud (AWS/Azure/GCP) et aux plateformes conteneurs (Kubernetes/EKS/AKS)

- Expérience dans la création d'automatisation opérationnelle, garde-fous et modèles d'auto-réparation

- Courant en anglais ; le français est un plus

- Leadership de fiabilité : conception des SLOs, commande d'incidents, boucles d'amélioration post-incident
- Expertise en observabilité : métriques/logs/traces/signaux utilisateur et qualité d'alerte actionnable
- Prise de décision opérationnelle sous pression avec une communication claire avec les parties prenantes
- Influence inter-équipes pour aligner la vélocité engineering sur les standards de fiabilité
- Discipline d'exécution forte dans les contextes astreinte et critiques pour la production

Idéalement vous disposez :

- Expertise avancée de l'écosystème Datadog (gouvernance entreprise, templates réutilisables, workflows)
- Expérience de support des plateformes centrées sur l'IA et gestion des risques de dépendances tierces
- Familiarité avec la planification de fiabilité informée par FinOps et compromis coût-performance cloud
Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Responsable engineering – site reliability engineering (sre) h/f

La Ciotat

CDI

Thales DIS France SAS

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.