- Une réussite portée par notre excellence technologique, votre expérience et notre ambition partagée
- Un package de rémunération attractif
- Un développement des compétences en continu: parcours de formation, académies et communautés internes
- Un environnement inclusif, bienveillant et respectant l'équilibre des collaborateurs
- Un engagement sociétal et environnemental reconnu
Votre quotidien
En nous rejoignant à La Ciotat, vous intégrez un site idéalement localisé sur le littoral méditerranéen, au sein d'un environnement international regroupant nos activités d'identité et de sécurité numériques.
Au sein de **Cybersécurité et Identité Numérique (CDI)**, le **Cloud Center of Excellence (CCoE)** centralise l'expertise cloud pour accélérer la transformation numérique de Thales.
Le CCoE opère sur **Cloud Start**, **Cloud Boost**, et **Cloud Scale**, au service de plusieurs Business Lines (MCS, PAY, IBS).
Le département SRE protège la santé opérationnelle de cinq produits coeur :
- **Synapse** (passerelle IA gérée)
- **Jarvis** (tour de contrôle développeur)
- **Oxygen** (services de plateforme et API)
- **Photon** (services de données et calcul)
- **Foundations** (infrastructure et fondations de plateforme)
Le poste dirige les ingénieurs SRE responsables de la fiabilité, de l'observabilité et de l'excellence incident à l'échelle CCoE, avec **Datadog** comme colonne vertébrale stratégique de l'observabilité.
Vos missions
People Management
- Assumer le développement de carrière, les revues de performance et le mentorat des ingénieurs SRE
- Construire des plans de croissance avec un fort développement des capacités Datadog (infra, APM, logs, synthetics, RUM, sécurité, automation)
- Favoriser les post-mortems sans blâme, la sécurité psychologique et des pratiques d'astreinte durables
- Équilibrer la préparation aux incidents avec le développement à long terme de l'équipe
Delivery & Strategy
- S'associer à toutes les équipes produit pour définir et gouverner les SLOs, error budgets et cibles de fiabilité
- Améliorer la réponse aux incidents et le MTTR via des garde-fous automatisés et la maturité des runbooks
- Définir les standards de fiabilité et les processus d'excellence opérationnelle
- Piloter l'adoption et la maturité de Datadog dans l'ensemble de l'organisation
- Traduire la croissance business en plans de capacité et de résilience opérationnelle
Technical Oversight
- Orienter l'architecture de fiabilité sur Synapse, Jarvis, Oxygen, Photon et Foundations
- Garantir une couverture d'observabilité de haute qualité et une intelligence incident fiable
- Soutenir l'adoption des pratiques avancées Datadog (SLO/error budgets, prévision, détection d'anomalies, corrélation)
- Agir comme référent technique sans devenir un goulot d'étranglement opérationnel
Cross-functional Collaboration
- Co-responsabiliser les engagements de fiabilité avec les Product Owners et Engineering Managers
- Agir comme point de contact exécutif lors des incidents et revues de fiabilité
- Faire remonter les risques tôt et négocier les compromis innovation vs. stabilité
- Aligner les pratiques SRE sur le modèle opérationnel délégué du CCoE
Votre profil
- Vous êtes diplômé d'un Master 2 en ingénierie ou d'une école d'ingénieur
- Expérience avérée dans la gestion d'équipes SRE ou de plateforme engineering, incluant le management humain direct
- Solide background en site reliability engineering, observabilité et systèmes distribués
- Expérience pratique sur Datadog ou plateformes d'observabilité équivalentes à grande échelle
- Expérience démontrée dans la propriété de cadres SLO, error budgets et gestion d'incidents de production
- Exposition antérieure aux environnements cloud (AWS/Azure/GCP) et aux plateformes conteneurs (Kubernetes/EKS/AKS)
- Expérience dans la création d'automatisation opérationnelle, garde-fous et modèles d'auto-réparation
- Courant en anglais ; le français est un plus
- Leadership de fiabilité : conception des SLOs, commande d'incidents, boucles d'amélioration post-incident
- Expertise en observabilité : métriques/logs/traces/signaux utilisateur et qualité d'alerte actionnable
- Prise de décision opérationnelle sous pression avec une communication claire avec les parties prenantes
- Influence inter-équipes pour aligner la vélocité engineering sur les standards de fiabilité
- Discipline d'exécution forte dans les contextes astreinte et critiques pour la production
Idéalement vous disposez :
- Expertise avancée de l'écosystème Datadog (gouvernance entreprise, templates réutilisables, workflows)
- Expérience de support des plateformes centrées sur l'IA et gestion des risques de dépendances tierces
- Familiarité avec la planification de fiabilité informée par FinOps et compromis coût-performance cloud
Thales, entreprise Handi-Engagée, reconnait tous les talents. La diversité est notre meilleur atout. Postulez et rejoignez nous !
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.