Un grand acteur du secteur bancaire développe et opère en interne une plateforme data et IA destinée à accompagner les équipes de data scientists et d?analystes dans tout le cycle de vie de leurs projets : du développement à l?industrialisation en production.
Cette plateforme s?appuie sur un cloud privé on-premise et sur une stack technologique moderne et open source, fortement orientée Kubernetes.
L?objectif est d?offrir un environnement stable, automatisé et performant pour la mise à disposition d?environnements de développement, le déploiement de modèles, et leur supervision en production.
Dans ce cadre, l?équipe recherche un profil SRE / Ops expérimenté pour renforcer la fiabilité, la supervision et l?automatisation de la plateforme, en interaction directe avec les équipes de développement, d?architecture et d?infrastructure.
Missions principales:
En tant que Site Reliability Engineer / Ops, vous interviendrez au c?ur de la plateforme et participerez à son évolution technique.
Vos responsabilités clés :Administration et exploitation
Gérer et maintenir les clusters Kubernetes on-premise
Superviser les déploiements des applications et services de la plateforme
Garantir la stabilité, la performance et la disponibilité des environnements
Automatisation et industrialisation
Développer et maintenir les pipelines d?automatisation via Terraform, ArgoCD et Argo Workflows
Contribuer à la mise en ?uvre et à l?amélioration des processus CI/CD
Participer à la conception d?une infrastructure fiable, scalable et résiliente
Supervision et observabilité
Mettre en place et administrer les outils de monitoring et de logging (Prometheus, Grafana, Kibana)
Créer des tableaux de bord pour suivre les performances et anticiper les dérives (drift, charge, erreurs)
Participer aux actions d?amélioration continue (tests de charge, alerting, performance tuning)
Support et collaboration
Travailler en proximité avec les développeurs (Python, Go) pour optimiser les déploiements et intégrations
Être le point de contact technique sur les sujets d?infrastructure et de fiabilité
Contribuer à la définition des bonnes pratiques DevOps et SRE
Profil candidat:
Compétences techniquesSolide expérience en administration Kubernetes (idéalement sur environnement on-premise)
Maîtrise des outils d?automatisation : Terraform, ArgoCD, Argo Workflows
Compétences en monitoring / observabilité : Prometheus, Grafana, Kibana
Bonne compréhension des concepts CI/CD, cloud privé et SRE (SLI, SLO, SLA)
Connaissances en réseau, sécurité et stockage (S3, MinIO, Portworx)
Pratique de Python ou Go appréciée pour l?automatisation et l?intégration
Soft skillsEsprit analytique, rigoureux et orienté fiabilité
Fort intérêt pour la technique et l?amélioration continue
Capacité à collaborer avec des équipes pluridisciplinaires (dév, data, infra)
Curiosité et autonomie, envie de comprendre en profondeur le fonctionnement des systèmes
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.