Publiée le 17 juin
Mission du poste
Description du poste Contexte Le(s) candidat(s) intégré(s) au sein de l’équipe d’infrastructure cloud sera(ront) chargé(s) de garantir la disponibilité, la performance et la sécurité des plateformes OpenShift/Kubernetes en exploitation quotidienne (BAU‑RUN). Il/elle devra également prendre en charge les incidents complexes (≈ 60 % du temps) et contribuer à des projets transversaux (≈ 40 % du temps) : optimisation financière (FinOps), amélioration du tooling, automatisation et bonnes pratiques. Missions Exploitation courante – BAU / RUN (≈ 30 %) Veiller à la disponibilité, à la scalabilité et à la conformité des clusters OpenShift/Kubernetes. Effectuer les tâches de maintenance planifiée (patching, upgrades, sauvegardes). Contrôler les indicateurs de santé (metrics, logs, alerts) et assurer le suivi des SLAs. Gestion d’incidents complexes (≈ 30 %) Analyser, diagnostiquer et résoudre les incidents de niveau 2/3 affectant les workloads, le réseau, le stockage ou la sécurité. Coordonner les interventions multi‑équipes (développeurs, sécurité, réseau). Rédiger les rapports d’incident, identifier les causes racines et proposer des actions correctives/préventives. Projets transversaux et optimisation (≈ 40 %) FinOps : suivre la consommation de ressources cloud, proposer des actions de réduction de coûts (right‑sizing, utilisation de réservations, optimisation des quotas). Tooling & automatisation : développer ou améliorer les scripts/CI‑CD, les opérateurs, les chartes Helm et les outils de monitoring. Standardisation & bonnes pratiques : rédiger et diffuser les référentiels d’architecture, les guides de sécurisation et les procédures d’onboarding des équipes de développement. Participer aux revues de design, aux proof‑of‑concept (PoC) et aux migrations de workloads. Compétences attendues Niveau Compétences techniques Expérience Responsabilités spécifiques Niveau 1 - Maîtrise opérationnelle d’OpenShift 4.x et de Kubernetes (déploiements, services, ingress). Minimum 2 ans d’expérience en exploitation de clusters Kubernetes en production. - Gestion quotidienne des environnements, suivi des alertes, support de niveau 1/2. - Bonne connaissance des concepts réseau (CNI, Service Mesh), stockage persistant et sécurité des pods. - Participation à la résolution d’incidents courants. - Utilisation des outils de monitoring (Prometheus/Grafana, Loki) et de logging. - Scripting (Bash, Python) et automatisation basique (Ansible, GitOps). Niveau 2 - Expertise avancée sur l’architecture multi‑cluster, la haute disponibilité et le profiling des performances. Minimum 5 ans d’expérience, dont 3 ans à un poste d’expertise ou de lead sur des environnements Kubernetes/Openshift. - Prise en charge d’incidents critiques, analyses de causes racines et mise en place de correctifs durables. - Connaissance approfondie des mécanismes de sécurité (RBAC, OPA/Gatekeeper, secrets management). - Pilotage des initiatives FinOps et optimisation du tooling. - Expérience avec les plateformes FinOps et l’optimisation des coûts cloud. - Encadrement et transfert de connaissances aux équipes Niveau 1. - Développement d’opérateurs, Helm charts complexes, CI/CD avancé (Jenkins, GitLab CI, Argo CD). - Capacité à conduire des projets d’amélioration continue et à piloter des PoC. Environnement de travail Équipe d’infrastructure cloud multi‑disciplinaire. Collaboration avec les équipes de développement, sécurité, finance et gestion de projet. Utilisation d’outils de suivi (Jira/ServiceNow), de documentation (Confluence) et de versionning (Git). Modalités d’évaluation KPIs : disponibilité des clusters (MTBF, MTTR), temps moyen de résolution d’incidents, économies réalisées via FinOps, taux d’automatisation des tâches récurrentes. Revues périodiques : audits de conformité, évaluations de performance et bilans de projets transversaux. Profil recherché Diplôme d’ingénieur ou équivalent en informatique, télécoms ou disciplines connexes Autonomie, rigueur, capacité à travailler sous pression Bonnes aptitudes rédactionnelles et de communication (pour les rapports d’incident et la diffusion des standards) Maîtrise du français et de l’anglais (lecture/écriture technique)