CONTEXTE & OBJECTIF DU POSTE Le client recherche un ingénieur Cloud/DevOps orienté production pour assurer la stabilité, la fiabilité et la performance des systèmes en production sur un environnement cloud hybride AWS/GCP. Le rôle est à dominante RUN opérationnel avec une forte dimension automatisation et industrialisation (IaC, CI/CD, scripting). La stack : AWS GCP, Kafka, Elasticsearch, Couchbase, Mesos — environnement legacy en évolution vers du cloud. Le profil doit être à l'aise dans la complexité et l'hétérogénéité. Trois enjeux concrets : - Garantir la disponibilité production au quotidien : monitoring proactif, gestion des incidents de bout en bout (détection, RCA, actions correctives), astreinte via PagerDuty - Automatiser et industrialiser les opérations : réduction de la dette manuelle via Terraform, Ansible, Python et Bash - Collaborer avec les équipes de développement pour améliorer la déployabilité et l'exploitabilité des applications MISSIONS PRINCIPALES Supervision & Disponibilité Production - Assurer le monitoring 24/7 des systèmes de production via Grafana, Prometheus, Datadog et Stackdriver — détection proactive des anomalies avant impact utilisateur - Créer et maintenir les dashboards et les alertes, corréler les événements pour le diagnostic d'incidents - Participer à l'astreinte on-call (PagerDuty) sur les systèmes critiques Gestion des Incidents - Prendre en charge les incidents de production, mener le troubleshooting et produire les RCA (Root Cause Analysis) - Définir et mettre en œuvre les actions correctives et préventives pour éviter la récurrence - Communiquer de façon claire avec les équipes et le management en situation de crise Automatisation & Infrastructure as Code - Écrire et maintenir les configurations Terraform en production (modules, state management, workspaces) - Automatiser les opérations répétitives via Python et Bash — déploiements, inventaire, vérification, reporting - Gérer la configuration via Ansible et maintenir les pipelines GitLab CI Exploitation des Environnements Conteneurisés & Plateformes - Opérer Kubernetes en production : déploiements, services, scaling HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC - Opérer Kafka en production : monitoring du lag consumer, gestion des topics et partitions, diagnostic des incidents de streaming - Assurer le support opérationnel sur les bases de données : PostgreSQL, Elasticsearch, Couchbase (performances, sauvegardes, restaurations) Réseau & Sécurité Cloud - Gérer les VPN, NAT, routage IP, proxy et load balancing en environnement cloud AWS et GCP - Appliquer les bonnes pratiques de sécurité et de gestion des accès (IAM, VPC)
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.