Au sein de votre équipe #OneTeam
* Intégrer l’équipe Baremetal Operations en charge du maintien en conditions opérationnelles des infrastructures et des services du périmètre par une approche proactive et prédictive, en assurant un haut niveau de disponibilité et une restauration automatisée ou rapide des services en cas d'incident.
* Construire un service hautement qualitatif en participant au développement, à l'automatisation et au déploiement de nouvelles solutions de supervision intelligente (observabilité, corrélation automatique des logs). Ces projets viseront la création et l'optimisation des outils existants en intégrant des technologies d'IA générative et prédictive pour maximiser l'efficacité opérationnelle et la qualité de service.
Vos principales responsabilités
* Analyser et résoudre les incidents en s'appuyant sur des outils d'AIOps (analyse avancée et corrélation de logs multi-sources), identifier les causes racines et automatiser leur traitement.
* Concevoir et implémenter des mécanismes d'auto-remédiation pour réduire le MTTR.
* Mettre en place des indicateurs et des alertes basés sur l'analyse prédictive des anomalies pour intervenir avant l'impact utilisateur.
* Traiter les demandes transmises par les équipes support client ou d'autres équipes opérationnelles.
* Créer et assurer le suivi des PostMortem en cas d'incident majeur, en exploitant l'IA pour documenter et accélérer l'analyse post-incident.
* Assurer la continuité de service 24h/24 (avec participation à des périodes d'astreintes, après une montée en compétence suffisante).
* Déployer et maintenir le parc interne BareMetal et les infrastructures cloud/hybrides.
* Développer des outils, des patchs et des fonctionnalités pour gérer les infrastructures, en maximisant l'usage d'assistants de code.
Votre futur impact
Dans 6 mois
* Vous aurez pris vos marques au sein de l'équipe Baremetal Operations et appréhendé notre infrastructure ainsi que nos services. Vous comprendrez les défis actuels liés à la haute disponibilité et commencerez à manipuler nos outils d'AIOps.
* Vous aurez participé à l'analyse et à la résolution des premiers incidents, en contribuant à l'identification des causes racines et en vous familiarisant avec nos mécanismes d'auto-remédiation.
* Vous aurez établi des relations avec les équipes support et les autres entités opérationnelles pour fluidifier le traitement des demandes et la gestion des alertes prédictives.
* Vous aurez exploré nos environnements de développement et de scripting (Python, Go, Bash) afin de proposer vos premières optimisations de code assistées par IA.
Et dans 1 an
* Vous aurez joué un rôle clé dans le déploiement de nouvelles solutions de supervision intelligente et l'intégration de technologies d'IA générative/prédictive au sein de nos outils d'exploitation.
* Vous aurez partagé votre expertise en pratiques AIOps et Prompt Engineering avec l'équipe, en automatisant une part significative des processus de traitement des anomalies et des PostMortem.
* Vous aurez interagi avec l'ensemble de l'écosystème technique d'OVHcloud, en assurant des astreintes en toute autonomie et en maintenant le parc BareMetal au meilleur niveau de performance et de scalabilité.
C
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.