Poste basé à Lyon, Brest ou dans un de nos 6 autres bureaux.
#OVHcloud
Vous voulez contribuer à des projets uniques pour construire ensemble le cloud libre ? Allons-y!
Chez OVHcloud, nous sommes animés par la même volonté, celle de construire l’avenir ensemble pour défendre la liberté d’innover.
Avec plus d'1,6 millions de clients dans le Monde, OVHcloud est le leader Européen du cloud computing et le 3ème hébergeur Internet au rang mondial. Notre entreprise emploie plus de 2800 collaborateurs et nos équipes croissent à toute vitesse, en France comme à l'international.
Avec 43 data centres et une présence commerciale sur les 4 continents, nous fabriquons nos propres serveurs et maîtrisons ainsi l'ensemble de notre chaîne industrielle.
Nous défendons un cloud innovant et différent, qui respecte les valeurs européennes de liberté de choix, de transparence, d'ouverture aux standards, de protection de la vie privée.
Afin d’accompagner notre croissance, nous sommes constamment en quête de nouveaux talents qui partagent nos valeurs et nos ambitions.
Au sein de votre équipe #OneTeam
* Vous évoluerez au sein de l'Unité Object Storage qui gère l'ensemble des offres du même nom chez OVHcloud et dont l'ambition est de construire l'offre la plus performante et efficace du marché.
* En tant que Site Reliability Engineer dans ce département, afin de renforcer nos équipes et d'accélérer notre croissance, vous nous accompagnerez dans l'évolution, l'industrialisation et le maintien en condition opérationnelle de l'ensemble de nos produits.
Vos principales responsabilités
Vous utilisez et intégrez des assistants de code IA (et des agents IA dans vos workflows) pour relever les défis suivants :
* Améliorer les usages d'agents IA (assistants, automatisations) pour optimiser le monitoring, l'alerting et la détection d'incidents sur les plateformes Object Storage.
* Concevoir et intégrer des agents intelligents capables d'assister ou d'automatiser les workflows de résolution d'incidents et d'amélioration continue.
* Contribuer à diminuer le MTTD (Mean Time to Detection) et le MTTR (Mean Time to Recovery) via l'automatisation pilotée par ces agents et par vos procédures.
* Assurer la haute disponibilité, la fiabilité et la sécurité des plateformes Object Storage ;
vous suivez les indicateurs de performance et participez à leurs améliorations.
* Assurer que les clients reçoivent un support technique complet lorsque c'est nécessaire et vous mettez en œuvre, appliquez et automatisez les procédures pour résoudre les problèmes courants.
* Contribuer aux évolutions des outils de déploiement, de packaging, de monitoring et d'alerting, avec une intégration fluide des agents et des outils d'IA dans l'infrastructure existante et les projets futurs.
* Challenger les architectures logicielles et matérielles pour en améliorer les performances, la haute disponibilité et la scalabilité.
* Suivre l'adoption des produits et les usages clients, et vous collaborerez avec les équipes techniques et commerciales pour enrichir backlog et roadmap.
* Rédiger la documentation technique et les runbooks liés aux agents IA, aux automatisations et aux scénarios d'incident.
Votre futur impact
Dans 6 mois vous
* Serez monté en compétences sur l'environnement technique de nos clusters Object Storage et aurez contribué à le faire évoluer (Automatisation, Supervision, Industrialisation, fix techniques ...).
* Aurez participé en binome aux cycles de RUN de nos plateformes (traitement de demandes clients, traitement des alertes).
* Aurez découvert les différents usages de nos produits par nos clients.
Et dans 1 an vous
* Serez un élément moteur dans nos process d'amélioration continue.
* Participerez aux évolutions majeures de nos solutions.
* Participerez aux cycles d'astreintes de notre équipe SRE.
* Participerez aux cycles de RUN en autonomie.
Compétences requises :
* Vous êtes à l'aise en administration GNU/Linux.
* Expérience en intégration / utilisation d'agents IA (LLM) dans votre travail quotidien.
* Vous maitrisez un ou plusieurs langages de scripting (Python).
* Vous avez une expérience en automatisation et déploiement (Puppet, Ansible).
* Vous avez déjà travaillé sur des architectures micro services complexes.
* Vous maitrisez les outils de supervision et d'observabilité (Icinga / Prometheus / Alertmanager).
* Vous avez fait de l'orchestration d'infrastructure à grande échelle (Temporal).
C'est un +
* Vous avez une connaissance des API AWS S3.
* Vous avez déjà travailler sur des gros volumes de données.
REJOINDRE L’AVENTURE OVHCLOUD
OVHcloud valorise la diversité des personnes qu’elle embauche et accompagne. La diversité, pour OVHcloud, c’est favoriser un milieu de travail où les différences individuelles sont reconnues, appréciées et respectées de façon à développer le plein potentiel et les forces de chacune et chacun. Soyez libre d’être vous-même !
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.