Objectif global :Réaliser le run de l'observabilité
Contrainte forte du projet -
Description détaillée Au sein de la "Global Tech & Data platform", vous êtes responsable du run de la plateforme d'observabilité composée de plusieurs outils d'alerting, monitoring, log management et APM pour des applications à la fois hébergées on Premise, dans le cloud ou SaaS. Cette mission se déroule en deux phases :
une phase d'immersion au sein de l'équipe observabilité (minimum 3 mois) pour monter en compétences
une seconde phase d'intégration à notre Front Desk, en participant activement à sa construction.
Votre mission :
- Traiter les tickets d'incidents et demandes de services liés aux outils d'observabilité (principalement Centreon, Datadog, PagerDuty, OpenTelemetry et Grafana)
- Escalader et requalifier si nécessaire les demandes à l'équipe.
- Suivre et améliorer les tableaux de bord de suivi du run d'observabilité (SLO, performance, KPI, satisfaction utilisateur ...) et présenter un reporting chaque semaine à l'équipe.
- Améliorer la documentation d'exploitation en coordination avec les membres de l'équipe.
- Accompagner nos utilisateurs (Dev et Ops des Features Teams) au travers des différents canaux de support afin de leur apporter la meilleure expérience.
- Identifier les demandes récurrentes à automatiser
- proposer des améliorations ou des automatisations sur les incidents ou demandes récurrentes.
Nombre de jours souhaités par le chef de projet 135.0 jours
Lieu de réalisation Ronchin
Déplacement à prévoir non
Le projet nécessite des astreintes oui
Nombre de jours souhaitables sur site 2 jours par semaine
Profil :
Les livrables sont Documentation
Reporting (SLO et KPI)
Automatisation des tâches récurrentes (amélioration continue)
Compétences techniques GCP - Confirmé - Impératif
Centreon, Datadog, Open Telemetry, Grafana - Confirmé - Impératif
Kubernetes - Confirmé - Important
Terraform, AWX, Helm - Confirmé - Souhaitable
Connaissances linguistiques Anglais Courant (Impératif)
Environnement technique :
- Maîtrise de GCP
- Maîtrise de solution d'Obserabilité, idéalement Datadog et/ou Grafana.
- Maîtrise de Nagios/Centreon
- k8s / Helm
- Terraform
- Python
- GitHub
Connaissances très appréciées :
- AWX
- SRE et SLO
- ArgoCD
- Méthode agile
Profil
Autonome, organisé, rigoureux et curieux, capacité d'analyse, bonnes qualités rédactionnelles et relationnelles.
Vous êtes familier avec les contraintes liées aux environnements de production des SI
De part vos expériences précédentes, vous êtes en mesure d'accompagner et supporter au quotidien nos utilisateurs sur les Best Practices de l'observabilité
Profil junior ingénieur accepté si motivé pour monter en compétences sur les produits d'observabilité.
Prérequis :
- Anglais courant
- Astreintes possibles
Code profil FR-6.06.3 - Administrateur d'outils / de systèmes / de réseaux -télécoms-E
Définition du profil NIVEAU Expert
SA MISSION :
Il installe, met en production, administre et exploite les moyens informatiques d'un ou plusieurs sites informatiques.
Il participe au bon fonctionnement des systèmes d'information en garantissant le maintien à niveau des différents outils et/ou infrastructures des logiciels systèmes et/ou infrastructures de communication (locale, étendue, voix, image, architecture centralisée, client-serveur, web, mobile ), dans un objectif de qualité, de productivité et de sécurité.
SON ACTIVITE :
ADMINISTRATION :
- Est responsable du fonctionnement optimal des outils, systèmes ou réseaux dont il a la charge
- Met en œuvre les outils garantissant la cohérence des données
- Possède une vision globale et actualisée des systèmes d'information ainsi qu'une bonne connaissance de l'entreprise
- Effectue un inventaire permanent et gère les différentes composantes des différents réseaux
- Suit et analyse les performances, met en place des mesures susceptibles d'améliorer la qualité ou la productivité de l'outil
- Elabore les règles d'utilisation de l'outil, en conformité avec les normes et standards de l'entreprise et dans le respect des contrats de service. Documente, Promeut et contrôle leur application
- Organise et optimise les ressources de son domaine
EXPLOITATION :
- Valide l'installation et l'intégration des nouveaux outils (systèmes, ou réseaux et télécoms) dans l'environnement de production
- Gère les droits d'accès aux serveurs et aux applications en fonction des profils
- Traite les incidents ou anomalies à partir des demandes internes : diagnostic de l'incident, identification, formulation et suivi de sa résolution
SUPPORT :
- Participe aux actions de maintenance correctrice en veillant à leur qualité
- Propose des améliorations pour optimiser les ressources existantes et leur organisation
- Effectue le transfert de compétences et l'assistance technique des procédures aux équipes d'exploitation et participe éventuellement à leur formation
MAINTENANCE Et SÉCURITÉ :
- Gère les accès aux ressources du SI (en général)
- Gère les évolutions et la maintenance des matériels, des logiciels et du système
- Gère les performances (seuils d'alerte et tuning des ressources et produits du domaine)
ÉTUDES :
- Effectue des études de préconisation et d'implantation des matériels, outils et logiciels adaptés
- Effectue une veille technologique sur les différents aspects de l'infrastructure système et de communication (matériels, logiciels, architecture, protocole, mode de transferts)
SES LIVRABLES :
- L'équipement réseau dont il a la charge
- Fiche de clôture d'incident
SES INDICATEURS DE PERFORMANCE :
- Respect des SLAs
Données complémentaires
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.