Le client est un acteur majeur du secteur bancaire. Notre travail est de mettre en place des plateformes Cloud-Native de Data Science (Domino Datalab) clé-en-main pour l’ensemble des équipes Data du groupe. À ce jour, nous avons 25 gros clients, représentant au total près de 700 Data Scientists utilisant nos plateformes. Actuellement, nous assurons l’installation, le déploiement et le support de 2 typologies de plateformes : Celles installées sur une ferme de GPUs Nvidia, installées sur des machines On-Premises, utilisables par toutes les équipes Data Science qui en font la demande Celles installées sur IBM Cloud Nous développons également des services / produits rattachés à ces plateformes : → Up & Running : Le Model Hub : Catalogue de modèles LLM utilisables dans la banque. L’AI Competency Center : Nous sommes délégués chez des clients du groupe pour sortir de terre des projets IA → En cours (et où votre accompagnement sera très bénéfique !) : Plateforme d’inférence dédiée Notre équipe est passée de 4 à 12 personnes en 2ans et nous passons à 16 cette année. Elle est séparée en 3 « mini-équipes » : Front : Assurent le développement des solutions à offrir as-as-service et l’accompagnement des utilisateurs. Automation : Assurent les déploiements, le devsecops Back : Assurent l’administration des systèmes Une équipe de DevOps pour les outils de plateformes (Vault, SSO etc) Une équipe de SRE pour les plateformes d’infra Une équipe qui supporte le Datalake (Trino, Spark, et Minio) Notre environnement technique Plateforme de Data Science (Domino Datalab) Cloud native / Kubernetes Centric (Stateful workloads, stockage multi-AZ, GPUs, etc.) Stack Domino DataLab cloud-native dans K8s: Platform: ElasticSearch, MongoDB, RabbitMQ, Redis, PostgreSQL, etc Environnements de Dev interactifs: (code server, Jupyterlab, Jupyter, etc.) GPUs Nvidia (A100, V100, DGX, Infiniband, etc.) Clusters de compute distribues: (Spark, ray, dask, mpi, etc.) Outils de monitoring AIOps (Prometheus, Grafana, Elastic Stack) Infrastructure: Cloud IBM (possibilité d'ouverture multi-cloud) Bare Metal Cloud (on premise) récemment : nous commençons à travailler avec Red Hat OpenShift AI pour le côté IA Profil candidat: Votre rôle : Piloter l'exploitation et l'optimisation d'un cluster Kubernetes bare metal complet, conçu pour les charges de travail exigeantes en IA/ML. Les responsabilités englobent un large éventail d'expertises techniques, notamment : Gestion et maintenance du système d'exploitation (RHEL) Installation, mise à niveau, gestion et maintenance du cluster Kubernetes Infrastructure GPU NVidia, V100, A100, H100, du pilote aux graphiques d'opérateur GPU Exploitation réseau, notamment Infiniband Fabric pour exploiter la puissance GPU Surveillance détaillée afin d'optimiser l'utilisation des ressources et de garantir les performances et l'évolutivité
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.