Description du poste
Administrateur Système et Réseau – Usine à GPU
Localisation : Île de France
Contrat : CDI
Périmètre : AI Factory / GPU Infrastructure
À propos de QIYA Conseils
QIYA Conseils accompagne les entreprises innovantes dans leurs projets d’infrastructure cloud, IA et calcul haute performance. Nous identifions des experts capables de concevoir et d’optimiser des environnements technologiques de pointe à grande échelle.
À propos du client
Notre client est un acteur international de référence dans le domaine du cloud et de l’intelligence artificielle. Vous rejoindrez l’équipe AI Factory, en charge de l’exploitation et de la performance des usines à GPU réparties sur plusieurs continents.
Missions
Intégré(e) à l’équipe AI Factory, vous aurez pour responsabilité d’assurer la performance, la fiabilité et l’évolution de la chaîne de stockage et de communication qui alimente les usines à GPU (clusters NVIDIA). Vous interviendrez sur la conception, le déploiement et l’optimisation des réseaux haut débit et des communications RDMA pour des environnements d’IA à très grande échelle.
Conception et déploiement de fabrics haut débit
* Concevoir et dimensionner les architectures InfiniBand HDR/NDR et Ethernet Spectrum (RoCEv2).
* Garantir la scalabilité et la résilience des réseaux pour des services IA à forte intensité de données.
Développement et optimisation des communications RDMA
* Implémenter et ajuster les piles RDMA (libibverbs, NVPeerMemory).
* Optimiser GPUDirect et GPUDirect RDMA pour réduire la latence et la charge CPU.
Intégration RDMA / Kubernetes
* Configurer le device plugin NVIDIA pour exposer les interfaces RDMA aux pods Kubernetes.
* Garantir la performance des workloads conteneurisés (MPI, NCCL).
Collaboration et support
* Travailler avec les équipes d’infrastructure pour optimiser les pipelines de données et les communications collectives (NCCL, MPI, CUDA Aware MPI).
* Participer à la résolution d’incidents (ticketing Niveau 2) et au partage des bonnes pratiques.
Supervision et performance
* Analyser la latence et la bande passante via Prometheus, Grafana, NetQ, UFM.
* Identifier les goulots d’étranglement et proposer des optimisations (MTU, CPU affinity, tuning firmware).
Documentation et veille technologique
* Documenter les infrastructures et procédures dans Confluence et NetBox.
* Suivre les évolutions technologiques (NVIDIA, Mellanox, RDMA, Kubernetes) et mener des POC sur les nouvelles générations de NIC (RoCEv2, InfiniBand Enhanced Speed).
Profil recherché
Formation : Ingénieur ou équivalent Bac +5.
Expérience : Minimum 2 ans d’expérience pratique sur les technologies NVIDIA RDMA (GPUDirect, RoCE, InfiniBand) dans un environnement HPC ou IA.
Langues : Maîtrise du français et de l’anglais, à l’écrit comme à l’oral.
Compétences techniques principales
* GPU NVIDIA et cartes réseau Mellanox (InfiniBand, RoCE).
* Protocoles RDMA : GPUDirect RDMA, RoCEv2.
* Programmation bas niveau (C/C++ ou Rust).
* Maîtrise de la pile NVIDIA : pilotes Mellanox, libibverbs, NVPeerMemory.
Compétences complémentaires (au moins deux)
* Kubernetes (device plugin, SR-IOV, CNI).
* MPI & NCCL (CUDA Aware).
* Automatisation : Ansible, Terraform, Python/Bash, Git/GitLab CI.
* Administration Linux (kernel tuning, netfilter).
* Supervision : Prometheus, Grafana, UFM, NetQ, Zabbix, NetBox.
Qualités personnelles
* Capacité d’analyse et de résolution de problèmes complexes.
* Esprit d’équipe et communication claire.
* Autonomie, rigueur et sens de l’initiative.
Certification appréciée : NVIDIA DLI.
Environnement de travail
* Infrastructure GPU mondiale dédiée aux workloads IA et HPC.
* Collaboration étroite avec des équipes d’experts réseau, système et cloud.
* Accès à des environnements technologiques de pointe et à une culture d’excellence technique.
Vous souhaitez évoluer dans un environnement technologique d’envergure et participer à la performance d’infrastructures GPU de nouvelle génération ?
Transmettez votre candidature dès aujourd’hui.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.