Notre client est un acteur Cloud, opérateur souverain et durable de l’Expérience en tant que Service qui offre à ses clients des environnements technologiques de confiance. Nous recherchons un Architecte Réseau. Vous êtes en charge de l’architecture, de l’optimisation et de l’évolution des infrastructures réseaux, systèmes et GPU fabrics alimentant des charges IA critiques (training, fine-tuning, inference). L’environnement est international, hautement distribué (Europe, Amérique du Nord, Asie) et orienté performance extrême, faible latence et scalabilité horizontale. Architecture & design de la GPU Fabric : – Concevoir et faire évoluer des architectures réseau haut débit, faible latence, adaptées aux NVL72 et aux workloads IA massivement parallèles – Définir les topologies réseau (leaf-spine, fat-tree, dragonfly le cas échéant) pour : o Interconnexion intra-NVL72 o Scale-out multi-racks / multi-clusters – Sélectionner et valider les technologies : o InfiniBand HDR / NDR o Ethernet Spectrum / RoCEv2 o Dimensionner les fabrics pour des usages IA à très grande échelle (NCCL-heavy, all-reduce intensif) Performance, RDMA & communications GPU : – Piloter le développement, l’optimisation et le tuning des communications RDMA – Piles RDMA : libibverbs, rdma-core, NVPeerMemory – Optimisations GPUDirect / GPUDirect-RDMA – Garantir des transferts GPU ↔ GPU et GPU ↔ NIC à très haute performance, sans surcharge CPU – Optimiser les communications collectives : o NCCL o MPI / CUDA-aware MPI o Identifier et lever les goulots d’étranglement réseau, mémoire et CPU/GPU Intégration Kubernetes & workloads IA : – Concevoir l’intégration réseau de clusters GPU dans des environnements Kubernetes – Gérer l’exposition et l’isolation des interfaces RDMA : o Device Plugin NVIDIA o Network Operator / CNI avancés – Garantir le bon fonctionnement des workloads conteneurisés IA : o Training distribué o Jobs MPI / NCCL o Pipelines data → GPU Exploitation, observabilité & troubleshooting – Mettre en place et exploiter des solutions de monitoring avancé : – Latence, bande passante, congestion, erreurs – Outils : Prometheus, Grafana, NetQ, UFM (ou équivalents) – Analyser les performances réseau et GPU fabric en production – Proposer et implémenter : o Ajustements MTU o Affinités CPU/GPU o Tuning NIC, switch et firmware – Assurer le support niveau 2 / 3 sur incidents critiques Documentation – Rédaction de procédures, schémas d’infrastructure – Mise à jour du wiki Confluence et du CMDB (NetBox) Veille technologique – Suivi des évolutions NVIDIA, Mellanox, standards RDMA, Kubernetes – Proofofconcept sur les nouvelles générations de NIC (RoCE v2, InfiniBand Enhanced Speed)
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.