Contexte et atouts du poste
Le poste s’inscrit dans le cadre d’une collaboration entre l’entreprise Hivenet et l’équipe TOPAL. La personne retenue rejoindra l’équipe TOPAL, basée à Inria Bordeaux.
À propos de TOPAL :
Chez TOPAL, nous relevons les défis émergents à l’intersection du calcul haute performance (HPC), de la simulation numérique et de l’apprentissage automatique. Alors que les plateformes de calcul deviennent de plus en plus vastes et complexes — avec des millions de cœurs et une diversité de matériels comme les GPU — nous mettons à profit notre expertise de longue date dans les systèmes d’exécution dynamiques pour exploiter au mieux ces ressources. Notre travail permet de s’adapter à des charges de travail imprévisibles et d’optimiser l’ordonnancement des tâches sans s’appuyer sur une planification rigide. Nous étendons aujourd’hui ce savoir-faire à des applications émergentes comme l’entraînement de réseaux de neurones profonds, qui imposent des contraintes particulières en matière de calcul et de mémoire.
Parallèlement, nous répondons à l’urgence de réduire la consommation énergétique et l’empreinte carbone du HPC. Cela implique de repenser les algorithmes, les déplacements de données et l’usage du matériel pour construire des systèmes plus durables. Une priorité pour nous est la gestion efficace des données, car leur déplacement et leur stockage deviennent souvent plus coûteux que le calcul lui-même. En combinant notre expertise en algèbre linéaire, en ordonnancement des ressources et en optimisation algorithmique avec ces nouveaux enjeux, nous contribuons à façonner l’avenir du calcul scientifique sur les plateformes de prochaine génération.
À propos de l’entreprise Hivenet :
Hivenet façonne l’avenir du cloud computing en tirant parti de la capacité de calcul inutilisée pour proposer une alternative décentralisée, écologique et centrée sur l’utilisateur aux services cloud traditionnels.
Mission confiée
Contexte
Hivenet est une entreprise qui propose aux particuliers comme aux entreprises de mettre à disposition leurs ressources informatiques inutilisées. Hivenet propose ainsi une offre de stockage de données, HiveDisk, qui utilise les espaces de stockage accordés par les contributeurs à HiveDisk. Cela permet aux utilisateurs de HiveDisk de profiter d’un stockage géo-distribué et répliqué. De la même façon, Hivenet souhaite pouvoir partager, via HiveCompute, les ressources de calcul (surtout des GPU) inutilisées pour réaliser principalement des tâches d’entraînement et d’inférence d’applications d’intelligence artificielle. L’utilisateur peut, via une interface web, demander l’allocation d’un certain nombre de GPU répartis sur différentes machines, puis y accéder pour exécuter ses calculs. Dans un premier temps, les GPU alloués seront sur des machines appartenant à un même réseau local (par exemple le réseau d’un site d’entreprise ou un conteneur PoliCloud), mais l’objectif à terme est de pouvoir utiliser des GPU situés sur différents réseaux d’entreprises ou de communautés à différents endroits (par exemple tous les sites d’une entreprise à l’échelle d’un pays) [1].
Ce projet présente de nombreux défis, principalement parce que l’environnement visé diffère des environnements HPC traditionnels. D’un point de vue matériel, les machines sont moins puissantes, hétérogènes, et sont interconnectées par un réseau classique, moins performant et moins fiable qu’un réseau HPC. Il faut également prendre en compte que les ressources de calcul ne sont pas disponibles en permanence (par exemple, les machines sont moins disponibles en journée car les employés les utilisent) et qu’elles sont plus susceptibles de disparaître à tout moment. De plus, utiliser des machines appartenant à différents sites géographiques crée un réseau aux performances hétérogènes : la latence pour communiquer entre deux sites est bien plus élevée qu’au sein d’un même site.
Objectifs
Cette thèse a pour objectif d’explorer les problématiques liées aux communications réseau dans un tel contexte. Pour cela, il sera nécessaire de considérer l’ensemble des bibliothèques de communication existantes (telles que PCCL [3], MPI [2] ou Dans un second temps, on envisagera la gestion de l’occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d’adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.
Bibliographie
[1] N. T. Karonis, B. de Supinski, I. Foster, W. Gropp and E. Lusk, "A Multilevel Approach to Topology-Aware Collective Operations in Computational Grids." arXiv preprint cs/0206038, 2002
[2] L. Shalev, H. Ayoub, N. Bshara, and E. Sabbag, "A Cloud-Optimized Transport Protocol for Elastic and Scalable HPC", IEEE micro, 40, 67-73.
[3] M. Keiblinger, M. Sieg, J. Min Ong, S. Jaghouar and J. Hagemann, "Prime Collective Communications Library -- Technical Report", arXiv preprint arXiv:2505.14065, 2025
Principales activités
Le doctorant mènera des recherches originales sur le sujet décrit ci-dessus et collaborera avec les membres de l’équipe TOPAL ainsi qu’avec les partenaires de Hivenet.
Les activités incluent, sans s’y limiter : une synthèse bibliographique, des travaux de recherche, des développements logiciels, la présentation des résultats lors de conférences, la participation à des écoles de recherche, etc.
Compétences
Compétences techniques et niveau requis :
1. Solide compréhension des communications réseau (sockets, TCP/IP) ;
2. Maîtrise de la programmation système (C/C++) et d’un langage de haut niveau (Python) ;
3. Une expérience avec les frameworks d’intelligence artificielle (PyTorch, TensorFlow, ...) et la mesure de performance logicielle est un atout ;
4. Un intérêt pour les systèmes distribués et le calcul haute performance (HPC) est également un plus.
Langues :
Bonnes compétences en communication en anglais (le français est un plus).
Compétences relationnelles :
Capacité à travailler en collaboration dans un environnement mêlant recherche académique et secteur industriel.
Avantages
5. Restauration subventionnée
6. Transports publics remboursés partiellement
7. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
8. Possibilité de télétravail et aménagement du temps de travail
9. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
10. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
11. Accès à la formation professionnelle
12. Sécurité sociale
Rémunération
La rémunération sera de 2200€ brut par mois, puis 2300€ brut par mois à compter de 2026.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.