Topic description
Cette thèse a pour objectif d'explorer les problématiques liées aux communications réseau dans un tel contexte. Pour cela, il sera nécessaire de considérer l'ensemble des bibliothèques de communication existantes (telles que PCCL [3], MPI [2] ou libp2p), afin de définir celle ou celles qui seront ensuite adaptées à l'environnement considéré. Une fois ce modèle de communication établi, on s'intéressera, étant donné un ensemble de machines et leur topologie, aux adaptations nécessaires des schémas de communication des applications d'apprentissage pour minimiser le coût des communications : par exemple en utilisant des algorithmes de routage et une répartition des calculs et des données plus adaptés au réseau connectant les machines. Il faudra également être en mesure de détecter la disparition et l'ajout possible de machines et s'adapter en conséquence, par exemple en ignorant les contributions des machines perdues dans le cas d'un parallélisme de données, ou bien en redistribuant les données et les calculs.
Dans un second temps, on envisagera la gestion de l'occupation du réseau dans le cas où HiveDisk et HiveCompute sont présents simultanément sur les mêmes réseaux et les mêmes machines, afin de conserver des performances satisfaisantes pour les deux services et d'adapter dynamiquement les paramètres de qualité de service en fonction des conditions du réseau et des exigences des utilisateurs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
The objective of this PhD thesis is to explore issues related to network communications in such a context. This will require an analysis of existing communication libraries (such as PCCL [3], MPI [2], or libp2p) in order to determine which one(s) can be adapted to the targeted environment. Once a suitable communication model is established, the work will focus—given a set of machines and their topology—on adapting communication patterns in learning applications to minimize communication overhead. This may involve using routing algorithms and better distribution of computation and data, tailored to the characteristics of the network interconnecting the machines.
The system will also need to detect the addition or loss of machines and respond accordingly—for example, by ignoring the contributions of lost machines in a data-parallel setup, or by redistributing the data and computation.
In a second phase, the project will consider how to manage network usage when HiveDisk and HiveCompute are active simultaneously on the same networks and machines. The goal will be to maintain acceptable performance levels for both services by dynamically adjusting quality-of-service parameters based on network conditions and user requirements.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Cifre
Funding further details
CIFRE ANRT
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.