Ingénieur / Tolérance aux pannes dans la bibliothèque de communications réseau NewMadeleine
Niveau de diplôme exigé : Bac + 5 ou équivalent
Fonction : Ingénieur scientifique contractuel
A propos du centre ou de la direction fonctionnelle
Le centre Inria de l’université de Bordeaux est un des neuf centres d’Inria en France, regroupant une vingtaine d’équipes de recherche. Il est un acteur majeur dans le domaine des sciences numériques, au cœur d’un écosystème riche en R&D et innovation : PME innovantes, grands groupes, pôles de compétitivité, laboratoires de recherche, etc.
Contexte et atouts du poste
NUMPEX, le programme prioritaire pour la recherche sur l'Exascale en France, vise à faire progresser la recherche en calcul à grande échelle. Ce poste s’inscrit dans le projet Exa-Soft de ce programme.
Les machines en HPC sont très hétérogènes, avec accélérateurs (GPU, FPGA). La gestion des transferts, de l’ordonnancement et de l’équilibrage est complexe. StarPU, support d'exécution, gère ces problématiques de façon générique et indépendante. La bibliothèque NewMadeleine, développée par l’équipe TADAAM, optimise la communication en temps réel avec une programmation événementielle et des messages actifs, permettant une progression asynchrone sans intervention de l’application.
StarPU nécessite une gestion spécifique des communications, différente de MPI classique, adaptée à l’irrégularité et à la multi-threading. Un portage de StarPU sur NewMadeleine a été réalisé pour exploiter ces propriétés, notamment pour les opérations collectives. La gestion des pannes, avec un MTBF inférieur à un jour, doit être améliorée dans NewMadeleine en supportant la tolérance aux fautes, notamment via la norme ULFM.
Mission confiée
Ajouter le support de la tolérance aux pannes dans la bibliothèque NewMadeleine, en implémentant la norme ULFM.
Principales activités
* Détection des fautes : Améliorer la détection dans les drivers réseau, actuellement partielle, pour remonter complètement les erreurs.
* État dégradé : Permettre à NewMadeleine de continuer à fonctionner sans liens fautifs, en adaptant polling et soumission.
* Remontées des fautes : Implémenter les codes d’erreur et fonctions ULFM pour informer l’utilisateur.
* Récupération : Implémenter MPI_Comm_spawn pour relancer et connecter de nouveaux processus après une faute.
* Tests avec StarPU : Vérifier le bon fonctionnement du support dans le contexte StarPU.
Compétences
Maîtrise du langage C, programmation réseau et système. Connaissance de la bibliothèque NewMadeleine et des concepts de tolérance aux fautes en HPC appréciée.
Rémunération
Salaire entre 2692€ et 3085€ brut, selon expérience. Durée : 12 mois, début souhaité : 2025-10-01. Candidature avant le 30 juin 2025.
Procédure de candidature
Postuler en ligne sur le site Inria avec lettre de motivation. La sécurité défense peut s'appliquer selon la zone géographique. Inria valorise la diversité et l'inclusion, notamment pour les personnes en situation de handicap.
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.