Contexte et atouts du poste
Inria, l'Institut national français d'informatique et de mathématiques appliquées, promeut "l'excellence scientifique au service du transfert de technologie et de la société".
Diplômés des plus grandes universités mondiales, les 2 700 collaborateurs d'Inria relèvent les défis des sciences numériques. Grâce à son modèle ouvert et agile, Inria explore des approches innovantes avec ses partenaires industriels et académiques, répondant efficacement aux enjeux pluridisciplinaires et applicatifs de la transformation numérique. Inria est à l'origine de nombreuses innovations créant de la valeur ajoutée et des emplois.
Équipe :
L'équipe de recherche STARS combine une théorie avancée et une pratique de pointe axée sur les systèmes de vision cognitive.
Site Web de l'équipe :
Mission confiée
1 - Objet de la thèse
Ce projet de thèse vise à concevoir un nouveau modèle de fondation unifiant les séquences de squelettes (postures des personnes) et les actions RVB, pour la classification et la segmentation des actions humaines à partir de flux vidéo captés par des drones. Ce modèle utilisera une architecture Transformer pour extraire des caractéristiques génériques des séquences de squelettes humains ou des clips vidéo RVB.
2 - Descriptif (objectifs, aspects innovants)
Les principaux défis consistent à concevoir un modèle unifiant les séquences de squelettes (postures 2D ou 3D) et les actions RVB sémantiques. Il faudra rassembler suffisamment de données annotées précisément pour l’entraînement, et développer des pré-tâches d’auto-apprentissage permettant de générer des représentations génériques d’actions humaines à partir de flux vidéo captés par des drones.
Le but est d’étendre et d’adapter les modèles de Langage Visuel (ex. CLIP) aux vidéos issues de caméras de vidéosurveillance, notamment celles provenant de drones. La création d’une base de données vidéo nommée Skeletics, spécifique à la vidéosurveillance et aux flux drone, permettra de tester ces modèles pour la reconnaissance d’actions humaines, en classifiant ou segmentant ces actions, dans un contexte multi-drones ou avec des caméras terrestres.
Principales activités
Résultats attendus
Les contributions attendues incluent :
* Conception de T-MOR, un nouveau modèle de fondation basé sur le mouvement de squelette transférable, applicable à la reconnaissance d’actions humaines dans des vidéos réelles, utilisant un apprentissage contrastif multimodal.
* Construction de Skeletics, une base de données vidéo d’action à grande échelle, annotée pour le squelette humain en 2D et 3D, pour l’entraînement de modèles de mouvements génériques.
* Validation de la méthodologie par pré-entraînement de T-MOR sur Skeletics, puis transfert vers d’autres jeux de données, pour démontrer son efficacité dans la reconnaissance d’actions à partir de vidéos de drones, de vidéos au sol ou de descriptions textuelles.
L’objectif est d’obtenir un modèle de fondation suffisamment général pour être utilisé sur de nouvelles vidéos de drones, notamment pour la gestion de catastrophes naturelles, en détectant automatiquement des situations d’urgence comme des signes de détresse, et en envoyant des alertes en temps réel.
Compétences
Les connaissances suivantes seront appréciées :
* Expérience en programmation C++ / Python,
* Apprentissage automatique, réseaux neuronaux profonds, PyTorch, TensorFlow,
* Modèles graphiques probabilistes,
* Vision par ordinateur, techniques d’optimisation (descente de gradient, message-passing).
Avantages
* Restauration subventionnée
* Transports publics remboursés partiellement
* 7 semaines de congés annuels + 10 jours de RTT + autorisations d’absence exceptionnelles (enfants malades, déménagement)
* Possibilité de télétravail et d’aménagement du temps de travail
* Équipements professionnels (visioconférence, matériel informatique, etc.)
* Prestations sociales, culturelles et sportives (œuvres sociales d’Inria)
* Accès à la formation professionnelle
* Participation mutuelle (sous conditions)
Rémunération
2100€ brut mensuel (année 1 & 2) et 2190€ brut mensuel (année 3)
#J-18808-Ljbffr
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.