Topic description
Les systèmes autonomes doivent percevoir, comprendre et anticiper leur environnement afin d'interagir efficacement avec le monde physique. Les approches classiques en robotique reposent principalement sur des méthodes de localisation et de cartographie visuelle (SLAM) permettant de reconstruire la géométrie d'un environnement à partir d'observations visuelles. Bien que ces méthodes permettent une localisation robuste, elles restent limitées pour raisonner sur des environnements complexes, dynamiques ou interactifs.
Les avancées récentes en intelligence artificielle ont introduit de nouvelles approches permettant d'apprendre des représentations tridimensionnelles riches à partir d'images. Des méthodes telles que les Neural Radiance Fields (NeRF) ou des approches récentes de reconstruction géométrique comme DUSt3R montrent qu'il est désormais possible d'apprendre des structures spatiales complexes directement à partir de données visuelles.
Dans le même temps, les approches récentes d'intelligence artificielle incarnée et les modèles Vision-Language-Action (VLA) cherchent à connecter perception visuelle, langage et action dans des architectures unifiées pour agents autonomes.
Cependant, ces approches restent encore limitées par l'absence de modèles du monde spatiaux structurés permettant de représenter simultanément la géométrie d'une scène, sa structure sémantique et les possibilités d'interaction avec l'environnement.
L'objectif de cette thèse est d'étudier de nouveaux modèles du monde spatiaux capables d'intégrer information géométrique, sémantique et actionnelle afin de permettre à des agents artificiels de percevoir, raisonner et interagir dans des environnements réels.
Ce projet se situe à l'interface entre vision par ordinateur, robotique et apprentissage automatique et vise à contribuer au développement de systèmes d'intelligence artificielle incarnée capables de perception, de raisonnement et d'interaction avec leur environnement.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Autonomous systems must perceive, understand and anticipate their environment in order to interact safely and effectively with the physical world. Classical robotics approaches rely primarily on localisation and mapping techniques (SLAM) that reconstruct geometric representations of environments from visual observations. While these methods enable robust localisation, they remain limited when reasoning about dynamic environments or supporting complex interactions.
Recent advances in artificial intelligence have introduced powerful methods for learning rich three-dimensional scene representations directly from images. Approaches such as Neural Radiance Fields (NeRF), Gaussian scene representations and recent geometric reconstruction models such as DUSt3R demonstrate that complex spatial structures can be learned directly from visual data. At the same time, generative models and diffusion-based approaches provide new tools for predictive modelling of visual environments.
In parallel, emerging Vision-Language-Action (VLA) models aim to connect perception, language and action within unified architectures for embodied agents.
However, many of these approaches lack structured spatial world models enabling agents to reason about their physical environment. In particular, they often fail to represent the spatial organisation of scenes together with their semantic structure and possible interactions.
The objective of this PhD is to investigate spatial world models enabling embodied artificial intelligence systems to represent, understand and interact with complex environments. The research will explore how modern machine learning methods can be combined with geometric computer vision to learn spatial representations integrating geometry, semantics and action affordances.
This project lies at the intersection of robotics, computer vision and machine learning and aims to contribute to the development of the next generation of embodied AI systems capable of perception, reasoning and interaction in real-world environments.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
WEB :
Funding category
Funding further details
Contrat doctoral EDSTIC-DS4H
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.