Apprentissage des solutions hjb pour l'apprentissage par renforcement en temps continu // learning hjb solutions for continuous time reinforcement learning

Gif-sur-Yvette

Alternance

Université Paris-Saclay GS Informatique et sciences du numérique

Publiée le 29 avril

Description de l'offre

Topic description

Malgré les avancées remarquables de l'intelligence artificielle dans des domaines comme les jeux, le traitement du langage naturel ou la vision par ordinateur, son application aux systèmes dynamiques en temps continu — fondements de la robotique, de la navigation autonome ou de la gestion énergétique — reste un défi majeur. Ces systèmes, régis par des dynamiques complexes, souvent non linéaires et évoluant en temps continu, exigent des politiques de contrôle à la fois optimales et robustes face aux incertitudes, au bruit et aux interactions irrégulières. Les méthodes d'apprentissage par renforcement (RL, Reinforcement Learning), bien que performantes dans des environnements en temps discret (comme les jeux tour par tour), peinent à s'adapter au temps continu. Les raisons en sont multiples : la complexité algorithmique lorsque le pas de temps tend vers zéro, la difficulté d'attribuer correctement les récompenses, ainsi que la sensibilité au choix de la discrétisation temporelle.

L'équation de Hamilton-Jacobi-Bellman (HJB) offre un cadre théorique solide pour le contrôle optimal. Elle généralise l'équation de Bellman, pilier du RL, au temps continu. Cette équation exprime la fonction de valeur optimale comme solution d'une équation aux dérivées partielles (EDP) et permet de dériver des politiques de contrôle optimales. Cependant, résoudre l'équation HJB pour des espaces d'états de grande dimension reste hors de portée des méthodes numériques classiques.

Les réseaux de neurones informés par la physique (PINNs, Physics-Informed Neural Networks) ont récemment ouvert de nouvelles perspectives en approximant les solutions d'EDP via l'apprentissage profond. Pourtant, leur application à l'équation HJB soulève des défis spécifiques : (i) l'absence de solutions lisses peut nécessiter l'emploi de solutions de viscosité pour garantir l'unicité ; (ii) l'entraînement est extrêmement sensible au choix de l'optimiseur et des stratégies d'échantillonnage ; (iii) la dépendance au modèle limite leur applicabilité aux systèmes dont la dynamique est connue. S'ajoutent à cela la non-unicité des solutions et la malédiction de la dimensionalité, qui compliquent davantage la conception de politiques de contrôle évolutives et robustes.

Ce projet de thèse relève ces défis en proposant un cadre unifié pour l'apprentissage par renforcement en temps continu, s'appuyant sur l'équation HJB comme fondement mathématique tout en surmontant les limites des approches existantes à base de PINNs. L'objectif est de concevoir des politiques de contrôle scalables et basées sur des modèles, capables de fonctionner efficacement en temps continu et de gérer des espaces d'états de haute dimension.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Despite the remarkable advances of artificial intelligence in domains such as game-playing, natural language processing, and computer vision, its application to continuous-time dynamical systems—foundational to fields like robotics, autonomous vehicle navigation, and energy management—remains a critical open challenge. These systems, governed by complex, often nonlinear dynamics evolving over continuous time, demand control policies that are both optimal and robust to uncertainty, noise, and irregular interactions. Traditional reinforcement learning (RL) methods, while highly effective in discrete-time settings, in particular turn-based games, struggle in continuous time due to computational intractability when the time step size goes to zero, poor credit assignment, and sensitivity to the choice of time discretization.

The Hamilton-Jacobi-Bellman (HJB) equation offers a principled framework for optimal control, and it generalises the Bellman equation, the core equation of reinforcement learning, to continuous time. It expresses the optimal value function as the solution to a partial differential equation (PDE) and provides a pathway to derive optimal control policies. However, solving the HJB equation for high-dimensional state spaces is intractable with classical numerical methods. Recent progress in Physics-Informed Neural Networks (PINNs) has opened new avenues by approximating PDE solutions with deep learning, but applying PINNs to HJB introduces unique hurdles: (i) the equation may lack smooth solutions, requiring the use of viscosity solutions to ensure uniqueness; (ii) training is highly sensitive to the choice of optimizer and sampling strategies; (iii) and model dependency restricts applicability to systems with known dynamics. Additionally, the non-uniqueness of solutions and the curse of dimensionality further complicate the design of scalable and robust control policies.

This thesis project addresses these challenges by developing a unified framework for continuous-time reinforcement learning that leverages the HJB equation as a mathematical foundation while overcoming the limitations of existing PINN-based approaches. Thus, our goal is to design scalable, model-based control policies that can operate effectively in continuous time and handle high-dimensional state spaces.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Contrats ED : Programme blanc GS-ISN

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.