Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Apprentissage des solutions hjb pour l'apprentissage par renforcement en temps continu // learning hjb solutions for continuous time reinforcement learning

Gif-sur-Yvette
Alternance
Université Paris-Saclay GS Informatique et sciences du numérique
Publiée le 29 avril
Description de l'offre

Topic description

Malgré les avancées remarquables de l'intelligence artificielle dans des domaines comme les jeux, le traitement du langage naturel ou la vision par ordinateur, son application aux systèmes dynamiques en temps continu — fondements de la robotique, de la navigation autonome ou de la gestion énergétique — reste un défi majeur. Ces systèmes, régis par des dynamiques complexes, souvent non linéaires et évoluant en temps continu, exigent des politiques de contrôle à la fois optimales et robustes face aux incertitudes, au bruit et aux interactions irrégulières. Les méthodes d'apprentissage par renforcement (RL, Reinforcement Learning), bien que performantes dans des environnements en temps discret (comme les jeux tour par tour), peinent à s'adapter au temps continu. Les raisons en sont multiples : la complexité algorithmique lorsque le pas de temps tend vers zéro, la difficulté d'attribuer correctement les récompenses, ainsi que la sensibilité au choix de la discrétisation temporelle.

L'équation de Hamilton-Jacobi-Bellman (HJB) offre un cadre théorique solide pour le contrôle optimal. Elle généralise l'équation de Bellman, pilier du RL, au temps continu. Cette équation exprime la fonction de valeur optimale comme solution d'une équation aux dérivées partielles (EDP) et permet de dériver des politiques de contrôle optimales. Cependant, résoudre l'équation HJB pour des espaces d'états de grande dimension reste hors de portée des méthodes numériques classiques.

Les réseaux de neurones informés par la physique (PINNs, Physics-Informed Neural Networks) ont récemment ouvert de nouvelles perspectives en approximant les solutions d'EDP via l'apprentissage profond. Pourtant, leur application à l'équation HJB soulève des défis spécifiques : (i) l'absence de solutions lisses peut nécessiter l'emploi de solutions de viscosité pour garantir l'unicité ; (ii) l'entraînement est extrêmement sensible au choix de l'optimiseur et des stratégies d'échantillonnage ; (iii) la dépendance au modèle limite leur applicabilité aux systèmes dont la dynamique est connue. S'ajoutent à cela la non-unicité des solutions et la malédiction de la dimensionalité, qui compliquent davantage la conception de politiques de contrôle évolutives et robustes.

Ce projet de thèse relève ces défis en proposant un cadre unifié pour l'apprentissage par renforcement en temps continu, s'appuyant sur l'équation HJB comme fondement mathématique tout en surmontant les limites des approches existantes à base de PINNs. L'objectif est de concevoir des politiques de contrôle scalables et basées sur des modèles, capables de fonctionner efficacement en temps continu et de gérer des espaces d'états de haute dimension.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Despite the remarkable advances of artificial intelligence in domains such as game-playing, natural language processing, and computer vision, its application to continuous-time dynamical systems—foundational to fields like robotics, autonomous vehicle navigation, and energy management—remains a critical open challenge. These systems, governed by complex, often nonlinear dynamics evolving over continuous time, demand control policies that are both optimal and robust to uncertainty, noise, and irregular interactions. Traditional reinforcement learning (RL) methods, while highly effective in discrete-time settings, in particular turn-based games, struggle in continuous time due to computational intractability when the time step size goes to zero, poor credit assignment, and sensitivity to the choice of time discretization.

The Hamilton-Jacobi-Bellman (HJB) equation offers a principled framework for optimal control, and it generalises the Bellman equation, the core equation of reinforcement learning, to continuous time. It expresses the optimal value function as the solution to a partial differential equation (PDE) and provides a pathway to derive optimal control policies. However, solving the HJB equation for high-dimensional state spaces is intractable with classical numerical methods. Recent progress in Physics-Informed Neural Networks (PINNs) has opened new avenues by approximating PDE solutions with deep learning, but applying PINNs to HJB introduces unique hurdles: (i) the equation may lack smooth solutions, requiring the use of viscosity solutions to ensure uniqueness; (ii) training is highly sensitive to the choice of optimizer and sampling strategies; (iii) and model dependency restricts applicability to systems with known dynamics. Additionally, the non-uniqueness of solutions and the curse of dimensionality further complicate the design of scalable and robust control policies.

This thesis project addresses these challenges by developing a unified framework for continuous-time reinforcement learning that leverages the HJB equation as a mathematical foundation while overcoming the limitations of existing PINN-based approaches. Thus, our goal is to design scalable, model-based control policies that can operate effectively in continuous time and handle high-dimensional state spaces.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Contrats ED : Programme blanc GS-ISN

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Essonne
Emploi Ile-de-France
Intérim Essonne
Intérim Ile-de-France
Accueil > Emploi > Apprentissage des solutions HJB pour l'apprentissage par renforcement en temps continu // Learning HJB Solutions for Continuous Time Reinforcement Learning

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2026 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder