Doctorant (h/f) - politique optimale comme problème de classification

Toulouse

CNRS

Publiée le 11 mai

Description de l'offre

Vos missions en quelques mots Sujet de thèse : Ce projet de doctorat propose de considérer la recherche d’une politique optimale en apprentissage par renforcement comme un problème de classification, en exploitant la structure géométrique selon laquelle les actions optimales partitionnent l’espace des états. Plutôt que d’apprendre des fonctions de valeur complètes, l’idée est d’apprendre directement les frontières où deux actions deviennent équivalentes, lesquelles définissent les régions dans lesquelles chaque action est optimale. Le projet débute par un cadre simple à deux dimensions et deux actions afin d’étudier comment ces frontières de décision peuvent être apprises efficacement, d’abord via des mises à jour basées sur des seuils, puis à l’aide de fonctions de frontière paramétrées. Il généralise ensuite cette approche à des espaces d’états et d’actions de dimension plus élevée en utilisant des méthodes basées sur le gradient et des approximateurs de fonctions tels que des modèles linéaires ou des réseaux de neurones. En se concentrant sur l’apprentissage de ces frontières plutôt que sur celui des fonctions de valeur complètes, le projet vise à développer des algorithmes d’apprentissage par renforcement nécessitant moins de données et convergeant plus rapidement. Contexte : Le poste est basé à l’IRIT (Institut de Recherche en Informatique de Toulouse), un laboratoire majeur en informatique regroupant plusieurs centaines de chercheurs et doctorants. Le doctorant sera accueilli au sein du département ASR (Architecture, Systèmes et Réseaux), dont les thématiques couvrent notamment les réseaux, les systèmes distribués et l’apprentissage automatique appliqué aux systèmes. Le projet s’inscrit dans un environnement scientifique dynamique, avec des collaborations possibles avec plusieurs chercheurs du laboratoire travaillant sur l’apprentissage par renforcement et les systèmes en réseau, ainsi qu’avec l’écosystème toulousain de recherche en intelligence artificielle, notamment dans le cadre de la chaire ANITI dédiée à l’apprentissage par renforcement. Profil recherché Contraintes et risques : Niveau d'études minimum requis Niveau Niveau 8 Doctorat/diplômes équivalents Spécialisation Formations générales Langues Français Seuil

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.