Relations de préférence pour les problèmes multi-objectifs // preference relations for multi-objective problems

Palaiseau

Télécom Paris

Publiée le 16 janvier

Description de l'offre

Topic description

Les systèmes multi-agents doivent lever conjointement les ambiguïtés — potentiellement conflictuelles — entre objectifs et critères. Trouver des stratégies (approximativement) optimales pour les systèmes multi-agents nécessite la résolution de problèmes multi-objectifs, souvent formulés sous forme d'objectifs pondérés. Cependant, les objectifs pondérés ne permettent pas d'imposer une hiérarchie stricte, ce qui peut conduire à des résultats indésirables, voire dangereux. Les relations de préférence entre objectifs et critères, en revanche, autorisent des hiérarchies strictes, préservant des propriétés importantes du comportement des agents qui ne devraient pas être négociées accidentellement lors de l'optimisation. Toutefois, l'introduction de relations de préférence entre plusieurs objectifs accroît la complexité computationnelle des problèmes d'optimisation en raison de la structure d'objectifs imbriqués qu'elles induisent.

La thèse proposée s'articulera autour de trois axes afin de progresser sur les problématiques soulevées par les problèmes multi-objectifs. Premièrement, les problèmes multi-agents se prêtent naturellement à une analyse en théorie des jeux, où les participants cherchent à atteindre des équilibres représentant des politiques optimales en équilibrant leurs préférences et celles des autres. Deuxièmement, en raison de la difficulté d'introduire l'incertitude de l'environnement dans le cadre classique de la théorie des jeux, la thèse étudiera les effets des relations de préférence dans les processus de décision markoviens et examinera les aspects de modélisation et de calcul du point de vue de l'ordonnancement de formules de logique temporelle. Enfin, le troisième axe portera sur l'application des relations de préférence au façonnage des récompenses en apprentissage par renforcement, avec l'hypothèse raisonnée que les préférences améliorent les performances par rapport à des structures de récompense simples.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Multiagent systems must jointly disambiguate—potentially conflicting—objectives and criteria. Finding (approximate-)optimal strategies for multiagent systems requires the resolution of multi-objective problems, which are often stated as weighted objectives. However, weighted objectives cannot enforce a strict hierarchy, which can subsequently result in undesired and hazardous outcomes. Preference relations on objectives and criteria instead admit strict hierarchies, preserving important agent behavior properties that should not be accidentally negotiated during optimization. However, introducing preference relations on multiple objectives increases the computational complexity of optimization problems due to the nested objective structure they induce.

The proposed thesis will work along three axes to make progress on the problems that arise in multi-objective settings. First, multiagent problems are naturally amenable to game-theoretic analysis, where participants strive to find equilibria that represent optimal policies as they balance their preferences and those of others. Second, due to the difficulty of introducing uncertainty in the environment in traditional game-theoretic settings, the proposed thesis will study the effects of preference relations in Markov decision processes and will examine modeling and computational aspects from the perspective of ordering temporal logic sentences. Finally, the third axis will center on the application of preference relations for reward shaping in reinforcement learning, with the educated guess that preferences improve performance compared to simple reward structures.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Appel anticipé*Concours IPP ou école membre*Financement d'un établissement public Français*

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Staff engineer python – telecom – paris h/f

Paris

CDI

Easy Partner

Offre similaire

Devsecops engineer – secteur telecom – paris (h/f)

Paris

CDI

Easy Partner

Offre similaire

Key account manager – telecom – paris h/f

Boulogne-Billancourt

Alten

Responsable grands comptes