Apprentissage auto-supervisé efficace et interprétable par des méthodes tensorielles // guaranteed efficiency and interpretability in self-supervised learning by leveraging tensor methods

Vandœuvre-lès-Nancy

Alternance

Universite De Lorraine

Automobile

Publiée le 15 mars

Description de l'offre

Topic description

L'apprentissage auto-supervisé a joué un rôle central dans les progrès récents en IA et dans ce que l'on appelle les modèles de fondation, permettant d'exploiter de grandes quantités de données non-étiquetées (texte, image, vidéo, etc.) pour apprendre des représentations qui peuvent ensuite être adaptées pour diverses tâches de prédiction ultérieures [1,2]. Cependant, malgré l'importance pratique de ces approches, la compréhension des performances des représentations apprises reste une question ouverte. Cette question est intimement liée à la capacité d'apprentissage des représentations démêlées [3], y compris l'influence des choix d'architecture sur leur stabilité. En particulier, la réponse aux questions suivantes a un impact direct sur des applications critiques de l'IA :

• dans quelles conditions les représentations apprises sont-elles interprétables, et quelle est l'influence de l'architecture et de la méthode d'apprentissage sur leur stabilité et sur la performance des tâches en aval, en particulier si l'on considère la spécialisation sur des ensembles de données petits ?
• comment se comportent-elles face à des données hétérogènes (par exemple, personnalisées ou dont les distributions statistiques ne sont pas identiques dans tous les ensembles de données), ce qui est fréquent dans les applications médicales, en particulier dans le cadre de l'apprentissage fédéré ?
• Dans quelles conditions des modèles plus petits (avec un impact carbone plus faible) peuvent-ils obtenir de bonnes performances pour des tâches spécialisées ?

Objectifs : Pour relever ces défis, ce projet vise à : 1) étudier les aspects théoriques des représentations construites par des approches d'apprentissage auto-supervisé (et faiblement supervisé), qui se rapportent à leurs propriétés d'unicité, et, sur la base de ces résultats théoriques, 2) développer de nouvelles approches d'apprentissage auto-supervisé et non-supervisé assurant leur stabilité et interprétabilité même dans des conditions difficiles et sur des données hétérogènes. Un intérêt particulier sera porté au développement de petits modèles à faible consommation énergétique et impact environnemental réduit pour effectuer des tâches spécialisées, y compris, par exemple, l'adaptation efficace de grands modèles pré-entraînés (comme dans les travaux de LoRA [4]), et la compréhension de leur interaction avec les grands modèles généralistes.

Ces objectifs seront atteints en exploitant les connexions entre les modèles d'IA (par exemple, les réseaux neuronaux) et les décompositions tensorielles (multicouches) de rang faible [5,6,7], qui fournissent un cadre mathématique rigoureux pour développer des nouveaux algorithmes et architectures et pour comprendre leur comportement. Ces techniques seront validées sur des applications d'IA difficiles, telles que la séparation de différents processus cérébraux dans des données de résonance magnétique fonctionnelle dans un cadre d'apprentissage fédéré [8], ou l'analyse d'images hyperspectrales/de télédétection provenant de plusieurs scènes [9].
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Self-supervised learning has been one of the main pillars of recent progress in AI and in the so-called foundation models, allowing algorithms to leverage large amounts of unlabeled data (text, image, video, etc.) to learn representations that can later be adapted to different predictive (downstream) tasks [1,2]. However, despite the practical importance of such approaches, understanding the performance of learned representations is still an open question. This is intimately linked to the learnability of disentangled representations [3], including the influence of architecture choices on their stability. In particular, answering the following key questions has direct impact on critical AI applications:

• when can learned representations be interpreted, and what is the influence of architecture and learning method on both their stability and on the performance of downstream tasks, especially on considering specialization over small or heterogeneous datasets?
• how do they perform on heterogeneous (e.g., personalized, or whose statistical distributions is not identical across all datasets) data, which is common in medical applications, in particular, in the framework of federated learning?
• under which conditions can smaller models (with lower carbon impact) perform well on specialized tasks?

Goals: To tackle these challenges, in this project we aim to: 1) study the theoretical aspects of representations constructed by self-supervised (and weakly supervised) learning approaches, which relates to their disentanglement properties, and, based on these theoretical findings, 2) develop new approaches to self-supervised and unsupervised learning guaranteeing stability and interpretability of latent representations under challenging conditions and heterogeneous datasets. Particular interest will be given on developing small models (with low energy and environmental/carbon footprint) to perform in specialized tasks, including, for example, the efficient adaptation of large pretrained models (as in LoRA works [4]), and understanding their interplay and links with large generalist (foundation) models.

These objectives will be achieved by leveraging connections between AI models (e.g., neural networks) and (multilayer) low-rank tensor decompositions [5,6,7], which supply a rigorous mathematical framework to develop new algorithms and model architectures and to understand their behavior. These techniques will be validated on challenging AI applications, such as the separation of different brain processes in functional magnetic resonance data in a federated learning setting [8], or cross-scene hyperspectral/remote sensing image analysis [9].
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Other public funding

Funding further details

ANR Financement d'Agences de financement de la recherche

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Hess automobile - vendeur / vendeuse secteur véhicules d'occasion (h/f)

Laxou

Alternance

Hess Automobile

Automobile

Offre similaire

Magasinier automobile h/f - alternance

Laxou

Alternance

Volkswagen Group

Automobile