Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Généralisation compositionnelle des modèles de langage multimodaux // compositional generalization of visual language models

Saclay
CEA Paris-Saclay Laboratoire Analyse Sémantique Textes et Images
Publiée le 23 juin
Description de l'offre

Topic description

L’avènement des modèles de fondation a permis d’améliorer les performances dans plusieurs domaines de l’IA, en particulier en vision par ordinateur et traitement du langage naturel. Cependant, malgré l’énorme quantité de données utilisées pour les entrainer, ces modèles sont encore limités dans leur capacité à généraliser, en particulier dans un domaine spécifique, mal représenté sur le Web. Une modélisation de ce problème est la généralisation compositionnelle, c’est-à-dire la capacité d’apprendre à démêler les concepts pendant l’entrainement et à les recombiner dans une composition inédite lors de la phase de production/test. La thèse abordera cette
question, en visant à proposer des représentations visuelles qui permettent aux grands modèles génériques de langage visuel de généraliser la composition dans des domaines spécifiques. Elle étudiera des stratégies visant à réduire l’apprentissage de "raccourcis" artificiels, en favorisant une compréhension plus profonde des structures de composition dans les données multimodales. Elle abordera également le problème de la généralisation de la composition au-delà des simples paires attribut-objet, en saisissant une sémantique plus subtile et plus complexe. La thèse proposée vise des avancées à un niveau assez amont, mais présente de nombreux intérêts pratiques potentiels dans les domaines de la santé, de l’administration et des services, de la sécurité et de la défense, de l’industrie manufacturière et de l’agriculture.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

The advent of the foundation models led to increase the state-of-the art performance on a large number of tasks in several fields of AI, in particular computer vision and natural language processing. However, despite the huge amount of data used to train them, these models are still limited in their ability to generalize, in particular for a use case of interest that is in a specific domain, not well represented on the Web. A way to formalize this issue is compositional generalization, i.e. generalising to a new, unseen concept from concepts learned during training. This "generalization" is the ability to learn disentangle concepts and to be able to recombine
them into unseen composition when the model is in production. The proposed thesis will address this issue, aiming at proposing visual representations that enable generic visual language models to generalize compositionally within specific domains. It will investigate strategies to reduce shortcut learning, promoting deeper understanding of compositional structures in multimodal data. It will also address the problem of compositional generalization beyond simple attribute–object pairs, capturing more subtle and complex semantics. The proposed thesis aims at proposing preogress at a quite theoretical level but has many potential practical interest, in the fields of health, administration and services sectors, security and defense, manufacturing and agriculture.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Analyse Sémantique Textes et Images
Date de début souhaitée : 01-10-
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : LE BORGNE Hervé
Organisme : CEA
Laboratoire : DRT/DIASI//LASTI

Funding category

Public/private mixed funding

Funding further details

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Saclay
Emploi Essonne
Emploi Ile-de-France
Intérim Essonne
Intérim Ile-de-France
Accueil > Emploi > Généralisation compositionnelle des modèles de langage multimodaux // Compositional Generalization of Visual Language Models

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder