Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement. // fine-grained and spatio-temporally grounded large multimodal models

Saclay
CEA Paris-Saclay Laboratoire Analyse Sémantique Textes et Images
Publiée le 23 juin
Description de l'offre

Topic description

Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.

Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode "ensemble". Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.

Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This PhD project focuses on enhancing Large Multimodal Models (LMMs) through the integration of fine-grained and spatio-temporal information into training datasets. While current LMMs such as CLIP and Flamingo show strong performance, they rely on noisy and coarse-grained image-text pairs and often lack spatial or temporal grounding. The thesis aims to develop automatic pipelines to enrich image datasets with geographic and temporal metadata, refine captions using fine-grained semantic descriptors, and balance dataset diversity and compactness by controlling class-wise sample sizes.

Training strategies will incorporate hierarchical class structures and adapt protocols to improve alignment between caption elements and image regions. The work will also explore joint training regimes that integrate fine-grained, spatial, and temporal dimensions, and propose set-based inference to improve the diversity of generated outputs. The enriched datasets and models will be evaluated using existing or newly developed benchmarks targeting contextual relevance and output diversity. The project also addresses challenges in metadata accuracy, efficient model adaptation, and benchmarking methodologies for multi-dimensional model evaluation.

Applications include improved synthetic data generation for autonomous driving, enhanced annotation of media archives through contextual captioning, and better visual reasoning in industrial simulation scenarios.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Pôle fr : Direction de la Recherche Technologique
Pôle en : Technological Research
Département : Département Intelligence Ambiante et Systèmes Interactifs (LIST)
Service : Service Intelligence Artificielle pour le Langage et la Vision
Laboratoire : Laboratoire Analyse Sémantique Textes et Images
Date de début souhaitée : 01-10-
Ecole doctorale : Sciences et Technologies de l’Information et de la Communication (STIC)
Directeur de thèse : POPESCU Adrian
Organisme : CEA
Laboratoire : DRT/DIASI//LASTI
URL :

Funding category

Public/private mixed funding

Funding further details

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Saclay
Emploi Essonne
Emploi Ile-de-France
Intérim Essonne
Intérim Ile-de-France
Accueil > Emploi > Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement. // Fine-grained and spatio-temporally grounded large multimodal models

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder