Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Apprentissage des modèles de langues audio par interaction multimodale // grounding a multimodal speech language model through physical and social interaction

Saint-Martin-d'Hères
Alternance
Université Grenoble Alpes
Publiée le 5 septembre
Description de l'offre

Topic description

Ce projet de thèse vise s'inscrit dans la ligne de recherche sur l'IA développementale qui vise d'une part à améliorer les intelligences artificielles conversationnelles en s'inspirant de l'acquisition du langage chez le jeune enfant, et d'autre part à étudier, par le biais de la modélisation et la simulation, certains des mécanismes cognitifs qui sous-tendent l'acquisition du langage et de la parole. Dans ce projet, nous nous intéressons aux Speech Language Models (SpeechLMs) sans texte — des modèles génératifs de la parole qui apprennent directement à partir du signal, sans supervision textuelle, à l'image des enfants qui acquièrent le langage avant l'apprentissage de la lecture.

Le projet de thèse portera spécifiquement sur la manière dont l'ancrage des SpeechLMs dans une interaction multimodale — à la fois physique et sociale — peut améliorer leurs capacités d'apprentissage du langage.

La thèse poursuivra les objectifs scientifiques suivants :
1.Étudier comment les entrées multimodales (par exemple les indices visuels, prosodiques ou contextuels) peuvent soutenir la segmentation du flux audio et l'acquisition d'un lexique. Alors que les LLMs sont efficaces sur des données textuelles, la segmentation et l'ancrage du langage restent des problèmes ouverts pour la parole brute.
2.Analyser le rôle de l'interaction communicative multimodale dans l'apprentissage ancré du sens des mots, en mettant l'accent sur le niveau lexical.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This PhD position aims to advance conversational AI by drawing inspiration from infant language acquisition. It explores textless Speech Language Models (SpeechLMs) — generative speech models that learn without textual supervision, mimicking how children acquire language before literacy.
The specific PhD project will investigate how grounding SpeechLMs in multimodal interaction — both physical and social — can improve their language learning capabilities.

The PhD project will pursue the following goals:
1) Investigate how multimodal inputs (e.g., visual, prosodic, contextual cues) support audio stream segmentation and lexicon acquisition. While LLMs perform well with textual input, segmentation and grounding remain unsolved for raw speech.
2) Study the role of multimodal communicative interaction in the grounded learning of word meanings, with an emphasis on the lexical level.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/12/

Funding category

Other public funding

Funding further details

ANR Financement d'Agences de financement de la recherche

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Emploi Saint-Martin-d'Hères
Emploi Isère
Emploi Rhône-Alpes
Intérim Isère
Intérim Rhône-Alpes
Accueil > Emploi > Apprentissage des modèles de langues audio par interaction multimodale // Grounding a Multimodal Speech Language Model Through Physical and Social Interaction

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder