Apprentissage des modèles de langues audio par interaction multimodale // grounding a multimodal speech language model through physical and social interaction

Saint-Martin-d'Hères

Alternance

Université Grenoble Alpes

Publiée le 5 septembre

Description de l'offre

Topic description

Ce projet de thèse vise s'inscrit dans la ligne de recherche sur l'IA développementale qui vise d'une part à améliorer les intelligences artificielles conversationnelles en s'inspirant de l'acquisition du langage chez le jeune enfant, et d'autre part à étudier, par le biais de la modélisation et la simulation, certains des mécanismes cognitifs qui sous-tendent l'acquisition du langage et de la parole. Dans ce projet, nous nous intéressons aux Speech Language Models (SpeechLMs) sans texte — des modèles génératifs de la parole qui apprennent directement à partir du signal, sans supervision textuelle, à l'image des enfants qui acquièrent le langage avant l'apprentissage de la lecture.

Le projet de thèse portera spécifiquement sur la manière dont l'ancrage des SpeechLMs dans une interaction multimodale — à la fois physique et sociale — peut améliorer leurs capacités d'apprentissage du langage.

La thèse poursuivra les objectifs scientifiques suivants :
1.Étudier comment les entrées multimodales (par exemple les indices visuels, prosodiques ou contextuels) peuvent soutenir la segmentation du flux audio et l'acquisition d'un lexique. Alors que les LLMs sont efficaces sur des données textuelles, la segmentation et l'ancrage du langage restent des problèmes ouverts pour la parole brute.
2.Analyser le rôle de l'interaction communicative multimodale dans l'apprentissage ancré du sens des mots, en mettant l'accent sur le niveau lexical.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

This PhD position aims to advance conversational AI by drawing inspiration from infant language acquisition. It explores textless Speech Language Models (SpeechLMs) — generative speech models that learn without textual supervision, mimicking how children acquire language before literacy.
The specific PhD project will investigate how grounding SpeechLMs in multimodal interaction — both physical and social — can improve their language learning capabilities.

The PhD project will pursue the following goals:
1) Investigate how multimodal inputs (e.g., visual, prosodic, contextual cues) support audio stream segmentation and lexicon acquisition. While LLMs perform well with textual input, segmentation and grounding remain unsolved for raw speech.
2) Study the role of multimodal communicative interaction in the grounded learning of word meanings, with an emphasis on the lexical level.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/12/

Funding category

Other public funding

Funding further details

ANR Financement d'Agences de financement de la recherche

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.