Exploitation de modèles génératifs de parole pour le rehaussement de la parole dysarthrique // leveraging spoken language models for dysarthric speech enhancement

Saint-Martin-d'Hères

Université Grenoble Alpes

Publiée le 17 mai

Description de l'offre

Topic description

La dysarthrie est un trouble neuromoteur de la parole résultant d'une altération de la coordination des sous-systèmes respiratoire, phonatoire, articulatoire et prosodique impliqués dans la production de la parole. La parole dysarthrique se caractérise souvent par une intelligibilité réduite, une articulation altérée, une prosodie instable, un débit de parole irrégulier et un contrôle vocal diminué, entraînant d'importantes difficultés de communication dans la vie quotidienne. Malgré les progrès récents en rehaussement et en synthèse de la parole, la restauration de paroles pathologiques fortement dégradées demeure un défi scientifique majeur en raison de la forte variabilité des profils dysarthriques selon les locuteurs et les pathologies.

Les avancées récentes en apprentissage auto-supervisé (Self-Supervised Learning, SSL) et analyse-synthèse neuronale (codecs) ont profondément transformé le domaine du traitement automatique de la parole. Des modèles tels que HuBERT ou wav2vec~2.0 apprennent des représentations contextuelles riches de la parole en reconstruisant des portions masquées du signal à partir du contexte acoustique environnant. Parallèlement, les Speech Language Model (SpeechLM) - à savoir des grands modèles de langue traitant directement le signal de parole sans faire appel explicitement à son décodage sous forme textuelle - ont introduit un nouveau paradigme dans lequel la parole est représentée sous la forme de séquences discrètes d'unités acoustiques (tokens) modélisées de manière autorégressive. Ces approches permettent désormais le décodage, la compréhension et la génération de parole de haute qualité, et à faible latence.

L'objectif de cette thèse est d'étudier comment ces nouvelles approches peuvent être exploitées pour rehausser la parole dysarthrique et reconstruire des signaux de parole plus intelligibles et plus naturels à partir d'entrées pathologiques. Dans un premier temps, la thèse s'intéressera à des pipelines de reconstruction de parole dysarthrique (Dysarthric Speech Reconstruction, DSR) combinant des représentations SSL contextualisées et des approches neuronales de synthèse de la parole. En s'appuyant sur nos travaux récents sur l'inpainting de la parole basé sur des représentations SSL, nous faisons l'hypothèse que ces représentations capturent une information linguistique et phonétique suffisamment riche pour reconstruire une parole intelligible à partir de segments pathologiques localement dégradés. Dans un second temps, la thèse étudiera des approches de type SpeechLM opérant sur des tokens issus de codecs neuronaux. L'idée consistera à conditionner un SpeechLM par des séquences de tokens acoustiques extraites de parole dysarthrique afin d'apprendre à prédire des séquences de tokens correspondant à une parole plus intelligible et plus naturelle. De telles approches pourraient permettre de modifier non seulement le contenu segmental de la parole, mais également sa dynamique temporelle et prosodique.

La thèse explorera également l'utilisation d'un espace de représentation de type «articulatoires» pour la reconstruction de la parole. Bien que les représentations latentes modernes soient particulièrement performantes, elles demeurent difficiles à interpréter et à contrôler. L'introduction de représentations articulatoires explicites dans le processus génératif, comme dans nos travaux précédents sur la parole non pathologique, pourrait fournir des contraintes physiologiquement plausibles et faciliter le développement de stratégies de rehaussement de parole plus contrôlables.

Enfin, le projet étudiera la faisabilité de systèmes de rehaussement de parole dysarthrique fonctionnant en temps réel et à faible latence. Cela inclut l'étude d'architectures causales et de techniques de streaming, de modèles légers et de leur implémentation dans des systèmes embarqués pour des applications concrètes d'assistance à la communication.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Dysarthria is a neuromotor speech disorder resulting from impaired coordination, strength, or control of the respiratory, phonatory, resonatory, articulatory, and prosodic subsystems involved in speech production. Dysarthric speech is often characterized by reduced intelligibility, abnormal articulation, unstable prosody, irregular speaking rate, and reduced vocal control, leading to major communication difficulties in daily life. Despite recent progress in speech enhancement and speech synthesis, restoring highly degraded pathological speech remains a major scientific challenge due to the strong variability of dysarthric speech patterns across speakers and pathologies.

Recent advances in self-supervised learning (SSL) and neural speech generation have profoundly transformed speech processing. Models such as HuBERT or wav2vec~2.0 learn rich contextual representations of speech by reconstructing masked portions of the signal from surrounding acoustic context. In parallel, neural speech codecs and Speech Language Models (SpeechLMs) introduced a new paradigm in which speech is represented as sequences of discrete acoustic tokens that can be modeled autoregressively. These approaches now enable high-quality speech generation, speech-to-speech transformation, and low-latency conversational audio synthesis.

The objective of this PhD thesis is to investigate how these recent generative speech representations can be leveraged to enhance dysarthric speech and reconstruct more intelligible and natural speech signals from pathological speech inputs. First, the thesis will investigate dysarthric speech reconstruction (DSR) pipelines combining contextual SSL representations with neural speech synthesis approaches. Building upon our recent work on SSL-based speech inpainting, we hypothesize that SSL representations capture sufficiently rich linguistic and phonetic information to reconstruct intelligible speech from locally degraded pathological speech segments. Then, the thesis will investigate autoregressive SpeechLM approaches operating on neural codec tokens. The idea will consist in prompting a SpeechLM using acoustic token sequences extracted from dysarthric speech and training the model to predict enhanced token sequences corresponding to more intelligible and natural speech. Such approaches could potentially modify not only the segmental content of speech but also its temporal and prosodic dynamics.

The thesis will also investigate interpretable articulatory bottlenecks for speech reconstruction. While modern latent speech representations are highly efficient, they remain difficult to interpret and control. Introducing explicit articulatory representations within the generative process, as in our previous work (for non-pathological speech) could provide physiologically plausible constraints and facilitate controllable speech enhancement strategies.

Finally, the project will study the feasibility of real-time and low-latency dysarthric speech enhancement systems. This includes investigating streaming and causal architectures, lightweight generative models, and embedded implementations compatible with assistive communication applications.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.