Topic description
Contexte et enjeux
La production de la parole repose sur la coordination précise des articulateurs (langue, mâchoire, lèvres), dont le mouvement modifie la géométrie du conduit vocal et, par extension, ses propriétés acoustiques. Contrairement aux méthodes de synthèse classiques privilégiant uniquement la qualité sonore, la synthèse articulatoire vise à maîtriser l'intégralité du processus de production. Ses applications sont vastes : compréhension des contrastes phonétiques, simulation de déficiences motrices, adaptation à de nouveaux locuteurs ou encore inversion acoustique-articulatoire.
Le cœur de cette technologie est le modèle articulatoire, qui définit la forme du conduit vocal via un nombre restreint de paramètres. Jusqu'à présent, ces modèles étaient souvent limités à un seul locuteur ou une seule langue, car basés sur des primitives géométriques ou des données IRM statiques.
Objectifs de la thèse
L'ambition de ce projet, porté par l'équipe MultiSpeech (Loria) en collaboration avec le laboratoire IADI (INSERM), est de dépasser ces restrictions en créant un modèle générique indépendant du locuteur et de la langue. Le travail s'articulera autour de deux axes majeurs :
1.Construction du modèle générique : Développer une méthode de normalisation anatomique permettant de s'affranchir des différences morphologiques entre individus pour créer un système de contrôle universel des articulateurs.
2.Adaptation dynamique : Définir une méthodologie pour projeter les phonèmes, lieux d'articulation et mouvements spécifiques (diphtongues, affriquées) d'une nouvelle langue ou d'un·e nouveau·elle locuteur·rice dans le référentiel du modèle générique.
Méthodologie et technologies
Le projet s'appuie sur des données massives issues de l'IRM temps réel (50 images par seconde), permettant de visualiser le conduit vocal en mouvement.
•Acquisition : Une base de données couvrant une trentaine de locuteurs et de langues est en cours de constitution au CHRU de Nancy.
•Traitement d'images : Pour améliorer le suivi précis des contours (notamment l'apex de la langue, crucial pour l'acoustique), le projet exploitera des architectures d'apprentissage profond de pointe, telles que le nnU-Net.
•Apprentissage profond : L'étudiant·e utilisera des techniques de Deep Learning pour modéliser la relation entre séquences de phonèmes et trajectoires articulatoires.
Environnement et profil recherché
Le·la doctorant·e évoluera dans un écosystème d'excellence, bénéficiant des ressources de calcul du Loria et de l'expertise en imagerie médicale de l'IADI. Le financement est assuré par le projet ANR ArtAny.
Compétences requises : * Maîtrise de l'apprentissage profond (Deep Learning).
•Solides bases en mathématiques appliquées et informatique.
•Un intérêt pour le traitement de la parole et l'imagerie médicale est un atout.
________________________________________
Points clés
•Laboratoires : Loria (MultiSpeech) & IADI.
•Mots-clés : Apprentissage profond, Synthèse articulatoire, IRM dynamique, nnU-Net, normalisation anatomique.
•Directeur de thèse : Yves Laprie.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Context and Rationale
Speech production is a complex motor process involving the coordination of articulators (tongue, jaw, lips) to reshape the vocal tract, which in turn defines the acoustic properties of the voice. While modern speech synthesis often focuses on output quality, articulatory synthesis aims to replicate the physical production process itself. This approach is invaluable for understanding phonetic contrasts, simulating speech impairments, and performing acoustic-to-articulatory inversion.
Historically, articulatory models have been limited by their reliance on static data or single-speaker/single-language datasets. The MultiSpeech team (Loria) recently advanced this field by using dynamic MRI to model a single speaker's vocal tract. The next frontier, and the focus of this thesis, is to move beyond individual constraints toward a universal model.
Research Objectives
The primary goal of this PhD project is to construct a generic articulatory model that is independent of both the specific speaker and the language being spoken. The research is divided into two strategic axes:
1. Generic Model Construction: This involves developing an anatomical normalization framework. By neutralizing individual morphological differences, the model can establish a universal control system for articulators that applies to any human anatomy.
2. Multilingual and multispeaker adaptation: The student will map the specific articulatory movements and places of articulation (including complex sounds like diphthongs and affricates) of new languages into the coordinate system of the generic model.
Methodology and Innovation
The project leverages cutting-edge real-time MRI (rtMRI) data, captured at 50 frames per second. This provides a high-fidelity view of the mid-sagittal plane of the vocal tract during natural speech.
Data Acquisition: In collaboration with the IADI laboratory, data from approximately 30 speakers and languages is being collected.
Advanced Tracking: To ensure acoustic accuracy, the project will implement state-of-the-art Deep Learning techniques—specifically the nnU-Net framework—to improve the tracking of critical articulators like the tongue tip.
Modeling: The student will use deep learning to bridge the gap between phonemic sequences and the geometric evolution of the vocal tract.
Scientific Environment
The doctoral candidate will operate within a highly complementary environment:
IADI (INSERM): World-class expertise in MRI acquisition and anatomical analysis.
Loria (MultiSpeech): Leaders in Deep Learning and speech processing.
Resources: Access to extensive existing databases (ANR ArtSpeech, Full3FDTalkingHead), high-performance computing clusters, and the ANR ArtAny project funding.
Candidate Profile
The ideal candidate (master in computer sciences and/or applied mathematics) should possess strong expertise in Deep Learning, applied mathematics, and computer science. Additional knowledge in speech processing or medical imaging (MRI) is highly desirable to navigate this interdisciplinary project.
Key Information
Supervisor: Yves Laprie
Keywords: Articulatory Synthesis, Real-time MRI, Deep Learning, Anatomical Normalization, Speech Processing.
Location: Nancy, France (Loria & IADI).
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Other public funding
Funding further details
ANR Financement d'Agences de financement de la recherche
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.