Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Doctorat détection automatique multimodale des disfluences typiques du bégaiement (h/f)

Nancy
CDD
CNRS
Publiée le 17 juin
Description de l'offre

Informations générales

Intitulé de l'offre : Doctorat détection automatique multimodale des disfluences typiques du bégaiement (H/F)
Référence : UMR5267-IVADID-001
Nombre de Postes : 1
Lieu de travail : VANDOEUVRE LES NANCY CEDEX
Date de publication : jeudi 22 mai 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 06 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations

Description du sujet de thèse

1. Introduction
Le bégaiement, trouble de la fluence affectant des millions de personnes, se caractérise par des disfluences spécifiques (blocages, prolongations, répétitions) liées à un dysfonctionnement du contrôle moteur de la parole. Leur détection automatique, bien que déjà explorée via des modèles audios, reste limitée par une faible robustesse, une difficulté à identifier certaines disfluences comme les blocages silencieux, et une dépendance à des données rares. Cette thèse propose une approche multimodale (audio, vidéo, texte) pour améliorer la précision et la robustesse de la détection, en s’appuyant sur un corpus audiovisuel de locuteurs francophones bègues. L'analyse reposera sur des techniques d'encodage spécifiques à chaque modalité, suivies d'une fusion stratégique de leurs représentations pour une classification finale.

2. Missions
L’objectif de cette thèse est de concevoir, développer et évaluer une approche multimodale d’apprentissage profond pour la détection automatique des disfluences typiques du bégaiement en français, en combinant les modalités audio, vidéo et textuelle. Le travail s’appuiera sur un corpus audiovisuel annoté de locuteurs francophones bègues, avec une attention particulière portée aux disfluences difficiles à détecter par l’audio seul, comme les blocages silencieux, et à la robustesse face à la variabilité individuelle.

Les missions du doctorant s’articuleront autour des axes suivants :

Encodage audio : Implémenter et adapter Stutternet (Sheikh, S. A., Sahidullah, M., Hirsch, F., & Ouni, S. – 2021- Stutternet: Stuttering detection using time delay neural network. In EUSIPCO) pour extraire des caractéristiques acoustiques pertinentes à la détection de disfluences, en capturant les dépendances temporelles.

Encodage vidéo : Développer et entraîner des modèles de vision (par exemple C3D ou Transformers) pour analyser les séquences vidéos à la recherche d’indices visuels du bégaiement (tensions faciales, clignements, mouvements atypiques). L’extraction de landmarks faciaux (avec OpenFace ou MediaPipe) sera également explorée comme source complémentaire ou alternative de caractéristiques.

Encodage texte : Générer des transcriptions automatiques (via Whisper) et les encoder à l’aide de modèles de langage pré-entraînés (BERT, RoBERTa) afin d’extraire le contexte linguistique et de repérer des schémas textuels caractéristiques des disfluences.

Fusion multimodale : Mettre en œuvre et comparer plusieurs stratégies de fusion des représentations issues des trois modalités, telles que la concaténation, les mécanismes d’attention adaptatifs ou d’autres approches exploitant la complémentarité des données.

Classification et évaluation : Développer un classifieur opérant sur la représentation fusionnée pour prédire la présence ou l’absence de bégaiement dans une fenêtre temporelle donnée. L’évaluation s’appuiera sur des métriques standards (précision, rappel, F1-score, AUC), avec une comparaison aux annotations manuelles expertes. Des analyses qualitatives seront également menées pour interpréter les erreurs du modèle et affiner l’approche.

Au-delà de la détection, la thèse vise à apporter une contribution méthodologique au domaine de la fusion multimodale appliquée à la parole pathologique, avec un potentiel impact en contexte clinique.

3. Compétences attendues
Le candidat devra avoir un master en informatique, de solides compétences en apprentissage automatique et profond, une bonne maîtrise de Python et des frameworks comme PyTorch ou TensorFlow, ainsi qu’un intérêt pour le traitement du signal (audio/vidéo) et, idéalement, pour le NLP. Autonomie, rigueur, esprit critique et capacités d’analyse sont indispensables, tout comme de bonnes compétences en communication pour évoluer dans un environnement pluridisciplinaire. Un intérêt pour la phonétique, la linguistique et les troubles de la parole, en particulier le bégaiement, sera un plus.

Contexte de travail

Le doctorant sera impliqué dans un projet de recherche pluridisciplinaire associant deux laboratoires complémentaires : le LORIA, spécialisé en informatique, avec une expertise en traitement de la parole et en apprentissage profond, et PRAXILING, laboratoire en sciences du langage reconnu pour ses travaux en phonétique et sur le bégaiement. La recherche s’appuiera sur un corpus audiovisuel existant et annoté de locuteurs francophones présentant des troubles de la fluence. La thèse sera encadrée conjointement par des chercheurs en informatique et en sciences du langage, assurant une co-supervision interdisciplinaire. Elle se déroulera principalement au LORIA, à Nancy, avec des séjours réguliers au laboratoire Praxiling, à Montpellier, pour avoir des échanges scientifiques et enrichir l’approche de la problématique par une double expertise.

Contraintes et risques

Déplacements (pris en charge) à prévoir entre les deux laboratoires porteurs du projet.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Responsable de la sécurité des systèmes d'information rssi de la délégation centre-est du cnrs h/f
Vandœuvre-lès-Nancy
CDD
CNRS
Responsable sécurité
Offre similaire
Contrat doctoral en didactique des langues et sociolinguistique h/f
Nancy
CDD
CNRS
Offre similaire
Doctorant (h/f)
Nancy
CDD
CNRS
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement CNRS
Emploi CNRS à Nancy
Emploi Nancy
Emploi Meurthe-et-Moselle
Emploi Lorraine
Intérim Nancy
Intérim Meurthe-et-Moselle
Intérim Lorraine
Accueil > Emploi > Doctorat détection automatique multimodale des disfluences typiques du bégaiement (H/F)

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder