Doctorant f / h détection et clustering de la langue parlée

Paris

Inria

Publiée le 28 mai

Description de l'offre

Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d’Inria répondant aux besoins numériques des forces armées et forces de l’intérieur. La thèse sera réalisée au sein de l’équipe de recherche en traitement de l’audio de Inria D&S, sous la direction de Jean-François Bonastre et co-encadrée par Raphaël Duroselle.

La thèse s’inscrit dans un projet visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d’un enregistrement audio comme l’identité, la langue parlée, l’âge, l’origine géographique et ethnique, ou encore des marques socio / patho / physiologiques dans la voix. L’objectif de ce projet est d’apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L’explicabilité permet de conserver les opérateurs au centre du processus, en leur donnant les moyens d’une décision instruite.

Mission confiée

L’approche envisagée pour la thèse repose sur la définition d’un jeu d’attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l’absence d’un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur [1,2].

La thèse proposée vise à développer cette méthodologie en l’abordant selon l’objectif d’analyse de la langue parlée [3]. Le système vise à regrouper ensemble les segments relevant de la même langue et de détecter si celle-ci fait partie d’un panel de langues connues ou s’il s’agit d’une langue inconnue. Dans ce dernier cas, la proximité avec les langues connues devra être explicitement proposée, sur la base des attributs connus par le système.

Depuis l’apparition des modèles iVector [4] (initialement pour la reconnaissance du locuteur) dans la détection de la langue, le schéma général a peu évolué dans ce domaine. Il s’agit toujours de proposer un extracteur appris sur une grande masse de données et capable de représenter une séquence acoustique de durée quelconque par un vecteur de taille fixe, concentrant la variabilité utile à la tâche visée. Ensuite des classifieurs 1 : 1, comparant deux langues, ou 1 : N, comparant N langues sont construits et un système de prise de décision, dit «back-end», se base sur ces classifieurs pour répondre aux diverses tâches visées. Les réseaux de neurones, comme les «bottleneck features» ont permis d’intégrer très bas (proche du niveau acoustique) des éléments de plus haut niveau, allant jusqu’aux modèles de langage, apportant un gain très significatif [5]. Puis les embeddings issus de modèles neuronaux, dit «xVector», ont remplacé les iVector et permis à la fois d’augmenter la taille des modèles (et la performance) et de simplifier l’apprentissage, avec un procédé unique réalisant la transformation d’une séquence acoustique de taille variable en un vecteur signifiant de taille contenue [6].

Plus récemment, l’usage des modèles pré-appris comme WavLM [7] ou MMS [8] a été étudié [9]. Par leur généricité, ces modèles permettent des gains intéressants, surtout quand peu de données sont disponibles dans la base d’entraînement pour certaines langues, au prix d’un accroissement important de la complexité en termes de nombres de paramètres.

Ces approches partagent des limitations communes : elles sont peu capables d’expliquer leur décision, les performances se dégradent très significativement quand le contexte d’utilisation s’éloigne du contexte d’apprentissage, les performances sont très variables suivant les couples de langues ou dialectes considérés, elles gèrent mal le déséquilibre entre les quantités de données d’apprentissage disponibles par langue et elles sont lourdes à adapter / réapprendre. Enfin, elles ne proposent rien ou peu dans le cas de langues inconnues.

Dans ce projet, nous proposons de partir de l’état de l’art puis d’adapter l’approche par attribut de voix au contexte de la détection de la langue parlée. Dans cette adaptation, une langue peut être représentée par un vecteur binaire correspondant à la présence / absence d’attributs dans cette langue ou par un vecteur scalaire, indiquant la fréquence des attributs dans la langue. Les attributs eux-mêmes peuvent intégrer des informations de plus haut niveau, comme les niveaux phonotactiques et linguistiques). Cette architecture offre la possibilité de reconnaître une langue inconnue (au sens qu’aucune donnée correspondant à cette langue n’est présente dans la base d’apprentissage) et de situer sa proximité avec les langues connues en termes d’attributs explicites, permettant d’exploiter des connaissances en géolinguistique, par exemple. Un modèle de langue peut ainsi être construit dès le premier exemple de cette langue disponible, puis être adapté sans coût de calcul à chaque arrivée d’un exemple complémentaire. Si nécessaire, l’extracteur d’attributs peut être adapté en ajoutant un ou plusieurs attributs à partir des nouvelles données, sans nécessité de manière obligatoire de réapprendre la totalité du modèle. Les gains espérés sont donc importants, au niveau de l’explicabilité, du traitement des langues inconnues et de l’adaptation au contexte.

* Appliquer l’approche par attribut décrite précédemment à la détection de la langue parlée ;
* Développer la capacité à apprendre ou à étendre (nouvelle langue, nouveaux attributs) les modèles à partir de données peu ou pas annotées (par exemple, des données où seule la région d’enregistrement est connue)en optimisant le ratio «quantité de données / qualité des informations sur ces données» ;
* Explorer la capacité de cette approche à renseigner sur des langues inconnues ;

Exploiter l’approche pour le regroupement en langues de documents audio, même quand tout ou partie des langues sont inconnues du système, incluant donc la découverte et la caractérisation de langues inconnues.

Principales activités

* Etat de l’art, entraînement et évaluation de systèmes de reconnaissance de la langue parlée;
* Deep learning, et notamment utilisation et adaptation de modèles pré-entraînés de traitement de l’audio, comme WavLM [7] ou MMS [8];
* Apprentissage semi-supervisé;

Travail sur l’explicabilité post-hoc de modèles de reconnaissance de la langue.

Compétences

Compétences et connaissances souhaitées :

* Master 2 ou diplôme d’école d’ingénieur en informatique, mathématiques appliquées ou phonétique,
* Intérêt marqué pour la recherche appliquée,
* Maîtrise de l’anglais parlé et écrit,
* Connaissances en traitement du signal,
* Connaissances en apprentissage automatique de manière générale et dans les approches neuronales (deep learning) en particulier,
* Connaissance pratique d’outils comme Pytorch, Keras ou Scikit-learn,
* Expérience en traitement automatique de la parole, dont la connaissance de plateformes open-source comme Kaldi ou Speechb

Références

* Restauration subventionnée,
* Transports publics remboursés partiellement,
* Congés : 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement),
* Possibilité de télétravail (2 jours par semaine) et aménagement du temps de travail,
* Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.),
* Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria),
* Accès à la formation professionnelle,

Rémunération

Année 1 & 2 = 2082 € bruts mensuels

Année 3 = 2190 € bruts mensuels

Créer une alerte emploi pour cette recherche

#J-18808-Ljbffr

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Phd position f - m stochastic modeling of single-cell plasmid copy number fluctuations h/f

Palaiseau

CDD

Inria

2 200 € par mois

Offre similaire

Post-doctoral research visit f - m postdoctoral position - neural correlates of social interaction and its impact on performance in middle childhood h/f

Paris

CDD

Inria

Offre similaire

Poste d'ingénieur·e de recherche pour le développement de systèmes d'analyse et de gestion de séries temporelles h/f

Paris

CDD

Inria

R&D