Job details
Job Type
Internship
Full Job Description
Vous effectuerez un travail de thèse sur l'apprentissage profond pour une compréhension robuste et complétement neuronale de la parole.
Contexte:un des enjeux majeurs pour Orange est de placer l'IA au coeur du modèle d'innovation afin de proposer une expérience client réinventée.Plus concrètement, cette expérience client se manifeste à travers des Serveurs Vocaux Interactifs, de la commande vocale et des agents conversationnels.Le but est alors de comprendre automatiquement le client afin de lui donner plus rapidement satisfaction.Et la compréhension de la parole-aussi appelée compréhension du langage parlé(Spoken Language Understanding- SLU)-devient logiquement la clé de voûte de toutes ces interactions,expliquant l'attention forte portée par la communauté sur ce sujet stratégique, notamment à travers de nombreuses publications.D'un point de vue scientifique,le SLU[1] présente un large spectre de problématiques avec des niveaux de difficulté variables.Les tâches étudiées dans le cadre du SLU ont l'objectif commun de comprendre le sens de la parole,mais se différencient par le niveau de détails sémantiques recherché, par la durée et la qualité des enregistrements traités.La détection d'intention[2,3] est le problème le plus étudié au sein du SLU.L'objectif de ce dernier est de reconnaître l'intention d'une locution.Par exemple, dans le contexte de l'assistant vocal sur la télécommande une locution pourrait être «J'entends mal. Mets la télé plus fort.».L'intention exprimée serait d'augmenter le son. Il est parfois nécessaire de reconnaître des sous-intentions [4,5].Par ailleurs, l'un des défis principaux du SLU reste de comprendre le contexte d'une locution afin de saisir son sens correctement. Ainsi la tâche de la reconnaissance des entités nommées[6] s'intéresse à l'identification des noms propres, tels que les personnalités, organisations.Enfin, le suivi des états de dialogue[7] reste la tâche de SLU la plus intéressante du point de vue applicatif, mais aussi la plus complexe scientifiquement.
Historiquement,le SLU a été traité en deux étapes:la parole était retranscrite en texte avec un outil de transcription de la parole (ASR),puis le sens de la transcription était analysé par un outil de compréhension du langage naturel (NLU).Les deux briques de cette approche étaient entraînées séparément.Cependant,grâce au progrès du Deep Learning ces dernières années [8],les systèmes d'ASR[9] et de NLU[10] sont maintenant basés entièrement sur les réseaux de neurones.Cela rend donc l'apprentissage neuronal de bout-en-bout(End To End E2E) possible pour le SLU.Dans l'approche E2E,un seul modèle prend en entrée l'enregistrement de la parole et produit directement la sortie de SLU,sans générer de transcription explicite.Cette approche a de nombreux avantages par rapport au pipeline traditionnel. En effet,(1) cela permet d'optimiser directement la métrique cible durant l'apprentissage(2) cela économise les ressources du modèle sans les dépenser sur la prédiction de la transcription, rendant le modèle plus compact mais aussi plus robuste car l'étape de décodage textuel d'un modèle d'ASR est sujette aux erreurs et(3) cela permet d'utiliser les aspects de la parole potentiellement utiles pour le SLU,mais absents de la transcription, e.g. la prosodie.Par conséquent, les approches neuronales E2E pour le SLU sont de plus en plus populaires dans les derniers articles scientifiques[11,12], et montrent des résultats plus qu'encourageants.Pour toutes ces raisons,la thèse se focalisera sur les approches E2E.
Objectif:l'idée principale de la thèse sera de tirer parti des approches E2E du SLU,de les améliorer afin de répondre à des tâches de compréhension plus complexes, permettant notamment de bâtir un pont entre langue parlée et langue écrite.
about you
Bac +5, master de recherche ou équivalent, idéalement avec la spécialité : apprentissage automatique et / ou traitement du signal.
Un stage en Deep Learning et / ou traitement de la parole serait un plus.
Compétences scientifiques et techniques :
intelligence artificielle, traitement du signal, mathématiques appliquées, analyse du signal de parole (reconnaissance de la parole, du locuteur, etc.)
Des publications scientifiques dans le domaine de l'IA ou du traitement de la parole seraient un grand plus.
Programmation :
- maîtrise de Python ;
- connaissance de PyTorch (ou une autre bibliothèque de Deep Learning) serait un plus.
Qualités personnelles :
- rigueur pour la formalisation des algorithmes, la gestion des données, l'analyse critique des résultats, la communication ;
- inventivité, imagination pour faire avancer les travaux de recherche, explorer des voies originales, résoudre des problèmes difficiles ;
- autonomie.
Ouverture et partage (des idées, points de vue, etc.). Savoir solliciter les échanges avec l'équipe, les encadrants, la communauté.
additional information
Des verrous scientifiques passionnants à lever :
- Il faudra développer une maîtrise du Deep Learning dans le contexte spécifique de ces modèles E2E appliqués à la parole (convergence, robustesse et évaluation).
- Nous aurons besoin d'expliciter des liens entre représentation acoustique, langue parlée et langue écrite.
- Nous chercherons à tendre vers une compréhension plus générale du langage, notamment en faisant le lien avec la notion de connaissance.
Une équipe à la fois pluridisciplinaire et homogène, qui travaille depuis quinze ans sur des problématiques liées à l'apprentissage profond.
La proximité avec les équipes de production qui permet d'avoir des opportunités tout au long de la thèse avec une mise en application des développements réalisés dans des cas très concrets.
Références
[1] G. Tur et al. “Spoken language understanding: systems for extracting semantic information from speech”, 2011.
[2] A. Bhargava et al. “Easy contextual intent prediction and slot detection”, ICASSP 2013.
[3] S. Ravuri et al. “Recurrent neural network and LSTM models for lexical utterance classification”, INTERSPEECH 2015.
[4] A. Coucke et al. “Snips voice platform: an embedded spoken language understanding system for private-by-design voice interfaces”, arXiv:1805.10190, 2018.
[5] E. Simonnet et al. “Exploring the use of attention-based recurrent neural network for spoken language understanding”, NeurIPS workshop, 2015.
[6] N. Tomashenko et al. “Recent advances in end-to-end spoken language understanding”, SLSP 2019.
[7] V. Pal et al. “Modeling ASR Ambiguity for Neural Dialog State Tracking”, INTERSPEECH 2020.
[8] Y. Bengio et al.. “Deep Learning”, 2016.
[9] J. Li et al. “Jasper: an end-to-end convolutional acoustic model”.
[10] J. Delvin et al. “BERT: pre-training of deep bidirectional transformers for language understanding”, NACCL 2019.
[11] L. Lugosch et al. “Speech model pre-training for end-to-end spoken language understanding”, INTERSPEECH 2019.
[12] N. Tomashenko et al. “Dialogue history integration into end-to-end signal-to-concept spoken language understanding systems”, ICASSP 2020.
department
Au sein de la Division Technology and Global Innovation (TGI) du Groupe Orange dont l'ambition est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, la thèse se déroulera à CESSON SEVIGNE au sein de l'équipe MAS, de la direction DATA-IA de TGI, composée d'une vingtaine de personnes, dont une dizaine de chercheurs, travaillant dans le domaine de l'apprentissage profond et ayant de l'expérience sur des sujets directement liés à la voix (transcription de la parole, identification de locuteurs, analyse des attributs vocaux), mais aussi plus fondamentaux (apprentissage avec peu de données, explicabilité). L'équipe comprend également des ingénieurs développeurs, des intégrateurs, d'autres doctorants et des stagiaires.
contract
Thesis
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.