Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage - conception d'un détecteur sémantique d'activité vocale pour des voicebot plus intelligents f/h

Cesson-Sévigné
Stage
Orange
Publiée le 16 octobre
Description de l'offre

Votre rôle

Les applications de chat vocal (comme Gemini, gpt4o-realtime, Moshi) sont une révolution des interactions homme-machine, promettant une discussion fluide en langage naturelle et permettant de répondre à un nombre important de cas d’usage.
Néanmoins, il existe encore des freins à l’adoption de telles approches. En particulier, il est essentiel de déterminer avec précision le moment où l’utilisateur a terminé de parler afin de générer une réponse adaptée et réactive. La détection d’activité vocale (VAD) traditionnelle [1] repose sur des modèles qui identifient simplement si l’utilisateur parle ou non, en utilisant un seuil d'énergie et un délai de silence fixe après la fin de la parole. Cependant, cette approche présente des limites, notamment en présence de longues pauses ou d’intonations variées, qui peuvent entraîner des erreurs de détection.

L’objectif de ce stage est d’étudier et de développer des solutions alternatives à la VAD basée seuils et délais de silence fixes, en particulier la VAD sémantique [2]. Cette dernière a pour promesse d’améliorer la précision de la détection de la fin de la parole en prenant en compte le contenu linguistique et l’intonation d’un énoncé.

Le stage débutera par une prise en main des solutions existantes, avec une analyse du fonctionnement des systèmes Speech2Speech [3,4] et une évaluation des limites de la VAD basée seuils et délais fixes. Ensuite, une revue de l’état de l’art sera réalisée pour identifier les méthodes innovantes et les approches récentes en matière de VAD, de Speech2Speech et de VAD sémantique. Par la suite, des métriques pertinentes seront définies afin de mesurer la performance, la latence et la gestion des interruptions, pouvant conduire à l’enrichissement de bases de données existantes.

Enfin, le stagiaire développera puis entraînera un modèle de VAD sémantique capable de prédire non seulement la présence de parole, mais aussi la probabilité que l’utilisateur ait terminé de parler. Ce modèle sera intégré dans notre solution interne de Speech2Speech, et une évaluation comparative sera menée pour mesurer l’impact de cette nouvelle approche sur la précision, la réactivité et la fluidité du système.

Références scientifiques :

[1] Graf, S., Herbig, T., Buck, M., & Schmidt, G. (2015). Features for voice activity detection: a comparative analysis. EURASIP Journal on Advances in Signal Processing, 2015(1), 91.

[2] Shi, M., Shu, Y., Zuo, L., Chen, Q., Zhang, S., Zhang, J., & Dai, L. R. (2023). Semantic VAD: Low-Latency Voice Activity Detection for Speech Interaction. In Proc. Interspeech 2023 (pp. 5047-5051).

[3] Chen, Q., Chen, Y., Chen, Y., Chen, M., Chen, Y., Deng, C., ... & Zhou, J. (2025). Minmo: A multimodal large language model for seamless voice interaction. arXiv preprint arXiv:2501.

[4] Défossez, A., Mazaré, L., Orsini, M., Royer, A., Pérez, P., Jégou, H., ... & Zeghidour, N. (2024). Moshi: a speech-text foundation model for real-time dialogue. arXiv preprint arXiv:2410.00037.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage recherche - etude et entrainement d'un modèle 3d surface réfléchissantes f/h
Cesson-Sévigné
Stage
Orange
Offre similaire
Stage recherche - approche neuronale pour la compression d'images f/h
Cesson-Sévigné
Stage
Orange
Offre similaire
Stage recherche - interface d'évaluation de kpis radio pour enablers technologiques 6g f/h
Cesson-Sévigné
Stage
Orange
Radio
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange
Emploi Orange à Cesson-Sévigné
Emploi Cesson-Sévigné
Emploi Ille-et-Vilaine
Emploi Bretagne
Orange Intérim
Intérim Orange à Cesson-Sévigné
Intérim Cesson-Sévigné
Intérim Ille-et-Vilaine
Intérim Bretagne
Accueil > Emploi > Stage - Conception d'un détecteur sémantique d'activité vocale pour des voicebot plus intelligents F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder