Emploi
Assistant de carrière BÊTA J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Thèse modèles neuronaux unifiants sémantique haut niveau et signaux paralinguistiques f/h

Orange
Publiée le 3 avril
Description de l'offre

Date de publication : Apr 02, 2026, 7:11PM

Contexte


La voix irrigue aujourd’hui l’expérience client et le travail collaboratif : hotlines, boutiques, réunions, visioconférences. Ce gisement recèle bien plus que la simple transcription. Les approches Speech-LLMs de bout en bout (E2E) ont montré, dans certaines configurations (pré-entraînement massif, finetuning), une sensibilité réelle au signal parlé. Cependant, cette exploitation demeure souvent opportuniste, peu contrôlée, en particulier pour les indices paralinguistiques (prosodie, intensité, pauses, rires) qui véhiculent identité, intention, certitude, ou ironie.
Deux défis structurent le sujet. D’abord, capter et utiliser ces indices de façon explicite et mesurable, au-delà des cascades (ASR+LLM), et des E2E actuels qui n’en tirent pas encore tout le bénéfice. Ensuite, raisonner sur de très longs contextes : les conversations alternent sujets, locuteurs et références croisées, requérant mémoire, structuration temporelle et désambiguïsation (coréférences, implicites).
Chez Orange, des cas d’usage concrets : résumés de réunions orientés décisions, analyse d’alignement/contradiction entre contenu et ton, assistants vocaux plus naturels et sûrs. Côté marché, Sosh opère déjà un assistant vocal speech-to-speech, illustrant l’adoption à plus large échelle de ce type d’approches.

Objectifs et verrous

La thèse vise à unifier sémantique de haut niveau et signaux paralinguistiques pour « comprendre au-delà des mots », tout en gérant de longs contextes. Résultat attendu : des modèles et protocoles d’évaluation exploitant la richesse du signal parlé et mesurant les gains sur des cas d’usage sémantiques (résumé, suivi d’état, intentions, ironie/toxicité) en environnement multi-locuteurs et bruité.

Trois sous-objectifs :

1. Mesurer l’apport paralinguistique. Définir des protocoles isolant sa contribution (avec/sans, contre‑factuels via édition prosodique, ablations). Verrous : disponibilité/qualité des annotations, normalisation inter‑locuteurs, robustesse au bruit.

2. Représenter et intégrer les signaux. Apprendre un espace commun audio-texte orienté concepts, reliant contenu linguistique et indices paralinguistiques, interrogeable par un modèle de compréhension. Verrous : alignement multimodal, généralisation hors domaine, contrôle de l’attention aux indices.

3. Gérer le long contexte (segmentation, hiérarchies, compression, architectures). Verrous : coût calcul/inférence, dérive mémorielle, traçabilité.

Au-delà des publications, livrables possibles : (a) enrichissement sélectif de corpus (réunions/dialogues) en labels paralinguistiques, (b) pré-entraînement auto-supervisé multimodal/multitâches, (c) démonstrateur montrant des gains sur des tâches sémantiques, (d) recommandations pour le passage à l’échelle (déploiements type Sosh, plateformes internes).

Compétences scientifiques et techniques

Intelligence artificielle.
Maîtrise d’un framework de deep learning (idéalement Pytorch).
Traitement du signal.
Mathématiques appliquées.
Traitement de la parole ou du texte (souhaitable).


Qualités personnelles

Rigueur pour la formalisation des algorithmes, la gestion des données, l’analyse critique des résultats, la communication.
Inventivité, imagination pour faire avancer les travaux de recherche, explorer des voies originales, résoudre des problèmes complexes.
Autonomie.
Ouverture et partage (des idées, points de vue, etc.). Savoir solliciter les échanges avec l’équipe, les encadrants, la communauté.

Formation

Vous êtes titulaire d’un master recherche ou équivalent, ou vous êtes diplômé(e) d’une école d’ingénieur ou équivalent avec, de préférence, une spécialité dans un ou plusieurs domaines de l’Intelligence Artificielle.

Expériences souhaitées

Stage dans le domaine du deep learning et/ou du traitement du signal audio.

Qu’est ce qui fait la valeur ajoutée de cette offre ?

Cette thèse se distingue par un positionnement en rupture avec les approches récentes: nous chercherons à raisonner « au niveau des concepts » [1] et non uniquement des tokens, tout en cherchant à unifier sémantique et paralinguistique dans la conversation [2]. Elle produira des connaissances nouvelles sur la mesure de l’apport des indices prosodiques à des tâches de haut niveau, et sur des architectures capables de traiter des contextes très longs en environnement réel multi-locuteurs.

Vous bénéficierez d’une plateforme de calcul interne permettant des expérimentations à grande échelle, d’un écosystème de données variées et de cas d’usage concrets au sein d’Orange (assistants vocaux, expérience client). L’encadrement est assuré par des chercheurs publiants, avec une direction académique reconnue, et des collaborations possibles avec d’autres doctorants. Enfin, la thèse pourra s’articuler avec des initiatives de recherche structurantes et offrir une participation à des projets collaboratifs (par exemple ANR).

[1] Barrault, L., Duquenne, P. A., Elbayad, M., Kozhevnikov, A., Alastruey, B., Andrews, P., ... & Schwenk, H. (2024). Large concept models: Language modeling in a sentence representation space. arXiv preprint arXiv:2412.08821.

[2] Bouziane, M., Mdhaffar, S., & Estève, Y. (2026). Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder. arXiv preprint arXiv:2603.08312.

L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Nous formons les expertes et les experts des technologies d’aujourd’hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l’innovation dont 740 chercheurs. Porteurs d’une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité…), les femmes et les hommes de Innovation sont à l’écoute et au service des pays, des régions et des business units pour faire d’Orange un opérateur multiservices de confiance.

Au sein de Innovation, vous serez intégré(e) dans une équipe de recherche d’une quinzaine de personnes travaillant dans le domaine de l’apprentissage profond et à la pointe sur des sujets audio tels que la transcription de la parole, l’anonymisation et les Speech-LLMs. L’équipe comprend également des ingénieurs développeurs, intégrateurs et d’autres doctorants.

Cette thèse se déroulera en partenariat avec l’Université du Mans dans le cadre d'un contrat CIFRE.

Chez Orange, seules vos compétences comptent.

Quel que soit votre âge, genre, origine, parcours, religion, orientation sexuelle, handicap, neuroatypie, ou apparence, nous encourageons activement la diversité au sein de nos équipes, car elle constitue une force pour le collectif et un vecteur d’innovation.
Orange est une entreprise handi-accueillante : n’hésitez pas à nous faire part de vos besoins spécifiques.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Cdd - technicien d'intervention boucle locale f/h
CDD
Orange
Offre similaire
Expert en retransmissions "live" - orange event reportages f/h
Orange
Offre similaire
Alternant - chef de projet f/h
Alternance
Orange
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Orange
Orange Intérim
Accueil > Emploi > Thèse Modèles neuronaux unifiants sémantique haut niveau et signaux paralinguistiques F/H

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2026 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder