Thèse "identification de deepfakes audio par l'analyse des caractéristiques vocales" f/h

Orange

Publiée le 3 avril

Description de l'offre

Date de publication : Apr 02, 2026, 8:05PM

Votre rôle est d’effectuer un travail de thèse sur «l’identification des deepfakes audio par l'analyse des caractéristiques vocales ».
Les deepfakes audio sont des contenus synthétiques réalistes créés à l’aide de technologies d’intelligence artificielle, parfois utilisés à des fins de fraude ou de désinformation. On estime que 8 millions de deepfakes auraient été générés en 2025, notamment via du clonage de voix. Aujourd’hui, il suffit de quelques secondes d’une voix pour faire dire n’importe quoi à n’importe qui.
Les technologies actuelles permettant la création de deepfakes audio sont de deux types: la synthèse de parole et la conversion de voix, la plupart basées sur des architectures neuronales récentes telles que les auto-encodeurs, les modèles SSL, les vocoders de type GANs, etc.
Pour lutter contre la désinformation engendrée par un nombre grandissant de deepfakes, la communauté scientifique s’intéresse aux solutions permettant de les détecter automatiquement, et les éprouvent dans le cadre de challenges comme ASVSpoof [1]. La littérature récente se scinde en deux grandes catégories : les approches supervisées (type AASIST) et les approches non supervisées type détection d’anomalies [2]. Toutes ces approches se concentrent principalement sur la détection des artefacts de génération dans les domaines temporels et fréquentiels.

L’objectif de cette thèse est de se positionner dans la continuité de la recherche Orange sur l’IA de confiance en fiabilisant la robustesse des approches de détection de deepfakes dans le temps. Les technologies d’IA évoluant très vite, celles permettant de les contrer doivent suivre le même rythme. Il s’agira donc de maîtriser les technologies supervisées les plus performantes et de développer des approches complémentaires.
Aujourd’hui, l’état de l’art affirme être suffisamment robuste pour détecter des artefacts de génération devenus imperceptibles à l’oreille humaine et ce même concernant les générations issues des modèles les plus avancés. Néanmoins, il est nécessaire de prévoir le moment où l’IA générative sera capable de générer des contenus dépourvus de ces artefacts en s’intéressant à des pistes alternatives, notamment autour des caractéristiques du locuteur.
Plusieurs pistes de travail se dégagent, à aligner avec l’état de l’art au moment où la thèse commencera: pallier les itérations nécessaires pour maintenir à jour les technos supervisées; détecter les biais de génération liés aux caractéristiques du locuteur comme les spécificités prosodiques intra-locuteur; maîtriser les standards d’authentification de contenus et notamment les méthodes de watermarking audio.

[1] Wang, Xin, et al. "ASVspoof 5: Evaluation of Spoofing, Deepfake, and Adversarial Attack Detection Using Crowdsourced Speech."arXiv preprint arXiv:2601.03944(2026).
[2] Kim, Hyun Myung, Kangwook Jang, and Hoirin Kim. "One-class learning with adaptive centroid shift for audio deepfake detection."arXiv preprint arXiv:2406.1671

Compétences scientifiques et techniques

- Intelligence artificielle

- Maîtrise d’un framework de deep learning (idéalement Pytorch)

- Traitement du signal

- Mathématiques appliquées

- Analyse du signal de parole (synthèse vocale, conversion de la voix, transcription de la parole, identification du locuteur, etc)

Qualités personnelles

- Rigueur pour la formalisation des algorithmes, la gestion des données, l’analyse critique des résultats, la communication

- Inventivité, imagination pour faire avancer les travaux de recherche, explorer des voies originales, résoudre des problèmes difficiles

- Autonomie

- Ouverture et partage (des idées, points de vue, etc). Savoir solliciter les échanges avec l’équipe, les encadrants, la communauté

Formation demandée

Vous êtes titulaire d’un master recherche ou équivalent, ou vous êtes diplômé(e) d’une école d’ingénieur en Informatique ou Telecom ou équivalent avec, de préférence, une spécialité dans un ou plusieurs domaines de l’Intelligence Artificielle

Expériences souhaitées

Stage dans le domaine du deep learning et/ou du traitement du signal audio

La valeur ajoutée de cette thèse est l’investissement dans un sujet au croisement de l’intelligence artificielle et de l’éthique, pour lutter contre la désinformation et la création de contenus malveillants. En s’intéressant à la détection de deepfakes audio vous manipulerez des outils à la convergence de l'IA générative et de l'analyse/synthèse de la parole. Vous prendrez en main la dernière génération d'architectures neuronales, en rupture dans des domaines variés tels que le text-to-speech, la conversion de voix, la détection d’anomalies, ou la reconnaissance du locuteur. Vous prendrez notamment part au développement de la recherche Orange sur les caractéristiques des locuteurs [1] et sur l’étude de la prosodie pour la détection de deepfakes [2]. Vous aurez également l'opportunité de partager vos réflexions dans le cadre de projets collaboratifs comme le projet ANR EVA [3] coordonné par Orange, et de mettre en application les développements réalisés pour la thèse sur des cas très concrets liés aux interfaces vocales en général.

[1] Gengembre, N., Le Blouch O., and Gendrot C. "Disentangling prosody and timbre embeddings via voice conversion."INTERSPEECH. 2024.

[2] Warren, K., Olszewski, D., Layton, S., Butler, K., Gates, C., & Traynor, P. (2025). Pitch imperfect: Detecting audio deepfakes through acoustic prosodic analysis. arXiv preprint arXiv:2502.14726.

[3] https://anr.fr/Projet-ANR-23-CE23-0018

L’ambition de la Division Innovation est de porter plus loin l’innovation d’Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l’humain, éclairer les choix stratégiques du Groupe à long terme et influencer l’écosystème digital mondial.
Nous formons les expertes et les experts des technologies d’aujourd’hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité. La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l’innovation dont 740 chercheurs. Porteurs d’une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité…), les femmes et les hommes de Innovation sont à l’écoute et au service des pays, des régions et des business units pour faire d’Orange un opérateur multiservices de confiance.

Au sein de Innovation, vous serez intégré(e) dans une équipe de recherche d’une vingtaine de personnes travaillant dans le domaine de l’apprentissage profond et à la pointe sur des sujets d’analyse et de traitement automatique du signal de parole tels que la synthèse vocale, la transcription de la parole, ou l’identification du locuteur. L’équipe comprend également des ingénieurs développeurs, intégrateurs et d’autres doctorants.

Chez Orange, seules vos compétences comptent.

Quel que soit votre âge, genre, origine, parcours, religion, orientation sexuelle, handicap, neuroatypie, ou apparence, nous encourageons activement la diversité au sein de nos équipes, car elle constitue une force pour le collectif et un vecteur d’innovation.
Orange est une entreprise handi-accueillante : n’hésitez pas à nous faire part de vos besoins spécifiques.

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Cdd - technicien d'intervention boucle locale f/h

CDD

Orange

Offre similaire

Expert en retransmissions "live" - orange event reportages f/h

Orange

Offre similaire

Alternant - chef de projet f/h

Alternance

Orange