Votre rôle
Description du contexte du stage
Les contenus audio spatialisés permettent entre autres une plus grande immersion et leurs usages se développent particulièrement ces dernières années (AR/VR, cinéma, radio, etc.). Or, l’audio spatialisé nécessite la transmission de plusieurs canaux audio et il est nécessaire de compresser efficacement ces données pour rendre leur usage supportable sur le réseau.
Orange a une expertise de longue date sur la compression de données audio (codecs EVS, MPEG-H, IVAS). Ces dernières années, les méthodes de compression par réseau de neurones ont montré qu’il était possible de réduire grandement le débit tout en maintenant une qualité correcte en mono par rapport aux méthodes de traitement du signal classiques [1]. L’extension de ces méthodes en multicanal restent balbutiantes. En particulier, pour être entrainés, les codecs (codeur/décodeur) par réseaux de neurones ont besoin d’un critère de qualité de reconstruction appelé fonction de coût. Il n’est pas trivial d’établir un tel critère de qualité en adéquation avec notre audition et permettant d’entrainer efficacement un réseau de neurones.
En 2025, Orange a proposé une nouvelle métrique de qualité audio basée sur un réseau de neurones profond, spécialisée dans l'audio spatial (ambisonique et binaural), nommée QASTAnet (pour Quality Assessment for SpaTial Audio network) [2]. Une implémentation de cet algorithme est disponible en open-source [3]. Nous souhaitons entrainer un codec multicanal avec QASTAnet comme fonction de coût. Or, la version actuelle de QASTAnet souffre d’un certain nombre de limitations qu’il est nécessaire de surmonter pour atteindre cet objectif.
Description de la mission et des principales activités associées au stage
Le travail de stage (6 mois) se déroulera selon un calendrier décrit ci-dessous :
* Appropriation du sujet et étude bibliographique (1 mois),
* Adapter QASTAnet pour entrainer un codec multicanal : réduction de la complexité de QASTAnet, augmentation de la largeur de bande fréquentielle (2 mois),
* Modifier QASTAnet pour améliorer la qualité du signal reconstruit par le codec (2 mois),
* Rédaction (1 mois).
[1] Muller, Thomas, Stéphane Ragot, Laeticia Gros, Pierrick Philippe, et Pascal Scalart. « Speech quality evaluation of neural audio codecs ». In Interspeech 2024.
[2] Adrien Llave, Emma Granier, et Grégory Pallone. « QASTAnet: A DNN-based Quality Metric for Spatial Audio ». https://doi.org/10.48550/arXiv.2509.16715.
[3] Python implementation of QASTAnet, https://github.com/Orange-OpenSource/QASTAnet
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.