Votre rôle
Orange a contribué au standard 3GPP IVAS (Immersive Voice and Audio Services) [1] qui inaugure la capacité d’un codec conversationnel à adresser des services immersifs. Ce codec est basé sur des techniques de traitement du signal classique, sans réseau de neurones.
Ces dernières années, les approches neuronales appliquées au codage audio mono-canal ont fait des progrès énormes en termes de rapport qualité-débit (SoundStream de Google, récemment supplanté par la solution d’Audio Descript [2]).
Il reste à développer des modèles efficaces de codage audio neuronal incluant la dimension spatiale, nécessitant plusieurs canaux.
Les codecs multicanaux classiques se basent souvent sur une étape de séparation de sources avant d’appliquer un codec-coeur mono à chaque source. On explore une approche qui pousse possiblement plus loin la séparation [3] pour tirer profit des performances des nouveaux codecs mono en se permettant d’en multiplier les instances. On étudie aussi la question de coder séparément la réverbération. Pour cette tâche non triviale, il peut être bénéfique d’inclure la déréverbération dans la tâche de séparation de sources [4]. Des performances de cette étape dépendent la qualité du codage des flux mono intermédiaires, ainsi que de possibles artefacts à l’étape finale de reformation du flux multicanal.
Le stage a vocation à explorer le lien entre performance de séparation de sources et qualité de codage avec comme objectifs:
* évaluer la criticité de la séparation de sources et de la déréverbération du point de vue des artéfacts de codage qui en résultent,
* évaluer les performances des méthodes de l’état-de-l'art de séparation de sources sur cette tâche.
Le travail de stage (6 mois) se déroulera selon le calendrier suivant :
* Appropriation du sujet et étude bibliographique (1 mois),
* Réalisationde tests, évaluation objective et subjective des besoins de séparation de sourceet déréverbération pour le codage (1,5 mois),
* Mise en œuvre et évaluation (2,5 mois)
* Rédaction (1 mois)
Références
[1] DRAFT TS 26.253 (Codec for Immersive Voice and Audio Services; Detailed Algorithmic Description incl. RTP payload format and SDP parameter definitions)
[2] Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, and Kundan Kumar. High-Fidelity Audio Compression with Improved RVQGAN, October 2023. arXiv:2306.06546.
[3] Hëb-Umbach, R., Nakatani, T., Delcroix, M., Boeddeker, C., & Ochiai, T. (2025). Microphone Array Signal Processing and Deep Learning for Speech Enhancement: Combining model-based and data-driven approaches to parameter estimation and filtering. IEEE Signal Processing Magazine, 41(6), 12-23.
[4] Nakatani, T., Boeddeker, C., Kinoshita, K., Ikeshita, R., Delcroix, M., & Haeb-Umbach, R. (2020). Jointly optimal denoising, dereverberation, and source separation. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 28, 2267-2282.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.