Votre rôle
Votre rôleest d’effectuer un travail de Post doc sur: «Séparation de sources par IA générative appliquée à des contenus ambisoniques». Ces travaux seront menés dans le cadre du projet ANR DEESSE “Deep Generative Spatial Source Separation”, lancé début 2025.
Contexte global et problématique du sujet
La prise de son mains-libres utilisée par certains services de communication vocale offre l’avantage de l’ergonomie en libérant les mains de l’utilisateur. En contrepartie, ce type de prise de son souffre d’arfacts liés à l’éloignement du locuteur: bruit ambiant, écho, interférences... Afin de rendre à la voix son intelligibilité, des techniques de rehaussement sont appliquées comme la séparation de sources qui permet de supprimer les interférences comme une radio.
Dernièrement, les technologies de séparation ont bénéficié de la démocratisation des antennes de microphones qui équipent tablettes, smartphones, laptops, aides auditives. En tirant parti d’informations spatiales, ces traitements multicanals sont plus performantes que les versions monocanales. La généralisation du deep learning au traitement du signal audio est l’autre élément incontournable de ces dernières annéesavec des résultats excellents (voir par exemple les résultats du challenge Sound Demixing https://www.aicrowd.com/challenges/sound-demixing-challenge-2023).
Cependant, ces méthodes présentent des limites qui font l’objet du projet ANR DEESSE:
* l’approche discriminative retenue, qui consiste généralement à appliquer un masque temps-fréquences, génère des artefacts audibles comme des résidus d’interférences ou une voix dégradée,
* les réseaux, entraînés de manière supervisée sur des bases de données synthétiques, fonctionnent mal en situations réelles, du fait du caractère rudimentaire des moteurs de simulation acoustique.
Objectif scientifique – résultats et verrous à lever
L’objectif du travail de postdoc consiste à développer des méthodes de séparation de sources audio multicanal qui soient robustes en condition réelle.
Dans ce travail de postdoc, les données multicanal seront au format Ambisonique: de nombreuses antennes du marché encodent dans ce format, qui est devenu le format générique de représentation pour les contenus VR et supporté par les plus récents codeurs audio comme IVAS du 3GPP. Plus précisément, on désire dans ce post-doc investiguer comment des architectures causales de type encodeur-décodeur monocanal comme DAC peuvent répondre à notre problématique de séparation de sources, par exemple, en insérant des architectures de type séparation de sources. On s’intéressera à la façon de représenter les données spatiales au format Ambisonique et à la manière de conditionner le réseau pour extraire de la source d’intérêt identifiée par sa position. Enfin, pour répondre à la problématique de généralisation, on investiguera les approches de type GAN (Generative Adversarial Network).
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.