Topic description
Entreprise : Alten France (DIN : Direction d’Innovation), INA (Institut National de l’Audiovisuel)
Laboratoire académique partenaire : EFREI Research Lab en collaboration avec CARISM (Centre d'Analyse et de Recherche Interdisciplinaire sur les Médias), Université Paris-Panthéon-Assas.
Thématique de recherche
Le sujet de thèse s'inscrit dans l'exploration de l'Intelligence Artificielle Explicable pour l'Analyse Multimodale des Débats Politiques Télévisés. Les enjeux sont liés au développement d'outils d'IA capables de détecter et expliquer automatiquement les stratégies rhétoriques dans les débats politiques français, tout en analysant leur circulation et transformation dans les espaces médiatiques en ligne. Le projet ARGUMEDIA-FR vise à identifier, catégoriser et expliquer les stratégies argumentatives complexes déployées dans les débats politiques télévisés en France, en combinant les apports des théories d’argumentation, de la pragmatique et de l'analyse conversationnelle avec des approches informatiques avancées en traitement multimodal.
La thèse articule une double problématique interdisciplinaire. Sur le plan IA, il s'agit de concevoir une architecture multimodale explicable exploitant conjointement texte, audio et vidéo pour identifier les moments clés des débats et détecter automatiquement les stratégies rhétoriques majeures telles que les attaques ad hominem, les interruptions et dynamiques de prise de parole, les appels à l'émotion et les reformulations stratégiques. Sur le plan applicatif et validation, le projet analysera la "translation rhétorique" des moments-clés des débats TV vers les médias sociaux, en étudiant comment ces stratégies sont repackagées en formats courts et leur impact sur la viralité algorithmique. Cette analyse permettra de comparer systématiquement les moments identifiés automatiquement par le système comme "saillants" avec ceux effectivement sélectionnés et transformés par les commentateurs humains dans leur circulation en ligne.
Objectifs et démarche de recherche
Le projet vise à développer un système d'IA multimodale explicable pour l'analyse automatique des débats télévisés, en combinant des architectures de pointe telles que les Transformers multimodaux, Large Language Models, et architectures audio-visuelles de type CLIP et Whisper. L'objectif principal est de détecter et caractériser quatre stratégies rhétoriques majeures : attaques ad hominem, appels à l'émotion, reformulations stratégiques, interruptions et dynamiques de prise de parole. Le système exploitera conjointement les expressions faciales, la gestuelle, les caractéristiques prosodiques de la voix (pitch, énergie, chevauchements) et le contenu textuel à travers marqueurs lexicaux, syntaxiques et pragmatiques.
L'architecture développée intégrera des mécanismes d'explicabilité avancés adaptés aux chercheurs SHS (Sciences Humaines et Sociales). Ces explications seront validées empiriquement à travers des études utilisateurs évaluant leur compréhensibilité et utilité pour des non-experts en IA.
Une composante essentielle consistera à constituer un corpus multimodal annoté de référence. En collaboration avec des experts SHS du CARISM dédiés sur trois ans, le projet développera un schéma d'annotation opérationnel permettant de caractériser finement chaque stratégie en termes de type, intensité, cibles et indices multimodaux. L'annotation, combinant approches manuelles multimodales (texte, audio et vidéo) et semi-automatiques, permettra d'enrichir un dataset privé dédié.
Contexte opérationnel
Les travaux de thèse s'appuieront sur la plateforme MEDIA développée au sein du Lab Alten de Sèvres, qui intègre déjà des technologies avancées pour l'analyse automatique des débats : identification des locuteurs, calcul de temps de parole, retranscription textuelle, détection des thématiques, résumés automatiques et analyse émotionnelle multimodale. Le projet ARGUMEDIA-FR constituera une extension majeure en y intégrant la détection de stratégies rhétoriques et des mécanismes d'explicabilité avancés.
Le projet bénéficie d'un dataset multimodal MediEMotion d'environ cent heures comprenant transcriptions, fichiers audio, images de visages et labels émotionnels, qui servira de point de départ pour l'enrichissement vers l'annotation d'actes rhétoriques. Les travaux utiliseront également les corpus de l'ANR STREAMédia hébergés à l'INA. Un corpus ciblé de circulation des extraits sur les plateformes sera collecté durant la thèse via des approches de scraping éthique et l'utilisation d'APIs officielles.
La thèse se déroulera principalement au laboratoire ALTEN de Sèvres, avec des déplacements réguliers vers les instituts partenaires (CARISM, EFREI Research Lab et INA), où un rôle de coordination technique d'une équipe d'ingénieurs R&D est attendu pour la mise en œuvre du projet. Le doctorant bénéficiera du support d'ingénieurs pour l'implémentation de certains modules et, de manière cruciale, du support continu d'une équipe de stagiaires SHS dédiés tout au long des trois années, qui travailleront en parallèle sur la conception du schéma d'annotation, l'annotation effective du corpus, la validation théorique des catégories rhétoriques et l'interprétation qualitative des résultats. Cette organisation permet au doctorant de se concentrer principalement sur les développements informatiques avancés. Des déplacements réguliers sont prévus pour les collaborations avec le CARISM et l'INA, notamment lors des phases de définition des schémas d'annotation, de validation interdisciplinaire des résultats et de rédaction.
Funding category
Cifre
Funding further details
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.