L'interprétabilité mécanistique vise à comprendre le fonctionnement interne des modèles de machine learning, notamment des LLMs, en étudiant la circulation de l'information dans leurs couches. Elle peut permettre d'optimiser le fine-tuning, limiter les interférences lors de l'adaptation ou de la fusion de modèles, et améliorer la compression tout en conservant des capacités. La thèse propose de passer d'une approche centrée sur des tâches en laboratoire à une analyse basée sur les usages réels, en utilisant des logs d'usage variés. La problématique est alors que les tâches ne sont pas clairement identifiables, ni forcément séparables dans les données.
Résultats attendus
L'objectif est d'identifier les circuits activés à partir de traces d'usage, d'évaluer la robustesse et la fidélité des méthodes employées, d'étudier le lien entre activation observée et rôle causal réel dans le comportement du modèle, et de proposer un pipeline expérimental robuste pour analyser les usages de LLMs à partir de données réelles. Les principaux verrous sont le coût computationnel élevé de ces approches, la fragilité de certaines métriques et protocoles, la difficulté à distinguer corrélation et causalité, la caractérisation des usages à partir des logs, ainsi que la transférabilité des analyses depuis des tâches simples vers des usages réels. Les résultats attendus sont une formalisation expérimentale rigoureuse, un pipeline de cartographie de circuits, une comparaison de méthodes récentes, ainsi que des enseignements exploitables pour le fine-tuning, la sélection de modèles et l'optimisation des usages industriels.
Références
Miller et al. Transformer circuit faithfulness metrics are not robust
Zhang & Nanda. Towards Best Practices of Activation Patching in Language Models: Metrics and Methods
Wang et al. Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis
Basu et al. On Mechanistic Circuits for Extractive Question-Answering
Hanna et al. Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms
Conmy et al. Towards automated circuit discovery for mechanistic interpretability
Zhang et al. EAPGP: Mitigating Saturation Effect in Gradient-based Automated Circuit Identification
Lee et al. Open Problems in Mechanistic Interpretability
Sengupta et al. Interpretability as Alignment: Making Internal Understanding a Design Principle
Gu et al. Discovering Transformer Circuits via a Hybrid Attribution and Pruning Framework. La rémunération brute proposée est comprise entre 37 et 40 kEUR. A cela s'ajoutent un plan d'épargne entreprise et retraite, l'intéressement, la participation, une couverture santé et prévoyance, des réductions sur les offres et produits d'Orange ainsi que les activités sociales et culturelles proposées par le comité d'entreprise.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.