Doctorant f/h interprétabilité et sûreté des modèles de langage (llms)

Paris

CDD

Inria

Publiée le 8 mars

Description de l'offre

Contexte et atouts du poste

Contexte

Les grands modèles de langage (Large Language Models, LLMs) sont aujourd’hui utilisés dans de nombreux domaines tels que la traduction automatique, la génération de code ou l’aide à la décision. Malgré leurs performances remarquables, ces modèles restent largement opaques et peuvent produire des comportements indésirables (hallucinations, backdoors, génération de code vulnérable). Comprendre leurs mécanismes internes constitue donc un enjeu majeur pour améliorer leur fiabilité et leur sécurité.

Cette thèse s’inscrit dans le domaine de l’interprétabilité mécaniste des modèles de langage et vise à analyser les circuits internes des LLMs afin de mieux comprendre comment leurs capacités émergent et comment ces connaissances peuvent être utilisées pour améliorer et sécuriser ces systèmes.

Principales activités

Missions

Le ou la doctorant·e sera amené·e à :

1. Étudier les mécanismes internes des modèles de langage et les circuits responsables de leurs capacités.

2. Analyser l’émergence et l’évolution de ces circuits au cours de l’entraînement et du fine-tuning.

3. Développer et appliquer des méthodes d’interprétabilité (analyse d’activations, attribution causale, autoencodeurs parcimonieux, etc.).

4. Identifier les liens entre circuits internes et comportements indésirables (ex. backdoors, génération de code malveillant).

5. Proposer des méthodes pour surveiller, corriger ou améliorer les comportements des modèles.

Dissémination

6. Publier les résultats dans des conférences internationales majeures en IA et NLP

Compétences

Compétences techniques et niveau requis :

Langue de programmation: Python, TypeScript, Scala, Java, C, R, SQL, etc.

Technologies: Nnsight, TransformerLens, PyTorch, Transformers, vLLM, Weights & Biases, Slurm, Docker, Kubernetes,

Git, PostgreSQL, Next.js

Langues : Français, anglais scientifique.

Avantages

7. Restauration subventionnée
8. Transports publics remboursés partiellement
9. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
10. Possibilité de télétravail et aménagement du temps de travail
11. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
12. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
13. Accès à la formation professionnelle
14. Sécurité sociale

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Juriste propriété intellectuelle et contrats

Le Chesnay

CDD

Inria

Juriste propriété intellectuelle

Offre similaire

Développeur full-stack – données de santé et médecine préventive (h/f)

Le Chesnay-Rocquencourt

CDD

Inria

Developpeur full stack

Offre similaire

Propagande et données d'entrainement des llms: detection et correction.

Paris

CDD

Inria

Ingénieur de recherche

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.