Exploration des grands modèles de langage avec raisonnement « chain-of-thought » : explicablité et biais (h/f)

Gif-sur-Yvette

CDD

Publiée le 30 juin

Description de l'offre

L’objectif est d’améliorer la traçabilité, la lisibilité et la fidélité explicative des réponses générées par les LLMs tout en conservant leurs performances. Cette recherche s'inscrit dans une perspective d’interprétabilité et d’ingénierie des requêtes, et débouchera sur des outils d’analyse, des protocoles de génération, et des modèles enrichis plus explicables.

Le sujet de thèse propose plusieurs enjeux de recherche. Un point critique est la traduction implicite des prompts en anglais, même lorsqu’ils sont initialement rédigés en français. Cette opération, souvent invisible à l’utilisateur, peut introduire des biais sémantiques, linguistiques et culturels (idiomatismes, reformulations, pertes de sens), des imprécisions ou des erreurs dans les résultats. D’autre part, les étapes intermédiaires de la chaîne de pensée sont rarement explicitées ou contrôlées, ce qui nuit à la transparence et à la traçabilité de l'inférence. En parallèle, l’introduction de tokens spéciaux dans les requêtes (par ex. raisonnement, étape, conclusion, lang=fr, etc.) ou dans les réponses du modèle peut servir à : structurer le raisonnement produit (début/fin, étapes intermédiaires, justification, choix de réponse), guider le comportement du modèle (forçage d'explication ou de format), améliorer l’explicabilité en facilitant l’extraction et la visualisation des parties-clés du traitement de la requête.

Objectifs principaux :
1/ Étudier les forces, les limites et les biais du CoT, en tant qu’approche multi-requêtes explorant l’espace des connaissances d’un LLM.
2/ Expliciter les différentes étapes intervenant dans le traitement d’un prompt complexe : Traduction implicite (et ses biais), Nombre et nature des étapes de décomposition, Usage de la paraphrase ou des reformulations intermédiaires.
3/ Développer des mécanismes permettant de guider, annoter ou contrôler ces étapes, par l’introduction de tokens spéciaux, d’annotations linguistiques, ou de prompts structurés.
4/ Évaluer l’impact de ces éléments sur : la qualité du résultat final, le coût computationnel, l’explicabilité perçue et mesurable du raisonnement.
5/ Proposer des variantes de du CoT plus robustes, multilingues, et plus transparentes.

Méthodologie :
Phase 1 : Revue de littérature sur le CoT, les prompts structurés, les biais de traduction implicite, et les méthodes d’explicabilité.
Phase 2 : Conception de variantes guidées du CoT : prompts hiérarchiques, décompositions explicites, paraphrases contrôlées.
Phase 3 : Intégration dans des architectures existantes et ouvertes (LLaMA, DeepSeek, ...) et instrumentation du traitement du prompt pour tracer les étapes internes.
Phase 4 : Évaluation expérimentale sur des tâches de QA complexe et de raisonnement (GSM8K, HotpotQA, CosmosQA), avec comparaison à des baselines standard et analyse qualitative des biais linguistiques introduits.
Phase 5 : Proposition d’un protocole d’interprétabilité fondé sur la reconstitution du chemin de raisonnement suivi par le modèle.

Bibliographie
1. Chain-of-Thought Prompting et Raisonnement par Étapes
[1] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., ... & Le, Q. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. arXiv preprint arXiv:2201.11903. https://arxiv.org/abs/2201.11903
[2] Nye, M., Lin, K., Lee, J., Chen, X., & Schulman, J. (2021). Show Your Work: Scratchpads for Intermediate Computation with Language Models. NeurIPS.https://arxiv.org/abs/2112.00114
Zhou, D., Schärli, N., Hou, L., Wei, J., & Le, Q. V. (2022). Least-to-Most Prompting Enables Complex Reasoning in Large Language Models. arXiv preprint arXiv:2205.10625. https://arxiv.org/abs/2205.10625
[3] Yao, S., Zhao, J., Yu, D., et al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv preprint arXiv:2305.10601. https://arxiv.org/abs/2305.10601
2. Explicabilité
[4] Andreassen, A., Reif, E., & Hewitt, J. (2024). Inseq: A Python Library for Interpretability Analyses of Sequence Generation Models. arXiv preprint arXiv:2407.15248. https://arxiv.org/abs/2407.15248
[5] Kim, S., Hwang, Y., Yoon, J., & Lee, K. (2023). Sparsity-Guided Holistic Explanation for LLMs with Interpretable Inference-Time Intervention. arXiv preprint arXiv:2312.15033. https://arxiv.org/abs/2312.15033
[6] Zhu, Y., Ma, L., Lu, H., Zhang, H., & Zhang, M. (2024). SEER: Self-Explainability Enhancement of Large Language Models' Representations. arXiv preprint arXiv:2502.05242. https://arxiv.org/abs/2502.05242
[7] Wang, W., Li, J., & Gao, Y. (2023). Proto-LM: A Prototypical Network-Based Framework for Built-in Interpretability in Large Language Models. arXiv preprint arXiv:2311.01732. https://arxiv.org/abs/2311.01732
3. Traduction Implicite et Biais Linguistiques dans les LLM
[8] Ruder, S., et al. (2021). Beyond English-Centric Multilingual Machine Translation. Findings of EMNLP 2021. https://arxiv.org/abs/2103.06508
[9] Costa-jussà, M. R., et al. (2022). No Language Left Behind: Scaling Human-Centered Machine Translation. arXiv preprint arXiv:2207.04672. https://arxiv.org/abs/2207.04672
[10] Shen, Y., et al. (2023). How Far Can We Go with Multilingual Prompting? ACL 2023. https://arxiv.org/abs/2302.03983

Contexte de travail

Les grands modèles de langage (LLM) comme chatGPT, Gemini, Claude, LLaMA ou DeepSeek ont atteint des performances remarquables sur des tâches complexes de traitement des requêtes humains-IA. Parmi les techniques récentes ayant permis de renforcer leurs capacités figure le Chain-of-Thought prompting (CoT), ou requête par chaîne de pensée, qui décompose une question en étapes successives. Cette technique, popularisée par LangChain, s’apparente à une méthode de requêtes multiples visant à explorer plus profondément les connaissances internes d’un LLM. Elle favorise ainsi une meilleure structuration de l'interaction humain-IA et améliore l’explicabilité des réponses générées.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

Le sujet a des contraintes en termes de capacités de calcul. Une plateforme de calcul sera à disposition de l'étudiant(e) pour mener ses expériences qu'il(elle) devra utiliser à bonne escient. Nous aurons soin de travailler sur la frugalité des algorithmes et de mesurer les coûts.

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.