Votre rôle
Sujet : Adaptation du tokeniseur pour l’adaptation d’un LLM à une nouvelle langue
L’adaptation des modèles de langue à de nouvelles langues constitue un axe primordial pour un développement inclusif de l’intelligence artificielle. Cette adaptation présente des nombreux enjeux scientifiques, en particulier lorsque les ressources langagières sont limitées et/ou lorsque les langues sont essentiellement orales. Orange a entrepris des travaux sur l’adaptation des modèles de langue au Wolof et a l’ambition de les consolider et de les étendre à d’autres langues de son empreinte linguistique.
L’objectif du stage est d’investiguer l'effet de la tokenisation sur la qualité des modèles adaptés à partir d’un LLM openweight, notamment pour les langues dont la fertilité du tokeniseur original est haute. Les travaux consisteront en particulier à proposer de nouvelles approches pour l’adaptation du tokeniseur (quels tokens ajouter? comment initialiser leur apprentissage?...). Les approches proposées seront évaluées de façon intrinsèque à l’aide de métriques dédiées et de façon extrinsèque en mesurant les performances de modèles affinés (continuation du pré-apprentissage, affinage par instruction et préférence) intégrant les tokeniseurs proposés.
Des études devront être menées sur plusieurs langues de façon à pouvoir formuler des recommandations spécifiques pour chaque langue s’appuyant sur des résultats d’expériences tangibles. Les prochaines langues envisagées au-delà du Wolof sont le Darija marocain, le Lingala, le Swahili et le Bambara.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.