Contexte et atouts du poste
Une multitude de jeux de données en libre accès — qu’ils soient textuels, audio, vidéo ou tabulaires — est aujourd’hui disponible pour un large éventail de tâches en apprentissage automatique, et leur nombre ne cesse de croître à un rythme soutenu. Si cette abondance représente une véritable opportunité, elle soulève également des difficultés croissantes pour les praticiens — qu’ils soient issus du monde académique ou industriel — qui peinent à identifier les ressources les plus adaptées à leurs besoins, faute d’outils de navigation suffisamment performants.
Cette complexité résulte à la fois de la diversité des formats et contenus disponibles, et du manque de dispositifs capables d’orienter efficacement les utilisateurs dans un écosystème en constante expansion. La situation est d’autant plus critique que les systèmes d’intelligence artificielle (IA), en plein essor, s’appuient largement sur ces jeux de données pour leur entraînement et leur évaluation.
Actuellement, deux principaux obstacles freinent l’accès à l’information pertinente :
1. D’une part, les jeux de données sont souvent décrits par des métadonnées incomplètes, hétérogènes ou mal normalisées, rendant leur contenu difficile à évaluer.
2. D’autre part, les moteurs de recherche disponibles reposent principalement sur des requêtes par mots-clés, ce qui suppose une connaissance préalable du domaine et produit des résultats souvent peu contextualisés.
Dans le cadre du projet DataLens, des résultats préliminaires ont été obtenus, notamment en matière de normalisation, de structuration et d’exploration des jeux de données. Un premier aboutissement concerne le développement d’un prototype dédié à la découverte de jeux de données, combinant une approche de recherche à facettes avec des techniques de visualisation interactive. Un second résultat porte sur l’harmonisation et la structuration des données issues du dépôt HuggingFace, à travers l’alignement des métadonnées avec des vocabulaires standards. Cela a conduit à la conception et à la mise en place d’un graphe de connaissances (CG), visant à faciliter l’intégration interopérable des métadonnées provenant de sources hétérogènes.
Mission confiée
Le stage a pour objectif d’enrichir et d’étendre un graphe de connaissances (CG) existant, en y intégrant des informations relatives aux jeux de données et aux modèles d’apprentissage automatique associés (issus notamment de HuggingFace, Kaggle, ou PapersWithCode).
L’enjeu est de renforcer l’interopérabilité, la structuration et la découvrabilité des ressources, en combinant des approches de web sémantique, de normalisation de métadonnées, et d’apprentissage automatique.
Principales activités
3. Étudier la structure actuelle du graphe de connaissances développé dans le cadre du projet DataLens.
4. Intégrer les informations relatives aux modèles d’IA associés aux jeux de données du catalogue HuggingFace.
5. Définir et implémenter les relations pertinentes entre modèles et jeux de données (ex. isTrainedOn, hasEvaluationDataset, usesArchitecture).
6. Concevoir une taxonomie des tâches d’apprentissage automatique (classification, génération, traduction, etc.) selon un schéma SKOS.
7. Intégrer cette taxonomie au graphe de connaissances pour améliorer la recherche par type de tâche.
8. Mettre en œuvre des techniques de normalisation des étiquettes via des méthodes d’entity linking (Wikidata, DBpedia).
9. Développer un pipeline automatique de correspondance entre champs et sources de données hétérogènes.
10. Expérimenter des modèles d’apprentissage automatique (réseaux neuronaux, transformers) pour compléter les métadonnées manquantes.
11. Concevoir des tests d’évaluation de la complétion (précision, rappel, F1-score).
12. Mettre en place un pipeline reproductible d’enrichissement et de structuration des métadonnées.
13. Évaluer la généricité du graphe en intégrant des données issues d’autres plateformes (Kaggle, PapersWithCode).
Compétences
Compétences techniques et niveau requis : Les technologies du Web sémantique (RDF, SPARQL, SKOS) et les méthodes d’apprentissage supervisé ou non supervisé constitueront un atout majeur. Des compétences en programmation (Python) et en analyse de données seront également nécessaires.
Langues : français / anglais
Avantages
14. Restauration subventionnée
15. Transports publics remboursés partiellement
16. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
17. Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
18. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
19. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
20. Accès à la formation professionnelle
21. Participation mutuelle (sous conditions)
Rémunération
Gratification selon temps de présence.
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.