Stage en apprentissage automatique et web sémantique pour la découverte de jeux de données

Biot

Stage

Alternance

Inria

Web

Publiée le 20 octobre

Description de l'offre

Contexte et atouts du poste

Une multitude de jeux de données en libre accès — qu’ils soient textuels, audio, vidéo ou tabulaires — est aujourd’hui disponible pour un large éventail de tâches en apprentissage automatique, et leur nombre ne cesse de croître à un rythme soutenu. Si cette abondance représente une véritable opportunité, elle soulève également des difficultés croissantes pour les praticiens — qu’ils soient issus du monde académique ou industriel — qui peinent à identifier les ressources les plus adaptées à leurs besoins, faute d’outils de navigation suffisamment performants.

Cette complexité résulte à la fois de la diversité des formats et contenus disponibles, et du manque de dispositifs capables d’orienter efficacement les utilisateurs dans un écosystème en constante expansion. La situation est d’autant plus critique que les systèmes d’intelligence artificielle (IA), en plein essor, s’appuient largement sur ces jeux de données pour leur entraînement et leur évaluation.

Actuellement, deux principaux obstacles freinent l’accès à l’information pertinente :

1. D’une part, les jeux de données sont souvent décrits par des métadonnées incomplètes, hétérogènes ou mal normalisées, rendant leur contenu difficile à évaluer.
2. D’autre part, les moteurs de recherche disponibles reposent principalement sur des requêtes par mots-clés, ce qui suppose une connaissance préalable du domaine et produit des résultats souvent peu contextualisés.

Dans le cadre du projet DataLens, des résultats préliminaires ont été obtenus, notamment en matière de normalisation, de structuration et d’exploration des jeux de données. Un premier aboutissement concerne le développement d’un prototype dédié à la découverte de jeux de données, combinant une approche de recherche à facettes avec des techniques de visualisation interactive. Un second résultat porte sur l’harmonisation et la structuration des données issues du dépôt HuggingFace, à travers l’alignement des métadonnées avec des vocabulaires standards. Cela a conduit à la conception et à la mise en place d’un graphe de connaissances (CG), visant à faciliter l’intégration interopérable des métadonnées provenant de sources hétérogènes.

Mission confiée

Le stage a pour objectif d’enrichir et d’étendre un graphe de connaissances (CG) existant, en y intégrant des informations relatives aux jeux de données et aux modèles d’apprentissage automatique associés (issus notamment de HuggingFace, Kaggle, ou PapersWithCode).
L’enjeu est de renforcer l’interopérabilité, la structuration et la découvrabilité des ressources, en combinant des approches de web sémantique, de normalisation de métadonnées, et d’apprentissage automatique.

Principales activités

3. Étudier la structure actuelle du graphe de connaissances développé dans le cadre du projet DataLens.

4. Intégrer les informations relatives aux modèles d’IA associés aux jeux de données du catalogue HuggingFace.

5. Définir et implémenter les relations pertinentes entre modèles et jeux de données (ex. isTrainedOn, hasEvaluationDataset, usesArchitecture).

6. Concevoir une taxonomie des tâches d’apprentissage automatique (classification, génération, traduction, etc.) selon un schéma SKOS.

7. Intégrer cette taxonomie au graphe de connaissances pour améliorer la recherche par type de tâche.

8. Mettre en œuvre des techniques de normalisation des étiquettes via des méthodes d’entity linking (Wikidata, DBpedia).

9. Développer un pipeline automatique de correspondance entre champs et sources de données hétérogènes.

10. Expérimenter des modèles d’apprentissage automatique (réseaux neuronaux, transformers) pour compléter les métadonnées manquantes.

11. Concevoir des tests d’évaluation de la complétion (précision, rappel, F1-score).

12. Mettre en place un pipeline reproductible d’enrichissement et de structuration des métadonnées.

13. Évaluer la généricité du graphe en intégrant des données issues d’autres plateformes (Kaggle, PapersWithCode).

Compétences

Compétences techniques et niveau requis : Les technologies du Web sémantique (RDF, SPARQL, SKOS) et les méthodes d’apprentissage supervisé ou non supervisé constitueront un atout majeur. Des compétences en programmation (Python) et en analyse de données seront également nécessaires.

Langues : français / anglais

Avantages

14. Restauration subventionnée
15. Transports publics remboursés partiellement
16. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
17. Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
18. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
19. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
20. Accès à la formation professionnelle
21. Participation mutuelle (sous conditions)

Rémunération

Gratification selon temps de présence.

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Stage de recherche (m2, 6 mois) en web sémantique pour la modélisation des données de mobilité urbaine

Biot

Stage

Inria

Web

Offre similaire

Web marketer (h/f)

Nice

Alternance

Web

Offre similaire

(h/f) alternance - chargé de projet web

Nice

Alternance

Ascencia Business School

Web