Emploi
J'estime mon salaire
Mon CV
Mes offres
Mes alertes
Se connecter
Trouver un emploi
TYPE DE CONTRAT
Emploi CDI/CDD
Missions d'intérim Offres d'alternance
Astuces emploi Fiches entreprises Fiches métiers
Rechercher

Stage en apprentissage automatique et web sémantique pour la découverte de jeux de données

Biot
Stage
Alternance
Inria
Web
Publiée le 20 octobre
Description de l'offre

Contexte et atouts du poste

Une multitude de jeux de données en libre accès — qu’ils soient textuels, audio, vidéo ou tabulaires — est aujourd’hui disponible pour un large éventail de tâches en apprentissage automatique, et leur nombre ne cesse de croître à un rythme soutenu. Si cette abondance représente une véritable opportunité, elle soulève également des difficultés croissantes pour les praticiens — qu’ils soient issus du monde académique ou industriel — qui peinent à identifier les ressources les plus adaptées à leurs besoins, faute d’outils de navigation suffisamment performants.

Cette complexité résulte à la fois de la diversité des formats et contenus disponibles, et du manque de dispositifs capables d’orienter efficacement les utilisateurs dans un écosystème en constante expansion. La situation est d’autant plus critique que les systèmes d’intelligence artificielle (IA), en plein essor, s’appuient largement sur ces jeux de données pour leur entraînement et leur évaluation.

Actuellement, deux principaux obstacles freinent l’accès à l’information pertinente :

1. D’une part, les jeux de données sont souvent décrits par des métadonnées incomplètes, hétérogènes ou mal normalisées, rendant leur contenu difficile à évaluer.
2. D’autre part, les moteurs de recherche disponibles reposent principalement sur des requêtes par mots-clés, ce qui suppose une connaissance préalable du domaine et produit des résultats souvent peu contextualisés.

Dans le cadre du projet DataLens, des résultats préliminaires ont été obtenus, notamment en matière de normalisation, de structuration et d’exploration des jeux de données. Un premier aboutissement concerne le développement d’un prototype dédié à la découverte de jeux de données, combinant une approche de recherche à facettes avec des techniques de visualisation interactive. Un second résultat porte sur l’harmonisation et la structuration des données issues du dépôt HuggingFace, à travers l’alignement des métadonnées avec des vocabulaires standards. Cela a conduit à la conception et à la mise en place d’un graphe de connaissances (CG), visant à faciliter l’intégration interopérable des métadonnées provenant de sources hétérogènes.

Mission confiée

Le stage a pour objectif d’enrichir et d’étendre un graphe de connaissances (CG) existant, en y intégrant des informations relatives aux jeux de données et aux modèles d’apprentissage automatique associés (issus notamment de HuggingFace, Kaggle, ou PapersWithCode).
L’enjeu est de renforcer l’interopérabilité, la structuration et la découvrabilité des ressources, en combinant des approches de web sémantique, de normalisation de métadonnées, et d’apprentissage automatique.

Principales activités

3. Étudier la structure actuelle du graphe de connaissances développé dans le cadre du projet DataLens.

4. Intégrer les informations relatives aux modèles d’IA associés aux jeux de données du catalogue HuggingFace.

5. Définir et implémenter les relations pertinentes entre modèles et jeux de données (ex. isTrainedOn, hasEvaluationDataset, usesArchitecture).

6. Concevoir une taxonomie des tâches d’apprentissage automatique (classification, génération, traduction, etc.) selon un schéma SKOS.

7. Intégrer cette taxonomie au graphe de connaissances pour améliorer la recherche par type de tâche.

8. Mettre en œuvre des techniques de normalisation des étiquettes via des méthodes d’entity linking (Wikidata, DBpedia).

9. Développer un pipeline automatique de correspondance entre champs et sources de données hétérogènes.

10. Expérimenter des modèles d’apprentissage automatique (réseaux neuronaux, transformers) pour compléter les métadonnées manquantes.

11. Concevoir des tests d’évaluation de la complétion (précision, rappel, F1-score).

12. Mettre en place un pipeline reproductible d’enrichissement et de structuration des métadonnées.

13. Évaluer la généricité du graphe en intégrant des données issues d’autres plateformes (Kaggle, PapersWithCode).

Compétences

Compétences techniques et niveau requis : Les technologies du Web sémantique (RDF, SPARQL, SKOS) et les méthodes d’apprentissage supervisé ou non supervisé constitueront un atout majeur. Des compétences en programmation (Python) et en analyse de données seront également nécessaires.

Langues : français / anglais

Avantages

14. Restauration subventionnée
15. Transports publics remboursés partiellement
16. Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
17. Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
18. Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
19. Prestations sociales, culturelles et sportives (Association de gestion des œuvres sociales d'Inria)
20. Accès à la formation professionnelle
21. Participation mutuelle (sous conditions)

Rémunération

Gratification selon temps de présence.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder
Offre similaire
Stage de recherche (m2, 6 mois) en web sémantique pour la modélisation des données de mobilité urbaine
Biot
Stage
Inria
Web
Offre similaire
Web marketer (h/f)
Nice
Alternance
Web
Offre similaire
(h/f) alternance - chargé de projet web
Nice
Alternance
Ascencia Business School
Web
Voir plus d'offres d'emploi
Estimer mon salaire
JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.

Offres similaires
Recrutement Inria
Emploi Inria à Biot
Emploi Informatique à Biot
Emploi Biot
Emploi Alpes-Maritimes
Emploi Provence-Alpes-Côte d'Azur
Intérim Informatique à Biot
Intérim Biot
Intérim Alpes-Maritimes
Intérim Provence-Alpes-Côte d'Azur
Accueil > Emploi > Emploi Informatique > Emploi Web > Emploi Web à Biot > Stage en apprentissage automatique et web sémantique pour la découverte de jeux de données

Jobijoba

  • Conseils emploi
  • Avis Entreprise

Trouvez des offres

  • Emplois par métier
  • Emplois par secteur
  • Emplois par société
  • Emplois par localité
  • Emplois par mots clés
  • Missions Intérim
  • Emploi Alternance

Contact / Partenariats

  • Contactez-nous
  • Publiez vos offres sur Jobijoba
  • Programme d'affiliation

Suivez Jobijoba sur  Linkedin

Mentions légales - Conditions générales d'utilisation - Politique de confidentialité - Gérer mes cookies - Accessibilité : Non conforme

© 2025 Jobijoba - Tous Droits Réservés

Les informations recueillies dans ce formulaire font l’objet d’un traitement informatique destiné à Jobijoba SA. Conformément à la loi « informatique et libertés » du 6 janvier 1978 modifiée, vous disposez d’un droit d’accès et de rectification aux informations qui vous concernent. Vous pouvez également, pour des motifs légitimes, vous opposer au traitement des données vous concernant. Pour en savoir plus, consultez vos droits sur le site de la CNIL.

Postuler
Créer une alerte
Alerte activée
Sauvegardée
Sauvegarder