L'exploration de données est le processus d'interrogation progressive d'un ensemble de données. L'approche la plus courante consiste à générer des pipelines d'opérateurs dont le but est de transformer les données pour accomplir une tâche. Ces opérateurs incluent des actions d'exploration et de synthèse, ainsi que des appels aux modèles pré-entraînés tels que les modèles de langue et l’apprentissage par renforcement. Il existe de nombreuses méthodes d'apprentissage par renforcement dont le but est de générer une politique d'exploration produisant un pipeline [1, 2, 3]. Par exemple, dans le cas de l'éducation, un pipeline servirait un objectif d'apprentissage spécifique, c'est-à-dire une tâche, comme la réduction des écarts d'apprentissage [4]. L’entraînement des modèles est coûteux tant sur le plan temporel que monétaire. De plus, les modèles, et plus généralement, les pipelines qui les utilisent, ont un impact non négligeable sur l’environnement.
L’objectif de cette thèse est de développer un système et des algorithmes de gestion de pipelines analytiques qui favorisent la réutilisation de pipelines pour de futures tâches d’exploration de données. Ce travail se distingue par son focus sur la caractérisation de ces pipelines par des méta-donnés reflétant les résultats de leur évaluation Data/System/Human. Pour ce faire, les contributions scientifiques seront : (1) le design d’opérateurs expressifs pour représenter les pipelines analytiques [ADD REF DocETL] (2) le design d’un backend de stockage et d’extraction des pipelines (3) la formalisation et la résolution de problèmes d’optimisation multi-objective (impliquant les dimensions Data/System/Human) pour la recherche et la réutilisation de pipelines permettant d’exécuter une tâche (4) la validation empirique de ce travail pour une variété de tâches d'exploration de données.
Etat de l’art : Le travail de recherche de cette thèse est lié à deux axes de recherche actuels : (1) la réutilisabilité de modèles ML, et (2) les systèmes déclaratifs de définition et d’exécution de pipelines. Concernant (1), les travaux concernent la réutilisabilité des modèles ML lors de l’entraînement, comme les systèmes AutoML/VirnyFlow, ou lors de l’inférence. Concernant (2), il s’agit des systèmes tels que PALIMPZEST et LOTUS qui proposent un langage déclaratif pour faciliter la spécification de pipelines et une approche pour optimiser leur exécution. Cette thèse se place dans le cadre de la réutilisabilité lors de l’inférence dont elle se distingue en ajoutant une couche d’optimisation afin de choisir parmi les pipelines à réutiliser.
Tâches :
Etat de l’art sur (1) la réutilisabilité dans l'inférence des politiques en apprentissage par renforcement, (2) les systèmes AutoML/VirnyFlow dédiés à l’entraînement de modèles ML, et (3) systèmes déclaratifs de définition et d’exécution de pipelines tels que PALIMPZEST et LOTUS
Design de tâches d’exploration de données telles que la recommandation pour différents jeux de données
Génération de pipelines analytiques pour exécuter ces tâches
Design du schéma et de la base de données (Vector Database) permettant de représenter, stocker et extraire des pipelines ainsi que leurs méta-données incluant les résultats de leur évaluation Data/System/Human
Formalisation de problèmes d’optimisation multi-objective combinant les dimensions Data, System, Human, pour la recherche de pipelines analytiques permettant d’exécuter une tâche donnée
Comparaison empirique de la solution proposée avec des systèmes déclaratifs de définition et d’exécution de pipelines tels que PALIMPZEST et LOTUS sur des jeux de données variés
Compétences requises : capacité d'abstraction, maîtrise de langages de programmation comme Python, maîtrise de l'algèbre relationnelle, maîtrise de l’apprentissage par renforcement, connaissances en IA agentique, capacité de travailler en groupe, maîtrise de l'anglais.
Biblio
[1] Brit Youngmann, Sihem Amer-Yahia, Aurélien Personnaz: Guided Exploration of Data Summaries. Proc. VLDB Endow. 15(9): 1798-1807 (2022)
[2] Behrooz Omidvar-Tehrani, Aurélien Personnaz, Sihem Amer-Yahia: Guided Text-based Item Exploration. CIKM 2022: 3410-3420
[3] Aurélien Personnaz, Sihem Amer-Yahia, Laure Berti-Équille, Maximilian Fabricius, Srividya Subramanian: Balancing Familiarity and Curiosity in Data Exploration with Deep Reinforcement Learning. aiDM@SIGMOD 2021: 16-23
[4] Nassim Bouarour, Idir Benouaret, Sihem Amer-Yahia: Multi-objective Test Recommendation for Adaptive Learning. Trans. Large Scale Data Knowl. Centered Syst.: 1-36 (2024)
[5] Purich, Joanna, Anthony Wise, and Leilani Battle. "An adaptive benchmark for modeling user exploration of large datasets." Proceedings of the ACM on Management of Data 3.1 (2025): 1-24.
[6] Zeng, Zehua, et al. "Too many cooks: Exploring how graphical perception studies influence visualization recommendations in draco." IEEE Transactions on Visualization and Computer Graphics 30.1 (2023): 1063-1073.
[7] Amer-Yahia, Sihem. "Intelligent Agents for Data Exploration." The International Journal on Very Large Databases 17.12 (2024): 4521-4530.
[8] Yang, Junran, et al. "Optimizing dataflow systems for scalable interactive visualization." Proceedings of the ACM on Management of Data 2.1 (2024): 1-25.
[9] Mellouli, Mariam, and Paolo Papotti. "Evaluating SQL Selection/Projection over Table Embeddings." Proceedings of the VLDB Endowment. ISSN 2150: 8097.
[10] Saha, Sanad, et al. "ShiftScope: Adapting Visualization Recommendations to Users' Dynamic Data Focus." Companion of the 2024 International Conference on Management of Data. 2024.
[11] Herasymuk, Denys, Nazar Protsiv, and Julia Stoyanovich. "VirnyFlow: A Design Space for Responsible Model Development." arXiv preprint arXiv:2506.01584 (2025).
Contexte de travail
Contexte européen : Le travail de cette thèse se place dans le contexte du projet DataGEMS propose une plateforme de découverte de données avec des capacités d'exploration, de gestion et de recherche généralisées. DataGEMS repose sur les principes d'équité, d'ouverture et de réutilisation des données. Il vise à intégrer de manière transparente le partage, la découverte et l'analyse des données dans un système qui couvre l'ensemble du cycle de vie des données, c'est-à-dire le partage, le stockage, la gestion, la découverte, l'analyse et la réutilisation (données et/ou métadonnées), comblant le fossé entre le fournisseur de données et le consommateur de données.
DataGEMS est une action de recherche et d'innovation HORIZON-INFRA-2024-EOSC-01-05 - HORIZON-RIA HORIZON dont le but est de construire un écosystème entièrement opérationnel et durable d'outils open source pour l'équité des données et de fournir un écosystème d'outils gratuits et ouverts. -Des outils sources et un certain nombre de services couvrant toutes les phases du cycle de vie des données traitant du stockage et de la gestion, de la découverte, de l'analyse, de la description, de la publication et de la réutilisation. Le projet compte 12 partenaires répartis dans 8 pays européens qui collaboreront pour développer de nouveaux outils et services permettant d'accéder plus rapidement qu'auparavant aux ensembles de données FAIR-by-design. Ils facilitent la collecte et l'analyse d'ensembles de données hétérogènes et/ou à grande échelle, assurent la production automatique de données FAIR au niveau des instruments de recherche (par exemple, les stations météorologiques) et soutiennent les infrastructures par des outils et techniques d'automatisation des métadonnées.
Contexte du laboratoire de recherche : Le travail s'effectuera au sein du Laboratoire d'Informatique de Grenoble. Le LIG rassemble près de 450 chercheurs, enseignants-chercheurs, doctorants et personnels en support à la recherche. Ils relèvent des différents organismes et sont répartis sur trois sites du LIG : le campus, Minatec et Montbonnot. L’ambition est de s’appuyer sur la complémentarité et la qualité reconnue des 24 équipes de recherche du LIG pour contribuer au développement des aspects fondamentaux de l'informatique (modèles, langages, méthodes, algorithmes) et pour développer une synergie entre les défis conceptuels, technologiques et sociétaux associés à cette discipline.
Le LIG se veut un laboratoire centré sur les fondements et le développement des sciences informatiques, tout en veillant à une ouverture ambitieuse sur la société pour en accompagner les nouveaux défis. L'équipe d'accueil, DAISY, est une équipe de recherche commune CNRS, Grenoble INP, UGA au sein de l’axe Systèmes intelligents pour les données, les connaissances et les humains. Un grand nombre des travaux de DAISY sont évalués en utilisant des méthodes empruntées au domaine de recherche d’information et d’apprentissage automatique.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
Le poste est situé dans une zone soumise à la législation française relative à la protection du potentiel scientifique et technique (PPST) et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du ministère de l'Enseignement supérieur et de la Recherche (MESR).
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.