Sur les fondements de l'apprentissage relationnel neuro-symbolique // on the foundations of neurosymbolic relational ai

Saint-Martin-d'Hères

Alternance

Université Grenoble Alpes

Publiée le 23 mai

Description de l'offre

Topic description

L'apprentissage sur données relationnelles (relational learning) est actuellement en plein essor, avec l'accélération du développement de modèles à base de réseaux de neurones sur les graphes, de méthodes d'apprentissage exploitant les liens dans les bases de données relationnelles, et l'émergence de transformeurs relationnels.

Des architectures basées sur GraphSAGE \cite{graphsage} telles que RelBench \cite{relbenchv2}, et des approches comme Rel-LLM \cite{rel-llm}, Rel-GNN \cite{rel-gnn}, Rel-GT \cite{rel-gt} montrent qu'il est désormais possible de traiter efficacement des bases relationnelles de grande taille pour des tâches de prédiction et d'analyse avancée. Cependant, ces approches restent principalement statistiques et exploitent peu la richesse sémantique des bases de données relationnelles : schémas, types, contraintes d'intégrité, dépendances fonctionnelles, règles logiques métiers ou connaissances expertes. Cette limitation conduit à des modèles parfois encore peu robustes, peu interprétables, sensibles au manque de données, et ayant des capacités de généralisation limitées hors de la distribution des données vue durant l'entraînement.

Parallèlement, le domaine de l'IA neurosymbolique a proposé des approches combinant apprentissage neuronal et raisonnement logique. Deux grandes familles de travaux se distinguent : d'une part la programmation probabiliste neurosymbolique (avec des systèmes comme DeepProbLog \cite{deepproblog}, Scallop \cite{scallop}, Dolphin \cite{dolphin}, DPNL \cite{dpnl}, etc.) et d'autre part les nombreuses méthodes traitant les graphes de connaissances (knowledge graphs) en mêlant règles logiques et réseaux de neurones (voir e.g. \cite{delplanque-nesy} pour un survey).
Néanmoins, toutes ces approches restent difficilement applicables à des bases relationnelles réelles de grande taille, soit en raison de problèmes de passage à l'échelle, soit parce qu'elles sont conçues spécifiquement pour le modèle de représentation de données particulier que constituent les knowledge graphs et qui se révèle peu adapté face à la richesse des données relationnelles qui peuvent comporter des attributs multiples, des types scalaires, des relations n-aires (elles mêmes attribuées), et des contraintes complexes.

L'objectif de cette thèse est de proposer les fondements théoriques, algorithmiques et systèmes nécessaires à l'introduction de mécanismes neurosymboliques dans le relational learning. La thèse étudiera comment la connaissance logique préalable (provenant des différents niveaux de règles qui gouvernent l'organisation des donnés, comme les schémas relationnels, les types, les contraintes, les règles logiques, les connaissances expertes, etc.) afin de concevoir des modèles plus robustes, plus économes en données, plus interprétables et plus conformes à des propriétés logiques ou métiers.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Relational learning is currently experiencing rapid growth, driven by the accelerated development of graph neural network models, learning methods leveraging links in relational databases, and the emergence of relational transformers.

Architectures based on GraphSAGE \cite{graphsage}, such as RelBench \cite{relbenchv2}, as well as approaches like Rel-LLM \cite{rel-llm}, Rel-GNN \cite{rel-gnn}, and Rel-GT \cite{rel-gt}, demonstrate that it is now possible to efficiently process large-scale relational databases for advanced prediction and analysis tasks. However, these approaches remain primarily statistical and make limited use of the rich semantics of relational databases, including schemas, types, integrity constraints, functional dependencies, business logic rules, and expert knowledge. As a result, the resulting models may still lack robustness and interpretability, remain sensitive to data scarcity, and exhibit limited generalization capabilities outside the distribution observed during training.

At the same time, the field of neurosymbolic AI has introduced approaches that combine neural learning with logical reasoning. Two major families of work can be distinguished: on the one hand, neurosymbolic probabilistic programming (with systems such as DeepProbLog \cite{deepproblog}, Scallop \cite{scallop}, Dolphin \cite{dolphin}, DPNL \cite{dpnl}, etc.), and on the other hand, the many methods dedicated to knowledge graphs that combine logical rules with neural networks (see, e.g., \cite{delplanque-nesy} for a survey). However, these approaches remain difficult to apply to large-scale real-world relational databases, either because of scalability limitations or because they are specifically designed for the knowledge graph representation model, which is poorly suited to the richness of relational data that may include multiple attributes, scalar types, n-ary relations (themselves carrying attributes), and complex constraints.

The objective of this PhD thesis is to develop the theoretical, algorithmic, and systems foundations required to introduce neurosymbolic mechanisms into relational learning. The thesis will investigate how prior logical knowledge (originating from the different levels of rules governing data organization, such as relational schemas, types, constraints, logical rules, and expert knowledge) can be integrated in order to design models that are more robust, more data-efficient, more interpretable, and better aligned with logical or domain-specific properties.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Concours allocations

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.