Test d'indépendance conditionnelle efficace et robuste // scalable and robust conditional independence testing

Palaiseau

Ecole Polytechnique

Publiée le 8 mars

Description de l'offre

Topic description

Les tests d'indépendance conditionnelle constituent un problème fondamental en statistique et apprentissage automatique, avec des applications allant de la découverte causale à la génétique. Le test consiste à déterminer si deux variables restent dépendantes une fois contrôlées pour une troisième variable de confusion.

Cependant, ce problème se heurte à des obstacles théoriques majeurs. Shah \& Peters ont prouvé que sans hypothèses structurelles supplémentaires, aucun test ne peut simultanément contrôler l'erreur de type I et avoir de la puissance contre les alternatives. Les approches récentes contournent cette impossibilité en imposant des hypothèses restrictives: les méthodes basées sur la régularité supposent des distributions lisses, les méthodes Model-X nécessitent la connaissance exacte de distributions conditionnelles, et les tests de permutation échouent en haute dimension.

Les méthodes à noyaux offrent une alternative plus flexible via l'opérateur de covariance partielle, dont la norme caractérise l'indépendance conditionnelle. Cette approche est structurellement agnostique: la régularité, la parcimonie ou la faible dimensionalité sont implicitement capturées par les propriétés spectrales de l'opérateur. Cependant, les méthodes à noyaux classiques souffrent de convergence lente et d'une mauvaise extensibilité.

Cette thèse propose de revisiter le test d'indépendance conditionnelle à travers la théorie des opérateurs, en développant des méthodes computationnelles modernes qui surmontent les limitations des approches classiques. La recherche combinera l'apprentissage de représentations spectrales avec des garanties statistiques rigoureuses. Sur le plan théorique, nous établirons les distributions asymptotiques sous l'hypothèse nulle, caractériserons la puissance sous les alternatives, et analyserons l'adaptation automatique de nos méthodes à la structure intrinsèque des données.

Les algorithmes développés viseront l'extensibilité sur grands ensembles de données via l'adaptativité sans réglage manuel, et seront accompagnés de garanties théoriques vérifiables. L'objectif est d'établir un nouveau paradigme pour le test d'indépendance conditionnelle qui soit simultanément statistiquement rigoureux, computationnellement extensible et structurellement adaptatif.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Conditional independence testing is a fundamental problem in statistics and machine learning, with applications ranging from causal discovery to genetics. The task is to determine whether two variables remain dependent after controlling for a third confounding variable.

However, this problem faces major theoretical obstacles. Shah \& Peters proved that without additional structural assumptions, no test can simultaneously control type I error and have power against alternatives. Recent approaches circumvent this impossibility by imposing restrictive assumptions: smoothness-based methods assume smooth distributions, Model-X methods require exact knowledge of conditional distributions, and permutation tests fail in high dimensions.

Kernel methods offer a more flexible alternative via the partial covariance operator, whose norm characterizes conditional independence. This approach is structurally agnostic: smoothness, sparsity, or low dimensionality are implicitly captured by the operator's spectral properties. However, classical kernel methods suffer from slow convergence and poor scalability.

This thesis proposes to revisit conditional independence testing through operator theory, developing modern computational methods that overcome limitations of classical approaches. The research will combine spectral representation learning with rigorous statistical guarantees. Theoretically, we will establish asymptotic null distributions, characterize power under alternatives, and analyze automatic adaptation to intrinsic data structure.

The algorithms developed will target scalability to large datasets via adaptivity without manual tuning, and will be accompanied by verifiable theoretical guarantees. The goal is to establish a new paradigm for conditional independence testing that is simultaneously statistically rigorous, computationally scalable, and structurally adaptive.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Funding further details

Allocation doctorale AMX*Appel anticipé*Associations, fondations, programmes privés étrangers*

Postuler

Créer une alerte

Sauvegarder

Offre similaire

Architectures physiques de champs aléatoires de markov pour la mécanosensibilité distribuée, avec des applications aux systèmes biomédicaux portables // physical markov random field architectures for distributed mechanosensing, with applications to wearab

Palaiseau

Ecole Polytechnique

Offre similaire

Capteurs de gaz portables à base des matériaux bidimensionnels (2d) pour la détection du dmmp // portable gas sensors based on 2d-materials for dmmp detection

Palaiseau

Ecole Polytechnique

Offre similaire

Morphogénèse des structures de glace // morphogenesis of ice structures

Palaiseau

Ecole Polytechnique