Topic description
Les systèmes modernes d'apprentissage automatique obtiennent des performances prédictives remarquables tout en induisant simultanément des représentations compressées des données. Les grands modèles de langage, les vision transformers et les modèles de diffusion présentent tous la régularité empirique selon laquelle 'une meilleure prédiction induit une compression implicite plus forte'. Toutefois, cette « compression par prédiction » s'accompagne d'un coût computationnel extrêmement élevé. À l'inverse, les algorithmes de compression classiques tels que Lempel–Ziv (LZ77/78) ou la transformation de Burrows–Wheeler (BWT) sont beaucoup plus rapides mais n'atteignent généralement pas les taux de compression obtenus par les compresseurs modernes fondés sur l'apprentissage automatique. Par exemple, sur des jeux de données standard tels que enwiki8/9, les schémas de compression ML les plus performants atteignent des taux environ deux fois meilleurs que les méthodes classiques, mais sont environ dix mille fois plus lents !
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Modern machine learning systems achieve remarkable predictive performance while simultaneously inducing highly compressed internal representations of data. Large language models, vision transformers, and diffusion models all exhibit the empirical regularity that \emph{better prediction yields stronger implicit compression}. Yet this ``compression by prediction'' comes at a very high computational cost. In contrast, classical compression algorithms such as Lempel--Ziv (LZ77/78) or the Burrows--Wheeler Transform (BWT) are orders of magnitude faster but typically fall short of the compression rates achieved by modern ML-based compressors. For instance, on standard benchmark datasets such as \texttt{enwiki8/9}, state-of-the-art ML-based compression schemes achieve compression rates roughly twice as good as those of classical methods, but are about ten thousand times slower!
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Début de la thèse : 01/10/
Funding category
Funding further details
Concours IPP ou école membre*Allocation doctorale AMX*
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.