Approches par apprentissage et optimisation respectant les principes de perception visuelle pour la visualisation de données en haute dimension sans ambiguïté // machine learning and optimization approaches respecting the principles of visual perception f

Talence

Alternance

Universite De Bordeaux

Publiée le 18 mars

Description de l'offre

Topic description

# Contexte
De nombreuses tâches d'analyse de données [Sarikaya ] impliquent la manipulation de données en très haute dimension ou de données relationnelles telles que des graphes. Ces données proviennent de sources variées (espaces latents de réseaux de neurones profonds, données single-cell, données tabulaires, etc.), mais leurs modalités de traitement et de visualisation restent similaires.

Pour faciliter leur analyse, les données de grande dimension sont généralement représentées sous forme de nuages de points [Giovannangeli ], tandis que les graphes sont visualisés à l'aide de diagrammes nœuds-liens. Dans certains cas, les nuages de points représentent également des données initialement en deux dimensions dont la position ne peut être modifiée, comme des coordonnées GPS, des séries temporelles ou des positions définies manuellement.

Ces représentations présentent cependant des limites importantes en termes de lisibilité. Elles peuvent masquer certaines informations (chevauchement de points), mal refléter les densités ou suggérer des structures inexistantes (corrélations ou partitions apparentes). Ces ambiguïtés peuvent conduire à des interprétations erronées et limitent la fiabilité des visualisations.

# Projet de recherche
L'objectif de cette thèse est de concevoir des algorithmes de visualisation visant à réduire les ambiguïtés des représentations classiques afin de produire des visualisations plus fiables. Les travaux porteront sur des données en haute dimension (par exemple des données biologiques single-cell ou des cartes d'activation de réseaux neuronaux) ainsi que sur des données relationnelles telles que les graphes.

Les méthodes développées seront implémentées et évaluées sur des jeux de données de référence ainsi que sur des données fournies par des partenaires, notamment des données omiques du BRIC.

Trois axes principaux seront explorés :

**Fiabilisation a posteriori des visualisations**.
Il s'agira de concevoir des algorithmes améliorant des plongements existants tout en conservant leur sémantique, c'est-à-dire en minimisant la distorsion. Les méthodes de suppression de chevauchement par déplacement de points seront étudiées et améliorées, notamment à l'aide d'approches de dégroupement fondées sur l'estimation de densité de noyau (Kernel Density Estimation). Ce travail pourra s'appuyer sur des collaborations existantes, spécifiquement avec l'Université d'Utrecht qui a utilisé des techniques similaires pour le faisceautage d'arêtes [Hurter ].

Une approche originale consistera également à améliorer la lisibilité sans déplacer les données, en modifiant uniquement l'ordre d'affichage des points. Cette problématique reste peu étudiée alors qu'elle est cruciale lorsque les positions doivent rester fixes. Ce travail pourrait donner lieu à des collaborations avec l'Université de Montpellier.

**Simplification des visualisations**.
Les méthodes de visualisation reposent souvent sur des espaces géométriques continus alors que l'affichage final se fait dans un espace discret (l'écran). Cette transformation peut introduire une perte d'information. Nous étudierons des approches travaillant directement dans un espace discret, par exemple avec des algorithmes en coordonnées entières ou des visualisations orientées pixels [Keim ]. Ces stratégies peuvent réduire les coûts de calcul tout en améliorant la lisibilité.

Production de visualisations fiables de bout en bout.
Enfin, la thèse visera à concevoir des algorithmes de plongement intégrant la réduction des ambiguïtés et l'optimisation de la perception visuelle [Ware ; Treisman ]. Ces méthodes prendront en compte les propriétés des données (dimension, niveau de zoom) et les paramètres d'encodage visuel (couleur, forme, rendu). L'objectif est de produire des visualisations respectant les contraintes perceptuelles [Wolfe ], évaluées à l'aide de métriques de qualité et d'études utilisateurs.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

# Context
Many data analysis tasks [Sarikaya ] involve the manipulation of high-dimensional data or relational data such as graphs. These data can originate from a variety of sources (latent spaces produced by deep neural networks, single-cell data, tabular data, etc.), but their processing and visualization methods are often similar.

To facilitate analysis, high-dimensional data are commonly represented as point clouds [Giovannangeli ], while graphs are typically visualized using node–link diagrams. In some cases, point clouds also represent data that are originally two-dimensional and whose positions cannot be modified, such as GPS coordinates, time series plots, or manually defined layouts.

However, these representations suffer from several readability issues. They may hide relevant information (point overlap), poorly reflect data densities, or suggest structures that do not actually exist in the data (apparent correlations or partitions). Such ambiguities can lead to misinterpretations and limit the reliability of visualizations.

# Research project
The objective of this PhD thesis is to design visualization algorithms that reduce ambiguities in standard representations in order to produce more reliable visualizations. The work will focus on high-dimensional data (such as single-cell biological data or activation maps from neural networks) as well as relational data such as graphs.

The proposed methods will be implemented and evaluated using benchmark datasets as well as data provided by collaborators, including omics datasets from the BRIC.

Three main research directions will be explored.

**A posteriori visualization refinement**.
This direction aims to design algorithms that improve existing embeddings while preserving their semantic meaning, i.e., by minimizing distortion. Methods for removing overlaps by moving data points will be studied and improved, notably using un-bundling approaches based on Kernel Density Estimation. This work may involve collaborations with Utrecht University, which has used similar approaches for edge bundling [Hurter ].

Another original approach will focus on improving readability without moving the data, by modifying only the rendering order of points. This problem has received little attention in the literature despite being crucial when data positions must remain fixed. This work could also lead to collaborations with the University of Montpellier.

**Visualization simplification**.
Visualization methods often operate in a continuous geometric space, while the final display occurs in a discrete space (the screen). This transformation can introduce information loss and ambiguities. We will therefore explore approaches that operate directly in a discrete space, for instance through integer-coordinate drawing algorithms or pixel-oriented visualizations [Keim ]. Such strategies may reduce computational costs while improving visual clarity.

**End-to-end reliable visualization**.
Finally, the thesis will aim to design embedding algorithms that directly integrate ambiguity reduction and perceptual optimization [Ware ; Treisman ]. These methods will consider both the properties of the data (dimensionality, zoom level) and visual encoding parameters (color, shape, rendering). The goal is to produce visualizations that respect perceptual constraints [Wolfe ], evaluated using quality metrics and user studies when necessary.
------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------

Début de la thèse : 01/10/

Funding category

Public funding alone (i.e. government, region, European, international organization research grant)

Funding further details

Concours pour un contrat doctoral

Postuler

Créer une alerte

Sauvegarder

Voir plus d'offres d'emploi

Estimer mon salaire

JE DÉPOSE MON CV

En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.