Job details
Job Type
Temporary
Contract
Full Job Description
Recherche d’images basée sur le contenu. Réseaux de neurones profonds pour l’exploration de grands corpus artistiquesRéf ABG-100309
Sujet de Thèse
29/09/2021
Autre financement public
Laboratoire LIRIS, Université Lumière Lyon 2
Lieu de travailLyon - Auvergne-Rhône-Alpes - France
Intitulé du sujetRecherche d’images basée sur le contenu. Réseaux de neurones profonds pour l’exploration de grands corpus artistiques
Champs scientifiques- Informatique
- Communication, information, media, culture
- Numérique
Mots clésAnalyse d'images, Deep Learning, Recherche d'images, Reconnaissance des Formes
Description du sujetCONTEXTE DU PROJET
Ce projet de thèse résulte d’une collaboration internationale dans le cadre du projet ANR PRCI « Analyse de l’œuvre augmentée » (Augmented Artwork Analysis – AAA), démarré en mars 2021. Deux laboratoires lyonnais, l’UMR LIRIS (analyse d’images, reconnaissance des formes) et l’UMR ICAR (Sciences du Langage, sémiotique visuelle), en collaboration avec des équipes luxembourgeoises et belges, visent à développer un dispositif de réalité augmentée, permettant au visiteur d’un musée d’explorer de manière interactive, en réalité augmentée, l’œuvre d’art devant laquelle il se trouve, et de la mettre en relation avec d’autres œuvres, similaires selon des axes d’analyse propres au visiteur.
L’un des aspects que nous souhaitons développer dans le cadre de cette thèse, est un système de représentation, d’interrogation, de navigation et de visualisation d’images. Ces développements concourent à l’élaboration d’un système interactif de recherche d’images basée sur le contenu (Content-Based Image Retrieval - CBIR), intégrant les retombées récentes des réseaux de neurones convolutionnels profonds. En effet, les systèmes actuels de CBIR reposent sur l’extraction d’indices visuels de bas niveau dans les images, et l’utilisation de métriques adaptées à ces descripteurs. Ils permettent de mettre en relation des images présentant des caractéristiques communes de couleurs, de formes ou de texture. Mais les spécialistes de sémiotique visuelle et d’histoire de l’art associés au projet, utilisent des descriptions d’un niveau sémantique bien plus élevé, permettant de décrire les objets, les plans, les couches, les formes qui composent une œuvre d’art, ainsi que les relations spatiales entretenues entre ces éléments. Nous souhaitons évaluer la manière dont les techniques d’apprentissage profond peuvent contribuer à effectuer des analyses et des rapprochements entre images, comparables à ceux des experts du domaine. Nous envisageons par ailleurs la mise en place d’un système interactif permettant d’interroger des grands ensembles de données multimédia, de construire des représentations pertinentes des résultats obtenus, et d’affiner les requêtes en prenant en compte l’expérience des différentes catégories d’utilisateurs : les experts étant sollicités pour expliciter les axes d’analyse qu’ils souhaitent privilégier ; les usagers non-spécialistes se voyant proposer de multiples dimensions d’exploration des contenus multimédia.
L’un des enjeux poursuivis dans ce projet est de s’inscrire dans la démarche menée dans les années 1930 par Henri Focillon (ancien directeur du Musée des Beaux Arts de Lyon), et tendant à faire émerger la notion de généalogie des formes. Plusieurs institutions muséales, dont le Musée des BeauxArts de Lyon, ont d’ores et déjà déclaré leur intérêt et leur participation active à l’accompagnement du projet, en fournissant des corpus d’œuvres numérisées, ainsi que les métadonnées associées.
Enfin, on peut mentionner que l’un des objectifs du projet est pédagogique, dans la mesure où il permettra à des visiteurs néophytes, d’être confrontés à de nouvelles pratiques visant à la transmission ou à l’enrichissement d’une culture visuelle, lors des visites de musées. Ce projet de thèse comporte une dimension sociétale importante, dans la période sanitaire que nous vivons actuellement, où les initiatives en faveur de la culture en général et des musées en particulier, sont sérieusement mises à mal.
PROJET DE THÈSE
État de l’art dans le domaine de la recherche visuelle numérique, au service de l’histoire de l’art
L’apport principal des instruments computationnels utilisés aujourd’hui dans la Digital Art History et, plus généralement, dans les Humanités Numériques consacrées aux questions patrimoniales, est de renouer avec le projet d’une généalogie des formes qui remonte aux noms du mathématicien et biologiste D’Arcy Thompson (1917) et des historiens de l’art Heinrich Wölfflin (1915) et Henri Focillon (1934) — sans oublier la notion de migration des motifs chez Aby Warburg (1924-29). Or, le projet d’une généalogie des formes, malgré des reprises et des intégrations diverses qui sont aujourd’hui valorisées notamment dans le travail de Didi-Huberman (2013), est resté inaccompli en raison de la difficulté de détecter des patterns dans des très grands corpus, venant de musées et de collections dispersées et disparates (tant au niveau des époques que des médiums).
À présent, la numérisation croissante des œuvres d’art, les bases de données disponibles en ligne et le traitement informatique de larges corpus d’images rendent ce projet techniquement réalisable. Plusieurs études aux États-Unis et en Europe engagées dans les approches du Deep Learning utilisant les réseaux de neurones à convolution (Convolutional Neural Networks, CNN) ont démontré leur efficacité dans la reconnaissance de séries au sein de larges collections de documents visuels en construisant des signatures des objets d’intérêt ou des images dans leur ensemble (Feature Vector Signature). Le Deep Learning (Le Cun 2015) a ainsi démontré sa performance inégalée par rapport aux méthodes des mots visuels ou plus généralement aux méthodes basées sur des extractions de caractéristiques locales des images. On peut également mentionner les travaux de Lev Manovich (Manovich, Douglass, Zepel 2011) qui ont dressé des analyses de larges collections d’images via des visualisations permettant de faire émerger les trajectoires en diachronie des carrières de plusieurs peintres et de les comparer (Manovich, 2015, 2017 ; Dondero 2017), ainsi que le projet Replica du Digital Humanities Lab de l’EPFL. Replica vise à renouer avec le projet de Focillon (di Lenardo, Seguin, Kaplan 2016) en utilisant les instruments de l’apprentissage profond et notamment en exprimant des requêtes algébriques combinant des exemples positifs et négatifs pour définir les caractéristiques des images recherchées. L’objectif est de faire émerger des motifs et des formes similaires dans des groupes d’images qui n’ont pas encore été mis en relation par les méthodes classiques de l’histoire de l’art et mettre à jour la cartographie des influences croisées.
Si la plupart de ces recherches visent à répondre aux questions soulevées par Focillon dans les années 1930, d’autres poursuivent le travail sur la survivance des motifs et des formes de Warburg (Hristova 2016).
Le projet ANR Augmented Artwork Analysis (AAA) qui associe la Belgique, la France et le Luxembourg et qui a démarré en mars 2021, se donne pour objectif la reprise théorique et méthodologique du programme de recherches sur la généalogie des formes. Il vise à croiser les recherches dans le domaine des technologies de pointe en data-visualisation avec les travaux en sémiotique qui se sont penchées sur la transmigration des formes (Basso Fossali 2013 ; Basso Fossali 2014 ; Dondero & Klinkenberg 2018-2019) et avec le renouvellement profond des études en histoire de l’art qui renouent avec le formalisme de ses fondateurs tout en le reconnectant à l’étude du sens et en l’ouvrant à une meilleure compréhension du pouvoir des images. L’un des livrables de ce projet est une application qui permettra au visiteur d’un musée, de visualiser en Réalité Augmentée sur une tablette, des images qui complémentent l’œuvre devant laquelle se trouve le visiteur. L’objet du présent sujet est de concourir à l’élaboration d’un moteur de recherche d’images, intégrant les expertises des chercheurs en histoire de l’art, et qui décuplera l’intérêt du dispositif interactif.
Présentation des données
Trois partenaires muséaux (dont le Musée des Beaux-Arts de Lyon) sont associés à notre projet, et se sont engagés à fournir un corpus d’analyse, d’une taille limitée à quelques dizaines d’œuvres d’art. La numérisation à un très haut niveau de qualité de ces œuvres d’art a déjà été entreprise, et les images sont disponibles. Des métadonnées normalisées sont également associées à ces images.
Nous disposons par ailleurs d’un vaste corpus d’encadrement, composé de plus de 100000 images, couvrant la période allant du 15ème au début du 20ème siècle. Pour chaque image de référence du corpus d’analyse, quelques images associées, du corpus d’encadrement sont identifiées par les experts comme étant « liées à l’image de référence », car présentant des similarités de formes, de textures, de composition ou de colorimétrie par exemple, et s’inscrivant dans une probable influence de l’un des auteurs par l’autre. C’est ce lien qui est souvent implicite pour les spécialistes, et que nous cherchons à déterminer dans cette thèse. Nous avons donc pour principal objectif, l’élaboration d’un outil de recherche d’images basée sur le contenu, permettant d’explorer de grands corpus d’images, avec une approche inspirée par celle des spécialistes de l’analyse visuelle. Pour cela, nous chercherons à exploiter trois grandes familles de méthodes :
Approches supervisées : Une première piste que nous souhaitons explorer, se base sur les outils permettant d’extraire une description textuelle des corpus d’images à l’aide les réseaux de neurones profonds. Lors de la décennie écoulée, ces méthodes ont démontré leur supériorité sur toutes les autres familles d’approches, pour effectuer des classifications d’images photographiques. En partant de réseaux entraînés sur des très grandes bases de données d’images généralistes (ImageNet : Deng, 2009), nous souhaitons dans un premier temps évaluer les méthodes d’apprentissage par transfert (transfer learning : Babenko, 2014), qui peuvent se contenter de bases de données d’œuvres d’art annotées de taille modeste pour effectuer des classifications correctes. Nous souhaitons par exemple étudier si les outils de transfert de style (Gatys et al, 2016), améliorent ou non les performances d’un réseau qui aurait été entraîné sur des photographies (par exemple VGG-16 : Simonyan, K., & Zisserman, A. : 2014), lorsqu’il est utilisé sur des peintures.
Approches non-supervisées : La recherche d’une image similaire à une image requête, au sein d’un corpus de grande taille, pose le problème de l’évaluation des distances entre images. Il s’agit d’une part de déterminer un espace pertinent de représentation des images, d’autre part de sélectionner des métriques adaptées aux tâches de reconnaissance que nous souhaitons réaliser. En utilisant les réseaux de neurones profonds qui auront été construits dans la première partie de la thèse, mais en faisant abstraction des couches chargées de l’étape de classification, nous disposerons de vecteurs d’attributs de grande dimension, dont la littérature montre qu’ils ont des performances inégalées pour décrire le contenu visuel des images, à différents niveaux de résolution. Nous proposons dans un premier temps d’étudier les algorithmes de regroupement (clustering) basées sur les métriques « standard » de l’analyse d’images, et qui pourront faire émerger des groupes d’images similaires, correspondant aux distances choisies. Grâce aux études préexistantes effectuées par les spécialistes de l’histoire de l’art, nous pourrons apprendre de nouvelles métriques (Metric Learning, Wang, Zhou : 2009), qui placeront dans un même « cluster », les images appartenant à une même généalogie de formes.
Approches semi-supervisées
Les méthodes d’Apprentissage Actif (active learning, Gal et al 2017, Li et al 2013) sont des approches récentes de l’intelligence artificielle, qui intègrent l’humain dans la boucle d’apprentissage. Ces méthodes ont attiré beaucoup d'attention dans le domaine de la vision par ordinateur, dans le but d’éviter le coût élevé du processus d’annotation des données visuelles. Ce processus est basé sur des mesures d’incertitude et a la capacité d'apprendre et de mettre à jour des modèles à partir de petites quantités de données. Au fur et à mesure que les systèmes développés dans les premières parties de la thèse, proposeront des images résultats aux requêtes basées sur le contenu, le spécialiste pourra sélectionner celles des réponses qui sont les plus pertinentes, et inhiber au contraire celles qui lui semblent les plus discutables. Là encore, le système renforcera ses performances au cours du temps. Il s’agit ici d’un processus interactif, qui pourra à terme être intégré à l’application de Réalité Augmentée, et permettre au dispositif de construire un profil de recherche adapté à chaque utilisateur du système. Sans avoir à expliciter la dimension d’analyse qu’il cherche à privilégier, le chercheur pourra ainsi se construire un outil de recherche personnalisé qui lui permettra d’explorer de manière innovante, des corpus d’images de taille importante.
Bibliographie :
Babenko, A., Slesarev, A., Chigorin, A., & Lempitsky, V. (2014, September). Neural codes for image retrieval. In European conference on computer vision (pp. 584-599). Springer, Cham.
Pierluigi Basso Fossali (2013), Il Trittico 1976 di Francis Bacon. Con note sulla semiotica della pittura, Pise, ETS.
Pierluigi Basso Fossali (2014), « Histoire des formes entre diachronie et archéologie », Actes du congrès 2013 de l’Association Française de Sémiotique « Sémiotique et diachronie », [En ligne] URL : http://afsemio.fr/?p=208, repris dans Vers une écologie sémiotique de la culture, Limoges, Lambert-Lucas, pp. 264-276.
Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition (pp. 248-255). IEEE. George Didi-Huberman (2013), L’album de l’art à l’époque du « Musée imaginaire », Paris, Hazan.
Isabella di Lenardo, Benoit Seguin, & Frédéric Kaplan (2016), « Visual Patterns Discovery in Large Databases of Paintings », Digital Humanities, DH 2016: Krakow, Poland, July 11-16, pp. 169-172. https://infoscience.epfl.ch/record/220638/files/diLenardo-Seguin-Kaplan-DH2016.pdf.
Maria Giulia Dondero (2017), « The Semiotics of Design in Media Visualization: Mereology and Observation Strategies », Information Design Journal, 23/2, pp. 208-218. DOI: https://doi.org/10.1075/idj.23.2.09don. https://www.academia.edu/35306814/The_semiotics_of_design_in_media_visualization._Mereology_and_observ ation_strategies_Information_Design_Journal_2017_Farias_and_Queiroz_eds_FULL_TEXT.
Maria Giulia Dondero & Jean-Marie Klinkenberg (2018-2019), « Après Greimas. Des tâches pour la sémiotique visuelle », La part de l’œil, n° 32, Dossier « Greimas et la sémiotique de l’image » (Dondero & Klinkenberg dirs), pp. 230-235.
Henri Focillon (1934), « Vie des formes », Vie des formes suivi de Éloge de la main, Paris, Presses Universitaires de France, 1943.
Yarin Gal, Riashat Islam, Zoubin Ghahramani ; Deep Bayesian Active Learning with Image Data. Proceedings of the 34th International Conference on Machine Learning, PMLR 70:1183-1192, 2017
Leon A. Gatys, Alexander S. Ecker, Matthias Bethge; Image Style Transfer Using Convolutional Neural Networks. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2414-2423
Hastie, T.; Tibshirani, R. & Friedman, J. (2009), The elements of statistical learning: data mining, inference and prediction, Springer.
Stefka Hristova (2016), « Images as Data: Cultural Analytics and Aby Warburg’s Mnemosyne », International Journal for Digital Art History – DAH, 2. https://journals.ub.uni-heidelberg.de/index.php/dah/article/view/23489.
Yann Le Cun, Yoshua Bengio & Geoffrey Hinton (2015), “Deep learning”, Nature, vol. 521, pp. 436–444.
Xin Li, Yuhong Guo. Adaptive Active Learning for Image Classification; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013, pp. 859-866
Lev Manovich, Jeremy Douglass & Tara Zepel (2011), “How to Compare One Million Images?”, in B. David (dir.),
Understanding Digital Humanities, London, Palgrave Macmillan, pp. 249-278.
http://softwarestudies.com/cultural_analytics/2011.How_To_Compare_One_Million_Images.pdf
Lev Manovich (2015), “Data Science and Digital Art History”, International Journal for Digital Art History, 1, 13–35.
Lev Manovich (2017), “The Science of Culture? Social Computing, Digital Humanities and Cultural Analytics”, The Datafied Society. Studying Culture through Data, Schäfer & van Es (Eds), AUP.
Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.
D’Arcy Thompson (1917), Forme et croissance, trad. de D. Teyssié, Paris, Seuil, 2009.
Jin R., Wang S., Zhou Y. Regularized distance metric learning: theory and algorithm. NIPS'09: Proceedings of the 22nd International Conference on Neural Information Processing Systems. December 2009 Pages 862–870 Aby Warburg (1924-29), L’Atlas mnémosyne, Paris, Éditions Atelier de l’écarquillé, 2012.
Heinrich Wölfflin (1915), Principes fondamentaux de l’histoire de l’art, Éditions Parenthèses 2017.
Prise de fonction :10/01/2022
Nature du financementAutre financement public
Précisions sur le financementThèse financée par le projet ANR AAA
Présentation établissement et labo d'accueilLaboratoire LIRIS, Université Lumière Lyon 2
La thèse se déroulera au sein du site Lyon 2 du LIRIS, sur le campus de la Porte des Alpes à Bron.
Le Laboratoire d’InfoRmatique en Image et Systèmes d’information (LIRIS) est une unité mixte de recherche (UMR 5205) du CNRS, de l'INSA de Lyon, de l'Université Claude Bernard Lyon 1, de l'Université Lumière Lyon 2 et de l'Ecole Centrale de Lyon. Il compte 330 membres. Les recherches du LIRIS concernent un large spectre de la science informatique au sein de ses douze équipes de recherche structurées en six pôles de compétences :
- Données, Système et Sécurité (équipes BD, DRIM, SOC et DM2L)
- Informatique Graphique et Géométrie (équipe ORIGAMI)
- Images, Vision et Apprentissage (équipe IMAGINE)
- Interactions et cognition (équipes SICAL, SyCoSMA et TWEAK)
- Algorithmique et Combinatoire (équipe GOAL)
- Simulation et Sciences du Vivant (équipes SAARA et BEAGLE)
Les recherches menées relèvent les défis du monde numérique, notamment ceux posés par l’intelligence artificielle (IA), l’analyse de données volumineuses (Big Data), la vision par ordinateur, la cyber-sécurité, la transformation digitale ou l’apprentissage humain. Une partie des activités du LIRIS se situent aux interfaces des sciences humaines et sociales, de l’ingénierie, de la médecine, des sciences de la vie et des sciences de l’environnement. Par ailleurs, le LIRIS accorde aussi une grande importance à la médiation scientifique en informatique pour le grand public.
Enfin, le LIRIS s’implique dans les défis sociétaux de la souveraineté numérique et du développement durable, principalement à travers l'utilisation responsable des technologies numériques et la prise de conscience de l'impact carbone des activités de recherche usuelles.
Site web :http://liris.cnrs.fr
Intitulé du doctoratDoctorat d'Informatique
Pays d'obtention du doctoratFrance
Etablissement délivrant le doctoratUniversité Lumière Lyon 2
Ecole doctoraleEcole Doctorale Infomaths (ED 512)
Profil du candidat
Master ou diplôme d'ingénieur en informatique, avec une formation en traitement et en analyse d'images, et maîtrisant les outils du Deep Learning. Maîtrise des langages de programmation C/C++, Python, des bibliothèques OpenCV, Keras, Tensorflow, PyTorch. Intérêt pour l'histoire de l'art. Bonnes capacités de communication à l'écrit en à l'oral, en français et en anglais.
Date limite de candidature05/11/2021
En cliquant sur "JE DÉPOSE MON CV", vous acceptez nos CGU et déclarez avoir pris connaissance de la politique de protection des données du site jobijoba.com.