De l'évaluation et la généralisation des représentations visuelles

English

Spécialité : Image, Vision et Robotique

29/06/2023 - 09:00 Mert Bulent Sariyildiz Grand Amphi, Inria

Un des objectifs principaux de la vision par ordinateur est de doter les machines de la capacité d'extraire des informations à partir de données visuelles, leur permettant ainsi d'effectuer des tâches définies sur ces données. Bien que les informations à extraire de ces données dépendent de la tâche à accomplir, la résolution simultanée de plusieurs tâches complexes nécessite un mécanisme capable d'extraire un ensemble complet d'informations à partir de ces données. Par conséquent, des efforts substantiels ont été consacrés au développement de modèles d'apprentissage profond capables d'encoder ces informations dans des représentations visuelles robustes. Une stratégie de premier plan dans ce contexte consiste à entrainer un modèle initial sur un ensemble de données à grande échelle, tel que la base d'images ImageNet-1K, puis à utiliser ce modèle pour la tâche à accomplir. Afin de s'assurer de la capacité du modèle à gérer une variété de tâches cibles avec un minimum d'effort, l'accent est mis dans cette phase de pré-entrainement sur l'apprentissage de représentations d'images qui généralisent entre les tâches. Cette thèse se penche sur l'apprentissage de représentations d'images transférables par des réseaux de neurones profonds, et considère trois aspects. Dans une première partie, nous nous intéressons à l'évaluation de la transférabilité des représentations sous l'angle de la généralisation à de nouveaux concepts. L'objectif est de reconnaître des concepts non rencontrés lors de la phase d'apprentissage du modèle. Pour ce faire, nous proposons ImageNet-CoG, un ‘benchmark' comprenant des tâches cibles spécifiquement conçues pour mesurer la généralisation d'un modèle à de nouveaux concepts. Nous procédons à une évaluation minutieuse de différentes méthodes d'apprentissage de représentations visuelle sur ce benchmark. Nos résultats révèlent que les méthodes auto-supervisées sont plus résiliantes à la généralisation à de nouveaux concepts, c'est-à-dire qu'elles apprennent des représentations plus transférables à des concepts non-observés au préalable et sémantiquement moins similaires. A l'inverse, les méthodes supervisées ont tendance à davantage sur-apprendre les concepts vus pendant l'entrainement, obtenant de meilleures résultats sur ceux-ci, mais apprenant des représentations moins transférables à de concepts nouveaux. Partant de ce constat, dans une deuxième partie, nous combinons les atouts des apprentissages supervisé et auto-supervisé afin d'obtenir de bonnes performances à la fois sur les concepts de la tâche d'apprentissage mais aussi sur les tâches de transfert. En adaptant les méthodes supervisées afin qu'elles utilisent des techniques empruntées aux méthodes auto-supervisées récentes, nous proposons une amélioration de l'apprentissage supervisé sur ImageNet-1K. Les modèles entrainés avec cette configuration améliorée apprennent des représentations plus transférables que les méthodes auto-supervisées les plus récentes. En améliorant encore cette configuration avec un modèle de classification basé sur des prototypes, nous obtenons des performances état de l'art sur ImageNet-1K (concepts observés pendant l'apprentissage) ainsi que sur les tâches cibles. Enfin, dans la troisième partie, inspirés par l'essor récent des modèles génératifs texte-image produisant des images réalistes de grande qualité, nous étudions si de telles images de synthèse permettent d'entraîner des modèles supervisés pouvant être utilisés à la place de modèles entraînés sur des images réelles. Pour étudier cela, nous générons des clones synthétiques d'ImageNet-1K à l'aide de l'outil Stable Diffusion, puis entrainons des modèles supervisés sur ces clones synthétiques. Lors de l'évaluation des modèles obtenus de cette façon sur des ensembles de données composés d'images réelles, nous observons que l'apprentissage de modèles à partir de données synthétiques produit des représentations plus transférables.

Directeurs:

  • Karteek Alahari (Inria )
  • Diane Larlus (NaverLabs Europe )
  • Yannis Kalantidis (NaverLabs Europe )

Raporteurs:

  • Yannis Avrithis (Institute of Advanced Research on Artificial Intelligence )
  • Matthieu Cord (Sorbonne Université )

Examinateurs:

  • Jocelyn Chanussot (Grenoble INP )
  • Thomas Mensink (Google )
  • Cordelia Schmid (Inria )