Analyse du contenu des images à grande échelle et une nouvelle approche de l'apprentissage Zéro-Shot
Spécialité : Informatique
6/01/2014 - 14:30 Mr Zeynep Akata (Université de Grenoble) Grand Amphi de l'INRIA Rhône-Alpes, Montbonnot
Mots clé :
- Label Embedding
- Attributes
- Linear SVMs
- Stochastic Gradient Descent
- Zero-Shot Learning
- Few-Shots Learning
- Classification d'image à grande échelle
- Séparatrices à Vastes Marges linéaires
- Descente de gradient stochastique
- Incorporation d'étiquettes
- apprentissage "Zero-shot"
- apprentissage "few-shots"
La construction d'algorithmes classifiant des images à grande échelle est devenue une tâche essentielle du fait de la difficulté d'effectuer des recherches dans les immenses collections de données visuelles non-étiquetées présentes sur Internet. L'objectif est de classifier des images en fonction de leur contenu pour simplifier la gestion de telles bases de données. La classification d'images à grande échelle est un problème complexe, de par l'importance de la taille des ensembles de données, tant en nombre d'images qu'en nombre de classes. Certaines de ces classes sont dites "fine-grained" (sémantiquement proches les unes des autres) et peuvent même ne contenir aucun représentant étiqueté. Dans cette thèse, nous utilisons des représentations à l'état de l'art d'images et nous concentrons sur des méthodes d'apprentissage efficaces. Nos contributions sont (1) un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle et (2) un nouvel algorithme basé sur l'incorporation d'étiquettes pour apprendre sur des données peu abondantes. En premier lieu, nous introduisons un banc d'essai d'algorithmes d'apprentissage pour la classification à grande échelle, dans un cadre entièrement supervisé. Il compare plusieurs fonctions objectifs pour apprendre des classifieurs linéaires, tels que "un contre tous", "multiclasse", "classement", "classement avec pondération" par descente de gradient stochastique. Ce banc d'essai se conclut en un ensemble de recommandations pour la classification à grande échelle. Avec une simple repondération des données, la stratégie "un contre tous" donne des performances meilleures que toutes les autres. Par ailleurs, en apprentissage en ligne, un pas d'apprentissage assez petit s'avère suffisant pour obtenir des résultats au niveau de l'état de l'art. Enfin, l'arrêt prématuré de la descente de gradient stochastique introduit une régularisation qui améliore la vitesse d'entraînement ainsi que la capacité de régularisation. Deuxièmement, face à des milliers de classes, il est parfois difficile de rassembler suffisamment de données d'entraînement pour chacune des classes. En particulier, certaines classes peuvent être entièrement dénuées d'exemples. En conséquence, nous proposons un nouvel algorithme adapté à ce scénario d'apprentissage dit "zero-shot". Notre algorithme utilise des données parallèles, comme les attributs, pour incorporer les classes dans un espace euclidien. Nous introduisons par ailleurs une fonction pour mesurer la compatibilité entre image et étiquette. Les paramètres de cette fonction sont appris en utilisant un objectif de type "ranking". Notre algorithme dépasse l'état de l'art pour l'apprentissage "zero-shot", et fait preuve d'une grande flexibilité en permettant d'incorporer d'autres sources d'information parallèle, comme des hiérarchies. Il permet en outre une transition sans heurt du cas "zero-shot" au cas où peu d'exemples sont disponibles.
Président:
Mr Georges Quenot (Directeur de Recherche - CNRS)Directeurs:
- Mr Florent Perronnin (Directrice de Recherche - XRCE )
- Mme Cordélia Schmid (Directeur de Recherche - INRIA )
Raporteurs:
- Mr Christoph Lampert (Professeur - IST Austria, Vienne, Autriche )
- Mr Matthieu Cord (Professeur - LIP6-Université SorbonneParis )
Examinateurs:
- Mr Georges Quenot (Directeur de Recherche - CNRS )
- Mr Vittorio Ferrari (Professeur - University of Edinbourgh, Edinbourgh, United Kingdom )