Modèles robustes et efficaces pour la reconnaissance d'actions et leur localisation

Spécialité : Informatique

20/07/2015 - 14:00 Mr Dan Oneata (INRIA) Grand Amphi de l'INRIA Rhône-Alpes, Montbonnot

Mots clé :

localisation d'action
reconnaissance d'évènements
représentation vidéo
efficacité
classification.

Cette thèse traite du problème de la reconnaissance d'action, c'est-à-dire de la détermination du type de l'action en cours, ainsi que de sa localisation temporelle.
En premier lieu, nous traitons du problème de la représentation vidéo (comment encoder des vidéos de manière robuste, de telle sorte que cette représentation soit appropriée à une grande variété de classes d'action, de taches et de types de vidéos). Nous proposons une évaluation approfondie qui explore l'encodage par vecteur de Fisher (VF), une alternative au sac-de-mots (SdM). Nous explorons de plus différentes manières de tenir compte de l'information de disposition spatiale. Notre étude prouve que le vecteur de Fisher est supérieur au SdM en termes de performances et d'efficacité. Pour la tache de localisation, nous introduisons deux nouvelles variantes de suppression non-maximale qui corrige le biais envers des fenêtres trop courtes.
En second lieu, nous améliorons l'efficacité de la représentation par vecteur de Fisher pour la localisation d'action. Les normalisations puissance et L2 améliorent les performances mais nuisent à l'utilisation de techniques de localisation efficaces comme les images intégrales et les algorithmes par séparation et évaluation. Nos approximations entrainent des accélérations d'au moins un ordre de grandeur tout en maintenant les performances à l'état de l'art en reconnaissance et en localisation d'action.
En troisième lieu, nous étudions la tache de localisation spatio-temporelle d'action. Une des difficultés majeures en est la taille de l'espace de recherche défini par les tubes spatio-temporels formés par des suites de boites englobantes au cours de images. Des méthodes pour engendrer de manière non-supervisée des propositions de détection ont récemment fait montre d'une grande efficacité pour la détection d'objets dans les images figées. Ici, nous introduisons une approche pour extraire des propositions de régions spatio-temporelles. Nous étendons tout d'abord une méthode récente de propositions d'objets 2D pour produire des propositions spatio-temporelles par un processus de fusion aléatoire de supervoxels. Dans un second temps, nous proposons une nouvelle méthode de supervoxels efficaces. Les résultats expérimentaux sur la base UCF-Sports montrent que l'on obtient un rappel de 70% en extrayant cent tubes spatio-temporels par vidéo.
Pour finir, nous présentons dans l'appendice de cette thèse notre soumission gagnante au concours THUMOS 2014. Pour la tache de classification, nous partons de notre représentation à base de VF à laquelle nous ajoutons des descripteurs de mouvement, ainsi qu'audio. Pour la tache de localisation, nous améliorons la performance en incluant le score de classification dans celui, final, de localisation.

Directeurs:

Mr Jakob Verbeek (Chargé de Recherche - INRIA )
Mme Cordelia Schmid (Directeur de Recherche - INRIA Grenoble )

Raporteurs:

Mr Jason Corso (Professor - University of Michigan )
Mr Thomas Brox (Professeur - University of Freibourg )

Examinateurs:

Mr Cees Snoek (Professeur - University of Amsterdan )