
|
||||||
|
|
|||||
Thèse de DOCTORAT Structured Models for Action Recognition in Real-world Videos - Modèles Structurés pour la Reconnaissance d'Actions dans des Vidéos Réalistes This dissertation introduces novel models to recognize broad action categories, like "opening a door" and "running", in real-world video data such as movies and Internet videos. In particular, we investigate how an action can be decomposed, what is its discriminative structure, and how to use this information to accurately represent video content. The main challenge we address lies in how to build models of actions that are simultaneously information-rich (in order to correctly differentiate between different action categories) and robust to the large variations in actors, actions, and videos present in real-world data. We design three robust models capturing both the content of and the relations between action parts. Our approach consists in organizing collections of robust local features into structured action representations, for which we propose efficient kernels. Even if they share the same underlying principles, our methods differ in terms of the type of problem they address and the structural information they rely on. In all three cases, we conducted thorough experiments on real-world videos from challenging benchmarks used by the action recognition community. We show that our methods outperform the related state of the art, thus highlighting that using structure information allows for more accurate and robust action recognition in real-world videos. Keywords: Action Recognition, Video Analysis, Computer Vision, Machine Learning. Résumé en Français ================= Cette thèse décrit de nouveaux modèles pour la reconnaissance de catégories d'actions, comme "ouvrir une porte" ou "courir", dans des vidéos réalistes telles que les films. Nous nous intéressons tout particulièrement aux propriétés structurelles des actions : comment les décomposer, quelle en est la structure caractéristique et comment utiliser cette information afin de représenter le contenu d'une vidéo. La difficulté principale à laquelle nos modèles s'attellent réside dans la satisfaction simultanée de deux contraintes antagonistes. D'une part, nous devons précisément modéliser les aspects discriminants d'une action afin de pouvoir clairement identifier les différences entre catégories. D'autre part, nos représentations doivent être robustes en conditions réelles, c'est-à- dire dans des vidéos réalistes avec de nombreuses variations visuelles en termes d'acteurs, d'environnements et de points de vue. Dans cette optique, nous proposons donc trois modèles précis et robustes à la fois, qui capturent les relations entre parties d'actions ainsi que leur contenu. Notre approche se base sur des caractéristiques locales (notamment les points d'intérêts spatio-temporels et le flot optique) et a pour objectif d'organiser l'ensemble des descripteurs locaux décrivant une vidéo. Nous proposons aussi des noyaux permettant de comparer efficacement les représentations structurées que nous introduisons. Bien que nos modèles se basent tous sur les principes mentionnés ci-dessus, ils diffèrent de par le type de problème traité et la structure sur laquelle ils reposent. Nos trois approches et leurs assertions sont à chaque fois validées par des expériences poussées sur des bases de données publiques parmi les plus difficiles en reconnaissance d'actions. Nos résultats sont significativement meilleurs que ceux de l'état de l'art, illustrant ainsi à quel point la structure des actions est importante afin de bâtir des modèles précis et robustes pour la reconnaissance d'actions dans des vidéos réalistes. Mots-Clés: Action Recognition, Video Analysis, Computer Vision, Machine Learning Membres du Jury: Rapporteurs: Mr Martiel HEBERT (CMU - USA) Mr Patrick PEREZ (Technicolor - france) Examinateurs: Mr Ivan LAPTEV (Chercheur, INRIA - Paris) Mr Zaid HARCHAOUI (Chercheur, INRIA) |
||||||
![]() |
Mentions légales - contact: Webmaster