Modèles profonds de regression et applications à la vision par ordinateur pour l'interaction homme-robot

Spécialité : Mathématiques Appliquées

22/05/2018 - 11:00 Mr Stéphane Lathuilière Grand Amphi de l'INRIA Rhône-Alpes, Montbonnot

Mots clé :

régression
interaction homme-robot

Dans le but d'interagir avec des êtres humains, les robots doivent effectuer des tâches de perception basique telles que la détection de visage, l'estimation de la pose des personnes ou la reconnaissance de la parole. Cependant, pour interagir naturellement, avec les hommes, le robot doit modéliser des concepts de haut niveau tels que les tours de paroles dans un dialogue, le centre d'intérêt d'une conversion, ou les interactions entre les participants. Dans ce manuscrit, nous suivons une approche ascendante (dite "top-down"). D'une part, nous présentons deux méthodes de haut niveau qui modélisent les comportements collectifs. Ainsi, nous proposons un modèle capable de reconnaître les activités qui sont effectuées par différents des groupes de personnes conjointement, tels que faire la queue, discuter. Notre approche gère le cas général où plusieurs activités peuvent se dérouler simultanément et en séquence. D'autre part, nous introduisons une nouvelle approche d'apprentissage par renforcement de réseau de neurones pour le contrôle de la direction du regard du robot. Notre approche permet à un robot d'apprendre et d'adapter sa stratégie de contrôle du regard dans le contexte de l'interaction homme-robot. Le robot est ainsi capable d'apprendre à concentrer son attention sur des groupes de personnes en utilisant seulement ses propres expériences (sans supervision extérieur).

Dans un deuxième temps, nous étudions en détail les approches d'apprentissage profond pour les problèmes de régression. Les problèmes de régression sont cruciaux dans le contexte de l'interaction homme-robot afin d'obtenir des informations fiables sur les poses de la tête et du corps des personnes faisant face au robot. Par conséquent, ces contributions sont vraiment générales et peuvent être appliquées dans de nombreux contextes différents. Dans un premier temps, nous proposons de coupler un mélange gaussien de régressions inverses linéaires avec un réseau de neurones convolutionnels. Deuxièmement, nous introduisons un modèle de mélange gaussien-uniforme afin de rendre l'algorithme d'apprentissage plus robuste aux annotations bruitées. Enfin, nous effectuons une étude à grande échelle pour mesurer l'impact de plusieurs choix d'architecture et extraire des recommandations pratiques lors de l'utilisation d'approches d'apprentissage profond dans des tâches de régression. Pour chacune de ces contributions, une intense validation expérimentale a été effectuée avec des expériences en temps réel sur le robot NAO ou sur de larges et divers ensembles de données.

Directeurs:

Mr Radu Horaud (Directeur de Recherche - INRIA Grenoble )

Raporteurs:

Mme Elisa Ricci (University of Perugia )
Mr Joseph Sivic (INRIA Paris )

Examinateurs:

Mr Christian Wolf
Mr Xavier Alameda-Pineda (INRIA Grenoble )