Active Multisensory Perception and LearnIng For InteractivE Robots (AMPLIFIER)

Funded by :ARC région Auvergne-Rhône-Alpes
Funding :205 000€
Period :2017-2022
Status :Finished
Coordinator :Mathieu Lefort
Collaborators :Jean-Charles Quinton, Adeline Samson, Marie Avillac, Salima Hassas, Christina Schmitz, Anne Caclin, Alan Chauvin, Nathalie Guyader, Amélie Cordier, Simon Forest, Jose Villamar



Description

La robotique de service va prochainement avoir des retombées socio-économiques importantes : “La seule robotique de service représentera un marché de 100 milliards d’euros en 2020 selon la commission européenne et ce marché sera multiplié par 30 en 10 ans” (rapport du ministère de l’Enseignement Supérieur et de la Recherche). Pour un robot, la discrimination de situations, personnes ou lieux en environnements réels est complexe, dû entre autres aux bruits dans les données issues des capteurs, ce qui est aujourd'hui des freins à leur déploiement à grande échelle. Afin de rendre les interactions avec les humains plus intuitives et riches, ce projet visait à améliorer la compréhension des mécanismes perceptifs chez l’humain afin de les transposer dans des modèles d’intelligence artificielle, pouvant être appliqués à terme aux robots.

Pour étudier cette problématique complexe, nous avons adopté une approche transdisciplinaire alliant d'une part psychophysique et mathématiques appliquées pour améliorer notre compréhension de la perception chez l'humain et d'autre part informatique et robotique pour l'application et le développement de ces paradigmes pour les robots. Nous avons mis l'emphase sur deux axes de recherche : la perception active (i.e. la recherche d’information dans l’environnement via l’action) et l’intégration multisensorielle (i.e. la combinaison des attributs sensoriels pour améliorer la perception et former une représentation cohérente de l'environnement).

Nous avons étudié l’effet ventriloque chez l’humain, à savoir l’influence réciproque de stimuli auditifs et visuels sur la perception lorsque ceux-ci n’ont pas exactement la même localisation spatiale. En particulier, l’impact de la précision spatiale des deux types de stimuli a été quantifiée, ainsi que celui de la réalisation ou non de saccades visuelles lors de la perception. Nos résultats montrent que l’influence de la précision spatiale auditive, qui n’avait jamais été étudiée directement auparavant, est similaire à celle de la précision visuelle. De plus, l’utilisation de saccades permet une meilleure résolution spatiale (le stimulus visuel étant centré sur la rétine) et donc une influence plus forte du stimulus visuelle dans la perception, en particulier chez des participants ayant plus de difficulté à localiser les stimuli auditifs.

Nous avons modélisé des données issues d’une expérience similaire (les données de nos expérimentations étant désormais disponibles, leur modélisation se fera l’an prochain par des stages financés par la Fédération Informatique de Lyon – FIL) à l’aide des champs neuronaux dynamiques (DNF). Il s’agit d’un paradigme permettant de représenter des calculs neuronaux par un système dynamique permettant une prise de décision distribuée. Cela permet d’intégrer des éléments provenant des neurosciences dans les simulations, mais également une modélisation des essais de manière individuelle contrairement aux modélisations classiquement utilisées, permettant ainsi de simuler des comportements individuels plutôt que de simplement décrire une tendance moyenne. Cela ouvre également la voie à l’intégration de la perception active dans la modélisation, ce qui sera exploré l’an prochain via le projet financé par la FIL.

Nous avons également proposé de coupler l’utilisation des DNF à l’apprentissage des espaces perceptifs audio et visuel obtenus avec des algorithmes de la littérature. Nous avons proposé une solution pour la prise de décision dans des espaces topologiques non réguliers et partiellement définis, ce qui n’est pas le cadre classique d’application des DNF. Cela nous a permis d’obtenir une fusion adaptative de stimuli auditifs et visuels, en déterminant automatiquement l’importance relative de chaque donnée par rapport à la précision locale du capteur correspondant. À terme, l’utilisation d’un tel mécanisme pourrait améliorer les performances et la robustesse des réseaux de neurones profonds, question de recherche qui sera explorée lors du post doctorat d’un membre du projet. Plus largement, des résultats préliminaires montrent qu’il serait possible d’utiliser un tel système pour reproduire des comportements de type saccadique au sein d’une boucle sensori-motrice. À terme, cela pourrait permettre la production de comportements plus réalistes et plus robustes pour des robots interagissant avec leur environnement.

Toutes ces contributions ont donné lieu à 7 publications et communications scientifiques, deux sont en cours d’écriture et suite au projet de la FIL, qui prolongera ce projet, 2 ou 3 autres devraient suivre. Elles offrent également un bon socle de connaissances et méthodologies nouvelles (protocole d’expérimentation, paradigme de modélisation et modèle de fusion sur données de type robotique) permettant la poursuite de ces travaux via la réponse à des appels à projets régionaux ou nationaux.