Étude de l’invariance par translation des premières couches des réseaux de neurones convolutifs

English

Séminaire Données et Aléatoire Théorie & Applications

23/11/2023 - 14:00 Kévin Polisano Salle 106

Malgré des progrès spectaculaires en vision par ordinateur au cours de la dernière décennie, les réseaux de neurones convolutifs (CNN) souffrent toujours d’un faible niveau de compréhension mathématique. En particulier, les propriétés de stabilité vis-à-vis de petites transformations (translations, rotations, mises à l’échelle, déformations) ne sont que partiellement comprises. Dans cet exposé, nous étudions l'effet combiné des couches de convolution et de max pooling dans la génération de représentations quasi-invariantes par translation. Cette propriété est primordiale pour la classification, puisqu’il est attendu que deux versions translatées d’une même image soient classifiées de manière identique. Entrainés sur des ensembles de données tels qu'ImageNet, les CNN ont tendance à apprendre des paramètres de la première couche qui s'apparentent à des filtres passe-bande orientés, autrement dit à des ondelettes. En tirant parti des propriétés des convolutions discrètes de type Gabor, nous établissons des conditions sous lesquelles les 'features maps' calculées à la sortie de l'opérateur de max pooling (RMax) se rapprochent de module de coefficients d'ondelettes complexes de type Gabor (CMod), connus pour être stables par translation. Nous calculons ensuite une mesure probabiliste de l'invariance par translation de l'opérateur RMax sur la première couche du réseau. Plus précisément, nous montrons que certains filtres, en fonction de leur fréquence et de leur orientation, sont plus susceptibles que d'autres de produire des représentations d'images stables. Nous validons expérimentalement nos résultats théoriques en considérant un extracteur de caractéristiques déterministe basé sur la transformée en paquets d'ondelettes complexe 'dual-tree', un cas particulier de décomposition discrète de type Gabor. Nous mettons ainsi en évidence la forte corrélation entre l'invariance par translation de RMax et la similarité établie entre les opérateurs RMax et Cmod.