Contrôle non-asymptotique pour un test à noyau à deux échantillons.

English

Séminaire Données et Aléatoire Théorie & Applications

14/12/2023 - 14:00 Perrine Lacroix Salle 106

Nous nous intéressons aux tests statistiques visant à évaluer l’hypothèse H₀: {P = Q} contre son alternative H₁: {P ≠ Q}. Nos données sont multivariées, de grande dimension et présentent de fortes dépendances entre les variables. 
Nous proposons un test de comparaison de deux distributions basé sur les méthodes à noyaux : nos données sont au préalable transformées via une fonction de plongement bien choisie et vivent dans un espace de hilbert à noyau reproduisant (RKHS). Notre statistique de test à noyau est l’équivalent du test de comparaison du T2 de Hotelling pour des données multivariées de dimension finie et est égale à la différence des moyennes plongées (MMD) renormalisée par un opérateur de covariance bien choisi.
Classiquement, ces tests non paramétriques sont soit calibrés asymptotiquement, soit via des techniques d’aggrégation de tests. Ici, nous proposons une calibration du test à la taille d’échantillon fixée via l’obtention de bornes non-asymptotiques de notre statistique de test. Pour cela, une régularisation est nécessaire pour approcher l’opérateur de covariance via son estimateur empirique. Contrairement aux approches de Harchaoui et al. (2007) ou de Hagrass et al. (2023) utilisant des régularisations de type $L_2$, nous proposons la troncature spectrale. Cette méthode fixe le nombre inconnu $T$ de fonctions propres à utiliser dans la reconstruction de l'opérateur de covariance et offre un avantage supplémentaire qui est celui de la visualisation des données. 
Actuellement, à $T$ fixé, la statistique de test, alors appelée truncated kernel Fisher Discriminant Ratio (KFDA\_T), donne un test dont la calibration asymptotique est connue (Ozier-Lafontaine et al. (2023)). Dans cet exposé, je présenterai comment borner théoriquement et non-asymptotiquement la p-valeur du test associé à la KFDA\_T. Cette borne constitue une première étape pour définir une bonne calibration de l'hyperparamètre $T$.
Sur le plan applicatif, cette question statistique revêt de l'importance dans le domaine de la génomique, où les deux groupes sont constitués de données RNA-seq en cellule unique. L’objectif est de détecter des comportements biologiques distincts ou semblables entre les groupes.
Ce travail est réalisé en collaboration avec Bertrand Michel (Université de Nantes), Franck Picard (ENS de Lyon) et Vincent Rivoirard (Paris-Dauphine).