Une nouvelle spécification des modèles linéaires généralisés pour données catégorielles
Séminaire Probabilités & Statistique
24/04/2014 - 14:00 Jean Peyhardi (Université de Montpellier 2 / Inria Virtual Plants) Salle 1 - Tour IRMA
De nombreux modèles de régression pour données catégorielles ont été introduit dans plusieurs domaines, motivés par différents paradigmes. Mais ces modèles sont difficile à comparer car leur spécification n'est pas homogène. De plus leur cohérence vis-à-vis de l'hypothèse d'ordre sur les catégories est discutable. La première contribution de ce travail est d'unifier la spécification des modèles linéaires généralisés pour données catégorielles, quelles soient nominales ou ordinales. Cette unification est basée sur la décomposition de la fonction de lien en deux parties : l'inverse d'une fonction de répartition et un ratio de probabilités. Le ratio correspond à la structure du modèle et permet de définir quatre familles de modèles : référence, adjacente, cumulative et séquentielle. A partir de deux équivalences entre modèles démontrées par Tutz et Agresti, nous mettons en évidence deux intersections entre ces familles de modèles. Nous étudions ensuite, pour chaque famille, l'invariance des modèles sous différentes permutations des catégories. Les propriétés d'invariance obtenues permettent de classer chaque modèle comme ordinal ou nominal. L'exposé se termine avec une application en classification supervisée à partir de jeux de données benchmark.