Modèles génératifs pour données de rang et données ordinales avec applications en clustering.

English

Séminaire Probabilités & Statistique

20/12/2012 - 14:00 Julien Jacques (Université de Lille 1 / Laboratoire Paul Painlevé / Équipe Inria MODAL) Salle 1 - Tour IRMA

Les données de rang, résultant d'un classement d'objets selon un ordre de préférence, ainsi que les données ordinales, sont très fréquentes dans la pratique mais rarement traitées comme telles du fait du manque de modèles et méthodes statistiques dédiés. Par exemple, les variables ordinales sont souvent considérées comme des variables continues, associant à chaque modalité une valeur numérique respectant la relation d'ordre. Nous présentons deux nouveaux modèles probabilistes paramétriques génératifs pour ces deux types de variables, ayant des propriétés intéressantes d'un point de vue interprétation des paramètres. Le point commun entre ces deux modèles est qu'ils sont tous deux construits en modélisant le processus de génération des données, supposés être un algorithme de tri pour les données de rang et un algorithme de recherche pour les données ordinales. Ces deux modèles sont ensuite utilisés en clustering par le biais de modèles de mélange.