Classification de courbes non supervisée dans les modèles mixtes

English

Séminaire Probabilités & Statistique

17/11/2011 - 14:00 Madison Giacofci (LJK / SAM) Salle 1 - Tour IRMA

Un nombre croissant de domaines scientifiques collectent de grandes quantités de données comportant beaucoup de mesures répétées pour chaque individu. Ce type de données peut être vu comme une extension des données longitudinales en grande dimension et le cadre naturel de modélisation est alors l'analyse fonctionnelle pour laquelle les unités de base sont les courbes.
Nous proposons une nouvelle procédure de classification de courbes non-supervisée en présence de variabilité inter-individuelle. Nous utilisons pour cela une décomposition en ondelettes des effets fixes et des effets aléatoires assurant que les effets fixes et aléatoires sont dans le même espace fonctionnel.
Nous obtenons ainsi, dans le domaine des ondelettes, un modèle linéaire mixte sur lequel on peut appliquer une procédure de classification (model-based?).
Notre approche se décompose alors en deux étapes. La première est une étape de réduction de dimension basée sur les techniques de seuillage des ondelettes. La taille conséquente des données rend cette étape fondamentale et notre but est de sélectionner les coefficients les plus informatifs pour la classification. Ensuite, une procédure de classification est appliquée sur les coefficients sélectionnés : l'algorithme EM est utilisé pour avoir une estimation des paramètres par maximum de vraisemblance et prédire conjointement les classes des individus et les effets individuels.
Les propriétés de notre procédure sont validées par une étude de simulation approfondie. Nous illustrons ensuite notre méthode sur des données issues de la biologie moléculaires (données omics) comme les données CGH ou les données de spectrométrie de masse.
Notre procédure est disponible dans le package R "curvclust".