Une méthode rapide de segmentation des lignes et des colonnes pour des matrices de grandes tailles

English

Séminaire Probabilités & Statistique

17/03/2016 - 14:00 Vincent Brault (AgroParisTech)

Dans certains cas, comme pour les données Hi-C (Rao et al., 2014), l'objectif est de partitionner les lignes et les colonnes d'une matrice pour former un quadrillage de blocs homogènes sans effectuer de permutations. Toutefois, ce problème peut être compliqué pour plusieurs raisons : les méthodes utilisées en segmentation unidimensionnelle comme l'algorithme de programmation dynamique ne s'appliquent pas dans ces cas là et la taille des données impose de proposer des algorithmes performants.

En réalité, nous montrons que ce problème peut être ramené à celui d'un modèle linéaire parcimonieux de grande dimension pour lequel nous proposons une méthode de sélection de variables rapide et efficace.

Dans cet exposé, nous montrerons comment notre méthode fournit un quadrillage pour des matrices de grandes tailles (10 000 x 10 000). Nous montrerons également comment la structure bidimensionnelle permet d'obtenir une bonne estimation du nombre et des emplacements des ruptures. Nous illustrerons nos résultats à l'aide de figures et de films et appliquerons nos méthodes sur des données simulées et réelles.