Méthodes statistiques pour la fouille de données dans les bases de données de génomique

English

Spécialité : Mathématiques Appliquées

3/07/2015 - 14:00 Mme Konstantina Charmpi (Université de Grenoble) Salle 1 - Tour IRMA

Mots clé :
  • fouille de données
  • bases de données
  • tests statistiques
Dans différents domaines d'application, tels que la cancérologie, il est crucial d'identifier des gènes ou des groupes de gènes, significativement sur- ou sous-exprimés. Ce besoin a conduit au développement de nombreuses méthodes statistiques, adaptées au traitement des données de génomique. Ce travail est centré sur les méthodes visant à comparer un vecteur de données numériques, telles que des niveaux d'expression liés à chacun des gènes du génome humain, à un ensemble donné de gènes, connus pour être associés par exemple à un type de cancer, à une fonction cellulaire, ou à un processus biologique. Les méthodes d'acquisition des vecteurs de données sont discutées, et un ensemble de fonctions R, réalisant les opérations de formatage principales, a été implémenté. Une revue des tests statistiques traitant les gènes individuellement ou par groupes, est proposée. Parmi ces méthodes, le test Gene Set Enrichment Analysis (GSEA) est probablement le plus largement utilisé pour le traitement des données de génomique. Néanmoins, du point de vue statistique, son centrage ne permet pas l'établissement de résultats asymptotiques. De plus, le calcul des p-valeurs est algorithmiquement coûteux, et peu précis. Une statistique de test centrée différemment est proposée. Sous l'hypothèse nulle, la convergence en loi de la nouvelle statistique de test est démontrée, en utilisant la théorie des processus empiriques. La loi limite est à calculer une seule fois, et peut ensuite être utilisée pour calculer la p-valeur d'ensembles de gènes différents. Ceci se traduit par une économie importante en temps de calcul. Le test ainsi défini est appelé test de Kolmogorov-Smirnov pondéré, car on peut le voir come une généralisation du test d'ajustement de Kolmogorov-Smirnov classique.
Un autre problème est abordé: le grand nombre de fausses détections par les méthodes existantes. À partir d'une étude statistique de plusieurs bases de données d'ensembles de gènes, couplée à une autre étude sur un grand nombre de vecteurs d'expression, une explication est proposée: l'hypothèse nulle des méthodes existantes, qui stipule que tous les gènes ont la même probabilité d'être inclus dans un ensemble de gènes, est loin d'être vérifiée en pratique. Une généralisation du test précédent, baptisée test de Kolmogorov-Smirnov doublement pondéré, est proposée. Elle est basée sur une pondération des gènes, qui prend en compte leurs fréquences relatives dans les données réelles. Les deux tests ont été appliqués à des données simulées et réelles, et leurs résultats comparés aux procédures existantes. À partir de données cliniques de la base GEO, testées contre les ensembles de gènes MSig, une comparaison entre le test GSEA et les nouvelles procédures a été menée. Notre conclusion est que, au-delà leurs avantages mathématiques et algorithmiques, les tests proposés pourraient se révéler, dans de nombreux cas, plus informatifs que le test GSEA classique, et traiter efficacement les deux problèmes qui ont motivé leur construction.

Directeurs:

  • Mr Bernard Ycart (Professeur - Université Joseph Fourier )

Raporteurs:

  • Mr Jacques Van Helden (Professeur - Université Aix-Marseille )
  • Mr Valentine Genon-Catalot (Professeure - Université Paris Descartes )

Examinateurs:

  • Mr Jean-Jacques Fournié (Directeur de recherche - CNRS Toulouse )
  • Mme Adeline Samson (Professeure - Université Joseph Fourier )
  • Mme Sophie Rousseaux (Directrice de recherche - INSERM Grenoble )