Analyse spectrale d’un modèle de l’évolution humaine

français

Seminar Données et Aléatoire Théorie & Applications

25/11/2021 - 14:00 Olivier François (UGA) Salle 106

L'analyse en composantes principales (ACP) est l'une des approches les plus fréquemment utilisées pour décrire la structure des populations à partir de données génétiques. Toutefois, en ce qui concerne l'expansion des humains modernes, les interprétations de l'ACP ont été remises en question, à cause de l'incertitude sur l'origine de motifs ondulatoires observés dans les composantes principales. Il a été en effet avancé que ces motifs ondulatoires étaient des artefacts mathématiques qui surviennent en toute généralité dès que l'ACP est appliquée à des données dans lesquelles la différenciation des populations augmente avec la distance géographique. Dans cet exposé, nous étudions un modèle de coalescence -- le modèle parasol -- pour la diffusion de variants génétiques. Le modèle est fondé sur une hiérarchie de scissions à partir d'une population ancestrale sans structure géographique particulière. Dans le modèle parasol, les scissions se produisent presque continuellement dans le temps, donnant naissance à des populations filles à un rythme régulier.

Nos résultats fournissent des descriptions mathématiques détaillées des valeurs propres et des vecteurs propres de l'ACP de séquences génomiques échantillonnées sous le modèle parasol. Après suppression des variants représentés de manière unique dans l'échantillon, les vecteurs propres de l'ACP sont définis comme des fonctions trigonométriques de périodicité croissante, reproduisant les motifs ondulatoires observés dans les modèles d'isolement par distance. Avec les variants rares, les vecteurs propres correspondant aux plus grandes valeurs propres présentent des formes d'onde complexes. La précision de nos prédictions théoriques est étudiée avec des simulations numériques. Notre analyse soutient l'hypothèse selon laquelle des motifs ondulatoires hautement structurés pourraient résulter uniquement de la dérive génétique et ne sont  pas nécessairement une conséquence artificielle de la structure spatiale de l'échantillonnage. Des données génomiques liées au peuplement des Amériques sont réanalysées à la lumière de notre nouvelle théorie.