Thèse de DOCTORAT

Spécialité: Mathématiques Appliquées

Mr Achmad CHOIRUDDIN

soutiendra le Vendredi 15 Septembre 2017 à 14h00 Amphithéâtre Noël Gastinel - UFR IMAG F 022

Titre:

Sélection de variables pour des processus ponctuels spatiaux

Ces travaux se sont déroulés sous la direction de Mme Frederique LETUE (Maître de Conférénces, Université Grenoble Alpes) et de Mr Jean François COEURJOLLY (Professeur, Université du Québec à Montréal)

Résumé:

Abstract. Recent applications such as forestry datasets involve the observations of spatial point pattern data combined with the observation of many spatial covariates. We consider in this thesis the problem of estimating a parametric form of the intensity function in such a context. This thesis develops feature selection procedures and gives some guarantees on their validity. In particular, we propose two different feature selection approaches: the lasso-type methods and the Dantzig selector-type procedures. For the methods considering lasso-type techniques, we derive asymptotic properties of the estimates obtained from estimating functions derived from Poisson and logistic regression likelihoods penalized by a large class of penalties. We prove that the estimates obtained from such procedures satisfy consistency, sparsity, and asymptotic normality. For the Dantzig selector part, we develop a modified version of the Dantzig selector, which we call by the adaptive linearized Dantzig selector (ALDS), to obtain the intensity estimates. More precisely, the ALDS estimates are defined as the solution to an optimization problem which minimizes the sum of coefficients of the estimates subject to linear approximation of the score vector as a constraint. We find that the estimates obtained from such methods have asymptotic properties similar to the ones proposed previously using an adaptive lasso regularization term. We investigate the computational aspects of the methods developped using either lasso-type procedures or the Dantzig selector-type approaches. We make links between spatial point processes intensity estimation and generalized linear models (GLMs), so we only have to deal with feature selection procedures for GLMs. Thus, easier computational procedures are implemented and computationally fast algorithm are proposed. Simulation experiments are conducted to highlight the finite sample performances of the estimates from each of two proposed approaches. Finally, our methods are applied to model the spatial locations a species of tree in the forest observed with a large number of environmental factors. Keywords: Campbell theorem, Dantzig selector, lasso, logistic regression likelihood, Poisson likelihood Résumé. Les applications récentes telles que les bases de données forestières impliquent des observations de données spatiales associées à l'observation de nombreuses covariables spatiales. Nous considérons dans cette thèse le problème de l'estimation d'une forme paramétrique de la fonction d'intensité dans un tel contexte. Cette thèse développe les procédures de sélection des variables et donne des garanties quant à leur validité. En particulier, nous proposons deux approches différentes pour la sélection de variables: les méthodes de type lasso et les procédures de type sélecteur de Dantzig. Pour les méthodes envisageant les techniques de type lasso, nous dérivons les propriétés asymptotiques des estimations obtenues par les équations estimantes dérivées des vraisemblances de Poisson et de la régression logistique pénalisées par une grande classe de pénalités. Nous prouvons que les estimations obtenues par de ces procédures satisfont la consistance, sparsité et la normalité asymptotique. Pour la partie sélecteur de Dantzig, nous développons une version modifiée du sélecteur de Dantzig, que nous appelons le sélecteur Dantzig linéarisé adaptatif (ALDS), pour obtenir les estimations d'intensité. Plus précisément, les estimations ALDS sont définies comme la solution à un problème d'optimisation qui minimise la somme des coefficients des estimations sous contrainte de la norme d'une approximation linéaire du vecteur score. Nous constatons que les estimations obtenues par de ces méthodes ont des propriétés asymptotiques semblables à celles proposées précédemment à l'aide de méthode régularisation du lasso adaptatif. Nous étudions les aspects computationnels des méthodes développées en utilisant les procédures de type lasso et de type Sélector Dantzig. Nous établissons des liens entre l'estimation de l'intensité des processus ponctuels spatiaux et les modèles linéaires généralisés (GLM). Ainsi, des procédures de calcul plus faciles sont implémentées et un algorithme rapide est proposé. Des études de simulation sont menées pour évaluer les performances des estimations de chacune des deux approches proposées. Enfin, nos méthodes sont appliquées pour modéliser positions d'arbres observées avec un grand nombre de facteurs environnementaux.

Mots-Clés:

Théorème de Campbell, sélecteur de Dantzig, lasso, vraisemblance de la régression logistique, vraisemblance de Poisson

Membres du Jury:

Rapporteurs:

Mr Jorge MATEU (Professeur, Universitat Jaume I)
Mr Vivian VIALLON (Maitre de conférences, Université Claude Bernard de Lyon)

Examinateurs:

Mme Hermine BIERME (Professeur, Université de Poitiers)
Mr Stephane GIRARD (Directeur de Recherche, INRIA Grenoble Rhône-Alpes)
Mr Frédéric LAVANCIER (Maitre de conférences, Université de Nantes)