Section : Recherche d'estimateurs
Précédent : Estimation par ajustement
Suivant : Notion de vraisemblance


Estimateurs des moindres carrés

Jusqu'ici le seul modèle probabiliste que nous ayons envisagé pour des données observées considérait qu'elles étaient des réalisations de variables indépendantes et de même loi. Cela revient à supposer que les individus sur lesquels les données ont été recueillies sont interchangeables, et que les différences observées entre eux sont seulement imputables au hasard. Dans de nombreuses situations, on cherche à expliquer ces différences, c'est-à-dire à les attribuer à l'effet d'autres caractères mesurés sur les mêmes individus. La modélisation probabiliste considèrera que la mesure (à expliquer) effectuée sur un individu donné est une variable aléatoire, dont la loi dépend des valeurs prises sur cet individu par les caractères explicatifs, considérés comme déterministes. Si $ Y_i$ désigne la variable aléatoire associée à l'individu $ i$, et $ (x^{(1)}_i,\ldots,x^{(k)}_i)$ les valeurs prises pour cet individu par les caractères explicatifs $ (x^{(1)},\ldots,x^{(k)})$, on séparera l'effet déterministe et l'effet aléatoire par un modèle du type :

$\displaystyle Y_i = f(x^{(1)}_i,\ldots,x^{(k)}_i)+E_i\;,
$

$ (E_1,\ldots,E_n)$ est un $ n$-uplet de variables aléatoires indépendantes et de même loi. On parle alors de modèle de régression. La fonction $ f$ dépend de un ou plusieurs paramètres inconnus que l'on doit estimer. On choisit pour cela de minimiser l'erreur quadratique définie par :

$\displaystyle EQ(f) = \frac{1}{n} \sum_{i=1}^n (Y_i-f(x^{(1)}_i,\ldots,x^{(k)}_i))^2\;.
$

Dans certains cas classiques, on sait résoudre explicitement ce problème de minimisation, et la solution est implémentée dans les environnements de calculs statistiques. Quand une résolution explicite est impossible, on a recours à des algorithmes de minimisation, comme l'algorithme du gradient.

Le cas le plus fréquent est celui de la régression linéaire simple, où un seul caractère est explicatif, et la fonction $ f$ est affine :

$\displaystyle Y_i = ax_i+b+E_i\;.
$

L'erreur quadratique est alors :

$\displaystyle EQ(a,b) = \frac{1}{n} \sum_{i=1}^n (Y_i-ax_i-b)^2\;.
$

Les valeurs de $ a$ et $ b$ qui minimisent l'erreur quadratique s'expriment en fonction des moyennes, variances et covariances empiriques de $ x$ et de $ Y$. Nous notons :
$ \bullet$
$ \overline{x}=\frac{1}{n}\sum x_i$ la moyenne empirique de $ x$.
$ \bullet$
$ s^2_x=\frac{1}{n}\sum (x_i-\overline{x})^2$ la variance empirique de $ x$.
$ \bullet$
$ \overline{Y}=\frac{1}{n}\sum Y_i$ la moyenne empirique de $ Y$.
$ \bullet$
$ S^2_Y=\frac{1}{n}\sum (Y_i-\overline{Y})^2$ la variance empirique de $ Y$.
$ \bullet$
$ c_{xY} = \frac{1}{n}\sum (x_i-\overline{x})
(Y_i-\overline{Y})$ la covariance de $ x$ et $ Y$.
$ \bullet$
$ r_{xY} = \frac{c_{xY}}{\sqrt{s_x^2S_Y^2}}$ le coefficient de corrélation de $ x$ et $ Y$.

Proposition 2.4   Si $ s_x^2\neq 0$ (le caractère $ x$ n'est pas constant), la fonction $ EQ(a,b)$ admet un minimum pour :

$\displaystyle A = \frac{c_{xY}}{s_x^2}$   et$\displaystyle \quad
B = \overline{Y} - A\overline{x}\;.
$

La valeur de ce minimum est :

$\displaystyle EQ(A,B) = S_Y^2(1-r_{xY}^2)\;.
$

Les variables aléatoires $ A$ et $ B$ sont les estimateurs des moindres carrés des paramètres $ a$ et $ b$.

On peut utiliser les estimateurs des moindres carrés pour estimer les paramètres de certaines lois, dans un problème d'ajustement. Nous traitons à titre d'exemple les lois normales et les lois de Weibull.

Lois normales.

Soit $ Y=(Y_1,\ldots,Y_n)$ un échantillon de taille $ n$ de la loi normale $ {\cal N}(\mu,\sigma^2)$, les paramètres $ \mu$ et $ \sigma^2$ étant inconnus. Pour $ i=1,\ldots,n$, notons $ Y_{(i)}$ les statistiques d'ordre (valeurs $ Y_i$ ordonnées de la plus grande à la plus petite). Si l'hypothèse de normalité est pertinente, alors $ Y_{(i)}$ doit être proche du quantile $ Q_{{\cal N}(\mu,\sigma^2)}(i/n)$ de la loi $ {\cal N}(\mu,\sigma^2)$. Rappelons que si une variable aléatoire $ X$ suit la loi $ {\cal N}(0,1)$, alors $ Y=\sigma X+\mu$ suit la loi $ {\cal N}(\mu,\sigma^2)$. Ceci revient à dire que pour tout $ u\in$[0,1] :

$\displaystyle Q_{{\cal N}(\mu,\sigma^2)}(u) = \sigma Q_{{\cal N}(0,1)}(u) + \mu\;.
$

Notons $ x_i=Q_{{\cal N}(0,1)}(i/n)$ les valeurs de la fonction quantile de la loi $ {\cal N}(0,1)$ aux points $ i/n$. Si l'hypothèse de normalité est vérifiée, les points de coordonnées $ (x_i,Y_{(i)})$ devraient être proches de la droite d'équation $ y=\sigma x+\mu$. Les estimateurs des moindres carrés $ A$ et $ B$ pour la régression linéaire simple des $ Y_{(i)}$ sur les $ x_i$ sont donc des estimateurs de $ \sigma$ et $ \mu$ respectivement.

Lois de Weibull.

La fonction quantile de la loi de Weibull $ {\cal W}(a,\lambda)$ est :

$\displaystyle Q_{{\cal W}(a,\lambda)}(u) = \left(-\frac{1}{\lambda} \log(1-u)\right)^{1/a}\;.
$

Soit $ Y=(Y_1,\ldots,Y_n)$ un échantillon de la loi $ {\cal W}(a,\lambda)$, de paramètres $ a$ et $ \lambda$ inconnus. Pour $ i=1,\ldots,n$, la statistique d'ordre $ Y_{(i)}$ doit être proche du quantile $ Q_{{\cal W}(a,\lambda)}(i/n)$.

$\displaystyle Y_{(i)}\approx\left(-\frac{1}{\lambda} \log(1-\frac{i}{n})\right)^{1/a}\;,
$

soit :

$\displaystyle \log(Y_{(i)})\approx\frac{1}{a}\log\left(-\log(1-\frac{i}{n})\right)
+\frac{1}{a} \log\left(\frac{1}{\lambda}\right)\;.
$

Posons $ x_i=\log(-\log(1-i/n))$ et $ Y'_i = \log(Y_{(i)})$. Les points $ (x_i,Y'_i)$ devraient être proches de la droite d'équation $ y=(1/a)x+(1/a)\log(1/\lambda)$. Les estimateurs des moindres carrés $ A$ et $ B$ pour la régression linéaire simple des $ Y'_i$ sur les $ x_i$ sont des estimateurs de $ 1/a$ et $ (1/a)\log(1/\lambda)$ respectivement. Donc $ 1/A$ et $ e^{-B/A}$ sont des estimateurs de $ a$ et $ \lambda$ respectivement.



Section : Recherche d'estimateurs
Précédent : Estimation par ajustement
Suivant : Notion de vraisemblance