Las muestras gaussianas son utilizadas frecuentemente para modelar
los errores en los modelos de regresión. Estos modelos buscan
explicar un carácter (considerado como aleatorio) por
carácteres (deterministas)
. Se escoge
una función de regresión
, que depende en general de varios
parámetros desconocidos, y se escriben las variables aleatorias
de la forma:
donde
es una
-tupla de variables aleatorias
independientes y con una misma ley. Los parámetros desconocidos de
serán estimados por el método de los mínimos cuadrados,
minimizando el
error cuadrático:
En el caso en que la función es afín y
es
una muestra gaussiana, se puede determinar explícitamente la ley
de los estimadores de mínimos cuadrados y de ella deducir
intervalos de confianza.
Nosotros solamente consideraremos la regresión lineal simple:
Obtenemos así (ver la sección 2.3) los estimadores de mínimos cuadrados:
Estas tres variables aleatorias son estimadores consistentes de
,
y
respectivamente. Los dos primeros son
insesgados. La esperanza de
es
, por
tanto es asintóticamente insesgado. Se obtiene un estimador
insesgado y consistente de
tomando:
La predicción es el primer objetivo de un modelo probabilista. En
el caso de la regresión lineal, si un nuevo individuo es
examinado, con un valor observado para el carácter
, el
modelo conlleva que el valor
del carácter explicado para
este individuo es una variable aleatoria de ley normal
. Los parámetros de esta ley tendrán por
estimadores a
y
respectivamente.
El siguiente teorema permite calcular las leyes de estos estimadores y por tanto intervalos de confianza. Lo podemos considerar como una extensión del teorema 3.3.
Estos resultados se emplean de la misma manera que el teorema
3.3 para deducir intervalos de confianza.
Denotamos
,
y
los intervalos de dispersión optimales de
nivel
para las leyes
,
y
respectivamente. Los
intervalos de
confianza de nivel
correspondientes a los
diferentes incisos del teorema 3.4
son:
Si se quiere predecir el valor de
para un nuevo
individuo, habrá que tener en cuenta no solamente el error
cometido al estimar el valor de
sino también el de la
varianza
de
. Esto aumenta la longitud del
intervalo. Veamos el intervalo de predicción de
, siempre al
nivel
, cuando no se conoce
(estimada
por
).
Como ejemplo, consideremos la estatura en centímetros () y el
peso en kilogramos (
) de
niños de
años.
Las características numéricas toman los valores siguientes:
Hacer una
regresión lineal quiere decir que pensamos que el peso
debe aumentar, en general, proporcionalmente a la estatura. La
recta de regresión lineal es un modelo de predicción. Para un niño
de estatura dada, daremos un intervalo de peso, considerado como
``normal'', la normalidad se define en referencia al modelo y a
los datos. Estos son los intervalos de predicción de nivel
para diferentes estaturas.
Los intervalos de predicción son menos precisos según que el
tamaño de la muestra inicial sea pequeño y que el valor de
esté más lejos de
(ver el gráfico
5).
Los resultados precedentes se extienden a las regresiones lineales múltiples. Las expresiones explícitas de los intervalos de confianza son demasiado complicadas para reproducirlas aquí, pero están programadas en todos los logiciales de cálculo estadístico.