Se ha seleccionado un modelo
probabilista, que hace que los datos observados sean realizaciones
de variables aleatorias. Denotemos por
los
datos y por
las variables aleatorias que los
modelan. Sobre la ley de estas variables aleatorias se plantean
un cierto número de hipótesis que no se pondrán en duda. Una
hipótesis
en particular,
, será sometida a test.
La decisión dependerá del valor que tome una cierta función
de los datos que llamaremos
:
En el modelo, es una variable aleatoria, el
estadígrafo del test.
Se selecciona de manera tal que su ley
de probabilidad bajo la hipótesis
es conocida.
Denotamos esta ley por
. Si los
son realizaciones de
las
, entonces
es el valor que toma
. El test consiste en rechazar la hipótesis
cuando el valor de
es muy poco verosímil para
.
Para la ley de probabilidad , los valores más plausibles
están contenidos dentro de sus
intervalos
de
dispersión. Estos se
expresan con la ayuda de la
función cuantil.
Si
es una variable aleatoria, la
función cuantil de la ley de
es la función que va de
en
, y que a cada
asocia el valor:
Es la inversa de la función de distribución. Las funciones cuantiles más usadas, tal y como lo están las funciones de distribución de las leyes usuales, están programadas en la mayoría de los sistemas de cálculo.
Definición 1.3
Sea une variable aleatoria y
un
número real entre 0 y
. Llamamos
intervalo
de dispersión de nivel
a todo intervalo de la
forma:
En estadística emplear números reales entre 0 y
constituye una tradición. La misma tradición hace que se les
asigne prioritariamente los valores
y
, menos
frecuentemente
,
ó
. Por tanto debemos leer
como ''una proporción débil'', y
como ''una
proporción fuerte''. Un intervalo de dispersión de nivel
para
es uno tal que
pertenece a ese
intervalo con probabilidad
. El contiene, por tanto,
a una fuerte proporción de los valores que tomará
aún
cuando el sea mucho más pequeño que el soporte de la ley.
Según los valores de
, decimos que un intervalo de
dispersión de nivel
es:
Presentamos los intervalos de dispersión unilaterales y
simétricos, de nivel y
para la
ley normal
.
Cuando la ley de la variable aleatoria es discreta, la
noción de intervalo de dispersión puede contener alguna
ambigüedad. Consideremos, por ejemplo, la
ley
binomial
. Veamos los valores de su función de distribución.
Fijemos
. En todo rigor, el valor de la
función cuantil en el punto
es
. El intervalo
debería ser por tanto un intervalo de dispersión de nivel
para la ley
. Sin embargo su probabilidad
es de
. Para los cálculos que emplean intervalos de
dispersión, siempre se aplica un principio de precaución, el
cual consiste en garantizar el nivel. Por tanto
consideraremos como intervalos de dispersión de nivel
sólo a aquellos cuya probabilidad es mayor o
igual a
. Este principio lleva a modificar la
definición 1.3 para las leyes discretas que toman
valores en
, reemplazando el borde derecho
, por
. La tabla
que mostramos a continuación nos da una lista de intervalos de
dispersión de nivel
, conjuntamente con su
probabilidad exacta, para la ley
.
Dos de los intervalos tienen amplitud mínima, y
.
Seleccionaremos a aquél que tiene la mayor probabilidad, es
decir a
. La figura 2 representa en función de
los intervalos de dispersión optimales, en el sentido que
hemos definido anteriormente, para la ley binomial
, así como los intervalos de dispersión simétricos.
Hacer un test consiste en rechazar la
hipótesis
si el valor que toma el estadígrafo del
test cae fuera del intervalo de dispersión del nivel
dado.
Proposición 1.4
Sea
una hipótesis y
un
número real entre 0 y
. Se define un test de umbral
o test de nivel
para
por la
regla de decisión:
Hasta ahora hemos dejado una gran flexibilidad para seleccionar el intervalo de dispersión. Los intervalos más usados son simétricos o unilaterales.
Definición 1.5 Se dice que un test es:
En el caso de la eficiencia de un medicamento, con el número de
enfermos curados como estadígrafo del test, seleccionaremos un
test unilateral (el tratamiento es ineficaz si la frecuencia de
curados es muy débil, y es eficaz si la frecuencia es lo
suficientemente grande). Para probar un generador
pseudo-aleatorio, con el número de resultados entre y
como estadígrafo del test, rechazaremos tanto los valores
muy grandes como los muy pequeños y el test será bilateral.
En la definición que damos a continuación resumimos los tres tipos de test usuales.
Definición 1.6
Sean
la
hipótesis nula,
el
umbral,
el
estadígrafo del test y
su función cuantil bajo la
hipótesis
.
Supongamos que el estadígrafo de test sigue, bajo la
hipótesis
, la
ley binomial
,
igual que en el ejemplo del generador pseudo-aleatorio. El
intervalo de dispersión simétrico de nivel
es
. El test bilateral de umbral
consistirá en
rechazar
si el estadígrafo de test toma valores
inferiores a
o superiores a
. Para la ley binomial, como
para otras leyes, podemos decidir de utilizar la aproximación
por la
ley normal: si
es lo suficientemente grande, la ley
está cerca de la ley normal que tiene la misma
esperanza y
la misma
varianza que ella. En este caso la ley de
está cerca de la ley
. El intervalo de
dispersión simétrico de nivel
para esta ley es
. Según este intervalo, deberíamos rechazar
también los valores
y
. Este tipo de aproximación era
muy corriente hacerla cuando solamente se disponía de tablas de
cuantiles.
Ya en la actualidad los sistemas de cálculo que
existen son capaces de calcular en forma precisa cualquier cuantil
de las leyes usuales. Como regla general debe evitarse emplear un
resultado de aproximación cuando se puede calcular exactamente.
Los cuantiles de la ley
nunca estuvieron en las
tablas. Para calcularlos, se empleaban los de la ley
, reemplazando al estadígrafo de test
por su valor
centrado y reducido:
Si admitimos que la variable sigue la ley
, el
test bilateral de umbral
consiste en rechazar todo valor
que se encuentre fuera del intervalo de dispersión
. Esto es, evidentemente, equivalente a
rechazar los valores de
que se encuentren fuera del intervalo
. Hay otras transformaciones posibles. Si
sigue la ley
, entonces
sigue la
ley
chi-cuadrado
. Rechazar
los valores de
que se encuentran fuera del intervalo
es equivalente a rechazar los valores de
mayores que
, que es efectivamente el
cuantil de orden
de la ley
. Notemos que un
test bilateral sobre el estadígrafo
es equivalente a un
test unilateral a la derecha sobre el estadígrafo
.
Los capítulos 2 y
3 contienen los ejemplos más clásicos
de tests, primero con los cuantiles y después en el marco
gaussiano. No siempre precisaremos si se trata de tests
bilaterales o unilaterales. Lo importante es describir la
hipótesis
, el estadígrafo de test
y su ley
bajo
. Decidir si el test debe ser unilateral a la
izquierda, unilateral a la derecha o bilateral es muy
frecuentemente un problema de sentido común.