Supongamos que un laboratorio quiera sacar al mercado un
medicamento nuevo. Antes de ponerlo a disposición de la población
en general, se realizan una serie de ensayos clínicos. Estos
tratan de observar el efecto del medicamento sobre un grupo de
enfermos, comparándolo eventualmente con el efecto de otros
tratamientos. Para simplificar, supongamos que el nuevo
medicamento ha curado a enfermos en un primer grupo de
,
mientras que el tratamiento tradicional ha curado a
enfermos
de un grupo de
empleado como control. ¿La mejoría es
suficiente para lanzar el nuevo medicamento? No se podrá tomar una
decisión a menos que se suponga que las
personas observadas
son representativas del conjunto de personas que seguirán el
tratamiento y que los resultados hubiesen sido no muy diferentes
en otro grupo de personas. La modelación consiste en suponer que
las reacciones de los individuos a los tratamientos son
realizaciones de variables aleatorias. Es el postulado básico de
la Estadística:
Una serie de datos estadísticos se presenta bajo la forma de una
-tupla de valores observados en una cierta población de
individuos. La modelación interviene cuando uno quiere emplear
estos valores para sacar conclusiones que serán aplicadas a
individuos para los cuales todavía no se han realizado las
observaciones. La teoría de las probabilidades provee instrumentos
como la
Ley
de los Grandes Números o el
Teorema
del Límite Central, que permiten extraer de los datos
lo que es reproducible y
que podrá por tanto ser el fundamento para una predicción o
una decisión.
Una vez que se admite este
postulado de base, las hipótesis de modelación son enunciados que
tienen que ver con la ley de probabilidad de la -tupla de variables
aleatorias que modelan las observaciones. Según el caso, algunas
de estas hipótesis parecerán naturales y no serán sometidas a
validación. Por ejemplo, cuando se observa un
carácter estadístico
en una población, si el orden en que se toman los individuos no es
importante, se tomará como hipótesis que los datos son
realizaciones de
variables aleatorias independientes y con una
misma ley.
Definición 1.1
Sea una ley de probabilidad en
. Se llama
muestra
de la ley
a una
-tupla de variables aleatorias independientes
y con la misma ley
.
En el caso de un medicamento nuevo, para
el que se quiere probar su eficacia, se considerará que los
individuos son independientes y que sus respuestas (curado o no) es
una variable binaria ( o 0). Estamos entonces en el caso de
una muestra de una ley de
Bernoulli. La
hipótesis que el laboratorio intenta validar es que el parámetro
de la ley de Bernoulli, probabilidad de curarse por el nuevo
medicamento, es superior al del antiguo tratamiento.
Todo el quehacer científico consiste en proponer
teorías, que son a continuación confirmadas o rechazadas. Una
teoría hace predicciones sobre el resultado de experimentos o
mediciones futuras. Si una sola de estas predicciones resulta ser
falsa, entonces toda la teoría es rechazada. Por el contrario, una
predicción que resulta exacta, no hace más que reforzar la teoría,
la cual no podrá ser nunca definitivamente demostrada. En
estadística, las teorías son modelos probabilistas, que en
general no pueden ser rechazados: ningún resultado observado es
nunca totalmente incompatible con el modelo. En el caso de un
medicamento no es imposible que por un hecho fortuito, ninguno de
los individuos tratados se cure : es solamente muy poco verosímil.
Al igual que sería sospechoso, pero no excluido, que todos los
individuos sin excepción, se curen. El
objetivo de los
tests
estadísticos es distinguir lo que es
plausible de lo que es poco verosímil.
Las
predicciones que surgen de una teoría son consecuencias especiales
de ella. Consideremos, por ejemplo, la situación siguiente:
queremos probar un
generador
aleatorio a partir de los valores que
el da. En la práctica, un generador pseudo-aleatorio (función
Random) calcula los términos sucesivos de una sucesión iterada
determinista. Estos valores deben comportarse como ``números
reales
al
azar
entre 0 y ''. Esta frase esconde de hecho el
modelo probabilista siguiente: los valores que da la función
Random son realizaciones de variables
aleatorias independientes con una misma ley, uniforme sobre
. Este modelo probabilista tiene una infinitud de
consecuencias que se pueden comprobar. Por ejemplo si el modelo es
correcto, en
llamadas a la función, el número de los valores
que están entre
y
sigue la ley binomial
. No está completamente excluido que no se observe
ninguno, pero es muy improbable (probabilidad
). Si en
llamadas de la función Random, ningún valor se
encuentra entre
y
, tendremos buenas razones para
poner en duda el modelo. Pero si el número de valores dados por
Random que se encuentran entre
y
es de 46, lo
más que se podrá decir es que este resultado es plausible. Esto
puede reforzar nuestra confianza en el modelo, pero esto no
predice el resultado de otros tests: ningún test estadístico podrá
nunca demostrar que el modelo es el bueno, ni que es el
único posible.
Podemos pensar en otras formas de probar un generador
pseudo-aleatorio. Por ejemplo : sobre pares de llamadas
consecutivas, el número de pares para los cuales el primer
elemento es inferior al segundo sigue también la ley
binomial
; o también, el
número de llamadas sucesivas entre dos valores que están en el
intervalo
sigue la ley
geométrica
: cualquier valor positivo es
posible, pero un valor superior a
es muy poco verosímil ; el
opuesto del logaritmo del producto de
valores sigue la ley
gamma
: todo valor estrictamente positivo es
posible pero un valor inferior a
es muy poco verosímil.
Podríamos dar muchos otros ejemplos: la validación estadística de
los generadores pseudo-aleatorios ha sido el objeto de estudio de
una gran cantidad de trabajos.
En resumen la
situación es la siguiente. Los datos observados son modelados por
variables aleatorias
. Toda función de las
se llama un
estadígrafo o un estadístico de las
variables. En particular la
decisión que se tomará a partir de los datos, es un estadígrafo
binario (rechazo o no). Las hipótesis tienen que ver con la ley
conjunta de las
. Buscamos hacer un test sobre una hipótesis
en particular, que lleva tradicionalmente el nombre de
hipótesis nula, y que denotaremos por
. En el ejemplo del test de la eficacia de un
medicamento, la hipótesis nula podría ser que el medicamento no
hace efecto. Para una
-tupla de llamadas de la función
Random, la hipótesis nula podría ser que la presencia de un
valor entre
y
sigue la ley de Bernoulli de parámetro
. Un test es una decisión tomada a partir de los datos, para
la cual se controla la probabilidad de rechazar
erróneamente.
Definición 1.2
Un test de
umbral
(o nivel) para la hipótesis
es un
estadígrafo binario (rechazo o no de
), tal que: