En la Estadística, al igual que en
la Física, la Química o la Biología, dar un
resultado sin indicar
su precisión tiene poco interés, porque no es reproducible.
Retomemos el ejemplo de lanzar una moneda alterada, para la cual
la probabilidad de salir ''cara'' es desconocida. La frecuencia
empírica de ''cara'' es el estimador natural de
. Si en
lances obtenemos
veces ''cara'', la estimación (puntual)
propuesta para
es
. Pero este resultado no se puede
reproducir. Si volvemos a realizar los
lances, probablemente
obtendremos una estimación diferente. En lugar de dar una
estimación puntual, propondremos un intervalo, seleccionado
de manera de controlar por un nivel de confianza, las
probabilidades que el resultado tendría de ser confirmado si se
repitiera el experimento. Buscamos distinguir los valores
del parámetro para los cuales la observación (
''caras'' en
lances) es plausible, de los valores para los cuales es muy poco
verosímil. Denotemos por
la frecuencia empírica y sea
el
número de lances. La variable aleatoria
sigue la
ley binomial
. Un cálculo numérico da los siguientes valores.
Para todo valor de inferior a
, la probabilidad de
observar en 100 lances una frecuencia superior a
es
inferior a
. Para todo valor de
superior a
, la
probabilidad de observar en 100 lances una frecuencia inferior a
es inferior a
. En otras palabras, para todo
en
el intervalo
, tenemos:
es decir que está en el
intervalo de dispersión simétrico de nivel
para la ley
. Por tanto es razonable proponer
como intervalo de estimación para el valor de
.
La definición de un
intervalo de confianza es la siguiente.
Si se realizan simulaciones independientes de la ley
, las variables aleatorias
y
tomarán valores
particulares
y
. La expresión
será entonces verdadera o falsa. Para
, si se repite
veces la serie de
experimentos para obtener
intervalos, podemos esperar que cinco de ellos no contengan a
.
En general, los
intervalos de confianza se construyen a partir de
intervalos de dispersión de un estimador. Sea un estimador de
. Entre los
intervalos de dispersión de
, debemos
realizar una selección coherente (la misma para todos los valores
de
). Lo más fácil es considerar el intervalo de
dispersión simétrico:
Excepto en el caso en que la ley de sea simétrica (los
intervalos simétricos son entonces optimales), se obtendrán
resultados más precisos calculando los intervalos de dispersión
optimales (aquellos cuya longitud es mínima). Habiendo hecha esta
selección, fijemos el nivel
y denotemos por
el
intervalo de
dispersión para la ley de
. Para todo valor de
,
tenemos:
Si es un estimador consistente de
y el tamaño de la
muestra es bastante grande, hemos visto (proposición
1.10) que
y
están cerca de
. En la práctica, si
es una ley continua, son funciones estrictamente
crecientes de
y podemos definir sus inversos
y
.
Demostración:
Como la función
es creciente tenemos:
Como estos dos eventos son equivalentes, su probabilidad es la
misma,
, por definición del
intervalo de dispersión
.
Ejemplo: ley uniforme sobre
.
Consideremos una muestra
de
la ley
y el estimador consistente
. Hemos visto que el intervalo de
dispersión optimal de nivel
es el intervalo
unilateral
. Por lo tanto tenemos:
Estas funciones son estrictamente crecientes y por lo tanto inversibles:
El intervalo
es un intervalo de confianza de
nivel
para
. Observemos que la longitud del
intervalo disminuye (la precisión aumenta) si
y
aumentan (el nivel de confianza disminuye). Supongamos por ejemplo
que para
realizaciones de la ley
, el
máximo
haya tomado el valor
. Para
, el
valor numérico del extremo superior es:
Es inútil dar más cifras significativas que las que tiene la
estimación. Los redondeos deben ir siempre en el sentido de la
garantía del nivel de confianza (aumento del intervalo). Los
límites inferiores serán por tanto redondeados por defecto y los
límites superiores por exceso. Aquí daremos
como
intervalo de confianza para
al nivel
.
Cuando la ley es discreta, la muestra
y por tanto el estimador
no pueden tomar
más que ciertos valores particulares. En este caso, la función
cuantil de
es una función en escalera y las funciones
y
no son
estrictamente crecientes. Para una ley discreta, el nivel de los
intervalos de dispersión no es exacto. Solamente podemos
garantizar que:
Cuando hay ambigüedad sobre el valor que toma un intervalo de confianza, la selección que se haga deberá ser siempre en el sentido de garantizar el nivel de confianza. El procedimiento de cálculo deberá ser tal que:
La figura 4 ilustra este procedimiento en la situación
dada como ejemplo al inicio del parrafo. Los
intervalos de
dispersión optimales para una frecuencia empírica sobre una
muestra de tamaño , están representados en función de
. Si
la frecuencia de
en la muestra es
, el intervalo de
confianza que se obtiene será el de la figura, que corresponde a
las abscisas donde la recta horizontal de ordenada
corta a
y
.