En este parrafo, ilustramos las nociones de
estimador, de
consistencia y
de
sesgo
a partir de tres ejemplos: la estimación
de la
varianza, el problema de las preguntas confidenciales y los
conteos por captura-recaptura.
Estimadores de la varianza:
Sea
una muestra de una ley desconocida
,
suponiendo que admite momentos de todos los ordenes. Hemos visto
que la
media empírica
es un
estimador
consistente de la
esperanza.
Es un
estimador insesgado y
su varianza es igual a la varianza de la ley
, dividida por
. ¿Cómo estimar la
varianza de
? El estimador más natural es
el siguiente.
Si denota una variable aleatoria de ley
,
es
un
estimador consistente de
,
pero no es un estimador insesgado. En
efecto:
Demostración:
Calculemos primero
.
![]() |
![]() |
![]() |
|
![]() |
![]() |
Por definición de muestra,
son independientes y
de misma ley. Por tanto
y
, donde
es una variable aleatoria
cualquiera de ley
. Sustituyendo estos valores obtenemos:
![]() |
![]() |
![]() |
|
![]() |
![]() |
![]() |
![]() |
![]() |
|
![]() |
![]() |
||
![]() |
![]() |
Para transformar en un estimador insesgado, es suficiente
corregir el sesgo por un factor multiplicativo.
Se puede estimar la
desviación estándar por
o por
. Notemos que en general tanto
como
son estimadores sesgados de
.
La diferencia entre los dos
estimadores tiende a 0, cuando el tamaño de la muestra tiende a
infinito. No obstante, la mayor parte de las calculadoras proponen
a los dos estimadores de la desviación estándar (teclas
y
). Algunos logiciales (en particular
Scilab) calculan el valor de
o
,
otros calculan
o
. En lo que sigue
emplearemos sobretodo a
, a pesar del inconveniente del
sesgo.
Preguntas confidenciales:
Ciertos temas abordados en las
encuestas de opinión son bastante íntimos y se corre el riesgo que
las personas encuestadas rehuyan responder francamente al
encuestador, falseando así el resultado. Podemos entonces recurrir
a una astucia que consiste en invertir aleatoriamente las
respuestas. Consideremos una pregunta confidencial para la cual
queremos estimar la probabilidad de respuestas positivas. El
encuestador pide a cada persona encuestada de lanzar un dado. Si
en el dado sale
, la persona debe responder sin mentir, si no,
debe dar la opinión contraria a la suya. Si el encuestador ignora
cuanto salió en el dado, no podrá saber si la respuesta es veraz o
no, y se puede esperar que la persona encuestada aceptará jugar el
juego. Generalicemos ligeramente la situación sacando, para
cada persona, una variable de
Bernoulli de parámetro
. Si
el resultado de esta variable es
, la respuesta es veraz, si
no, se invierte la respuesta. Sea
el número de personas
encuestadas. El encuestador recoge solamente la
frecuencia
empírica
de los ''sí''. La proporción desconocida de los
''sí'' a partir de este procedimiento es
y la frecuencia
observada por el
encuestador es un estimador insesgado y consistente de
.
Observemos que si
,
vale
, cualquiera que sea
. Pero si
, podemos expresar
en función de
:
Por tanto podemos proponer como estimador de a la cantidad
siguiente:
El estimador es insesgado y su varianza tiende a 0, por
lo tanto es consistente.
Para fijo, la varianza de
tiende a infinito cuando
tiende a
. Ella es minimal si
o
(pero
entonces el procedimiento pierde todo su interés). El problema
consiste entonces en seleccionar un valor de
que sea
bastante grande, para que la confidencialidad sea creíble, pero lo
suficientemente alejado de
para no aumentar demasiado la
varianza del estimador. Para el dado, el valor de
es
y el término adicional de la varianza es proporcional a
.
Conteos por captura-recaptura:
¿Cómo estimar el número de especies de
insectos que viven en la Tierra, ya que numerosas especies son,
todavía, desconocidas? ¿Cómo conocemos la población de ballenas en
el océano? El conteo por captura-recaptura permite evaluar las
poblaciones para las cuales un censo exhaustivo es imposible. El
método se basa en una idea simple. Consideremos una población de
tamaño , desconocido. Se toma, en un primer momento, un grupo
de individuos de tamaño
fijo. Estos individuos son censados y
marcados de manera tal que puedan ser reconocidos posteriormente.
Más tarde, se toma un nuevo grupo de tamaño
y observamos el
número
de individuos marcados en este nuevo grupo. Si el
segundo muestreo es independiente del primero, la ley de
es la
ley hipergeométrica de parámetros
,
y
, de esperanza
. Podemos esperar que la proporción de individuos
marcados en el segundo grupo esté cercano de la proporción de
individuos marcados en el total de la población,
. Por tanto
es razonable proponer como estimador de
a la cantidad
siguiente:
El inconveniente de este estimador es que no está definido si
toma el valor 0, lo que sucede con una probabilidad
estrictamente positiva. Se puede corregir este defecto de dos
maneras. La primera consiste en reemplazar
por
, lo cual
no debería falsear mucho los resultados, si los números con que
trabajamos son bastante grandes. Pongamos entonces:
La segunda manera consiste en decidir de rechazar a priori las
muestras para las cuales no se obtengan individuos marcados. Esto
significa reemplazar a por otra variable aleatoria
cuya
ley es la ley condicional de
sabiendo que
es estrictamente
positiva. Pongamos entonces:
Para valores de ,
y
específicos, podemos calcular
numéricamente las esperanzas y las desviaciones estándar de estos
estimadores. La tabla que mostramos a continuación resume los
resultados obtenidos para
y diferentes valores de
.
Los dos estimadores son sesgados, el primero tiene tendencia a
subestimar el tamaño de la población, el segundo a
sobreestimarlo. La desviación estándar aumenta más rápidamente que
. Es natural que la precisión relativa sea más débil según que
las muestras recogidas sean pequeñas con respecto al tamaño
desconocido de la población.