La
función cuantil de una ley de probabilidad es la inversa
(generalizada) de su
función de distribución. Si denota la
función de distribución, la función cuantil
es la función que
a
hace corresponder:
La función cuantil empírica de una muestra es la función cuantil de su distribución empírica.
![]() |
![]() |
![]() |
|
![]() ![]() |
|
![]() |
|
![]() |
La mediana es el valor central de la muestra: hay tantos valores inferiores a ella como valores superiores a ella. Si la distribución empírica de la muestra es poco disimétrica, como por ejemplo para una muestra simulada a partir de una ley uniforme o normal, la media y la mediana están cercanas. Si la muestra es asimétrica, con una distribución muy dispersa hacia la derecha, la mediana podrá ser mucho más pequeña que la media. A diferencia de la media, la mediana no es sensible a los valores aberrantes. Ella satisface una propiedad de optimalidad con respecto a la desviación absoluta media.
Demostración:
Para evitar complicar las notaciones, supondremos que los valores
son todos diferentes. El gráfico de la función
está
formado por segmentos de rectas. Sobre el intervalo
, ella vale:
Hay algo arbitrario en la definición de la
función
cuantil
para una distribución empírica: para todos los puntos del
intervalo
, la
función de distribución vale
. Son sobre todo razones teóricas las que nos hacen
seleccionar a
en lugar de otro punto como valor de
. Puede ser una selección bastante mala en la
práctica. Consideremos la muestra siguiente, de tamaño
.
La mediana, tal y como la hemos definido, vale . Sin embargo
como valor central se impone claramente el punto medio del
intervalo
, es decir
. En el caso de las muestras de
tamaño par, el intervalo
, se llama intervalo
mediano. A veces la mediana se define como el punto medio del
intervalo mediano.
Este problema se presenta en el caso de muestras pequeñas y
para los cuantiles
en los cuales
es de la
forma
(más frecuente la mediana). Nosotros no lo tomaremos
en cuenta y conservaremos la definición 2.4.
Aún en muestras muy grandes, los cuantiles son poco
complicados de calcular, pues es suficiente ordenar la muestra en
orden creciente para calcular sus
estadígrafos de orden y por
tanto a la vez obtener todos los cuantiles. Ellos nos proveen una
visualización fácil de la distribución empírica. Hemos visto que
la mediana es un valor central. Para medir la
dispersión, podemos
calcular el
recorrido, que es la diferencia entre el mayor y
el menor valor. Pero este recorrido refleja más los valores
extremos que la localización de la mayor parte de los valores.
Comprendemos mejor la dispersión de una muestra por los intervalos
inter-cuartiles e
inter-deciles.
Estos intervalos forman la base de una representación muy compacta de la distribución empírica: el diagrama en caja (o caja y bigotes, box plot, box-and-whisker plot). No existe una definición general de esta representación. Ella consiste en una caja rectangular cuyos dos extremos son los cuartiles. Estos extremos se prolongan por trazos que terminan con segmentos ortogonales (los bigotes). La longitud de estos segmentos varía según el autor. Nosotros proponemos fijarlos en los deciles extremos. Representamos también la mediana por un trazo en la caja y a veces se representan también los valores extremos de la muestra. (ver la figura 8).