1. Distribución muestral
Con frecuencia es imposible medir la media o la desviación estándar de toda la población a menos que la población sea pequeña, o hacemos un censo a nivel nacional. La media poblacional y la desviación estándar poblacional son ejemplos de parámetros poblacionales--medidas descriptivas de toda la población. Dado la imposibilidad de medir los parámetros poblacionales, por lo contrario medimos los estadísticos muéstrales--medidas descriptivas de una muestra. Algunos ejemplos de los estadísticos muestrales son la media muestral, la mediana muestral y la desviación estándar muestral.
P Bueno, entonces ¿por qué no utilizamos los estadísticos muéstrales como estimaciones de los parámetros correspondientes poblacionales; por ejemplo, por qué no utilizamos la media muestral como una estimación de la media poblacional?
R Esto es exactamente lo que hacemos para estimar medias y medianas poblacionales (con una ligera modificación en el caso de la desviación estándar). Sin embargo, un estadístico muestral (como la media muestral) puede ser "por todas partes", por lo que tenemos una pregunta complementaria: ¿Cuán seguro podemos estar con el estadístico muestral?
P Da un ejemplo.
R Si lanzamos un dado y tomamos $X$ para ser el número de arriba, sabemos que la media poblacional significa (valor esperado) es $μ = 3.5,$ y la mediana poblacional es también $m = 3.5.$ Pero si tomamos una muestra de, digamos, cuatro lanzamientos, la media puede estar lejos de $3.5.$ Aquí están los resultados de $5$ tales muestras de $4$ tiros (utilizamos un generador de números aleatorios para obtener estas muestras):
| $X_{1}$ | $X_{2}$ | $X_{3}$ | $X_{4}$ |  $X$ |
Muestra 1 | $6$ | $2$ | $5$ | $6$ | $4.75$ |
Muestra 2 | $2$ | $3$ | $1$ | $6$ | $3$ |
Muestra 3 | $1$ | $1$ | $4$ | $6$ | $3$ |
Muestra 4 | $6$ | $2$ | $2$ | $1$ | $2.75$ |
Muestra 5 | $1$ | $5$ | $1$ | $3$ | $2.5$ |
Ya que cada muestra se compone de $4$ lanzamientos, podemos decir que el tamaño muestral es $n = 4.$ Nota que ninguna de las cinco muestras nos dio la media correcta, y que la media de la primera muestra está lejos de la media real.
P La tabla anterior es interesante: Consulta los valores de la media $X.$ El promedio (media) de estas medias es $3.2.$ De este modo, aunque la media de una muestra quizá no sea un buen predictor de la media poblacional, obtenemos mejores estimaciones de la media si tomamos el promedio de muchas medias muéstrales.
R Tu has allado uno de los conceptos más importantes de la estadístico inferencial; los valores de $\bar{x}$ son los valores de una variable aleatoria (toma una muestra de $5,$ y mida la media), y su distribución de probabilidad se llama la distribución muestral de la media muestral. La tabla anterior sugiere que el valor esperado de la distribución muestral de la media es igual a la muestra poblacional, y esto resulta ser verdadero.
Distribución muestral
La distribución muestral del estádistico $S$ para muestras del tamaño n se define de la siguiente manera. El experimento consiste en escojer una muestra del tamaño $n$ de la población y medir el estadístico $S.$ La distribución muestral es la distribución de probabilidad resultante.
Ejemplo rápido
Si el estadístico S es la media muestral $\bar{x}$ para muestras de tamaño $4$ como anteriormente, entonces la distribución muestral es la distribución de probabilidad de las medias muéstrales $\bar{x}.$ (Vamos a ver cómo calcular tales distribuciones más abajo).
|
Antes de seguir con el primer ejemplo de una distribución muestral, haz un vistazo a la siguiente simulación de un dado trucado (tamaño muestral $n = 8$). Cada vez que presionas el botón "Nueva muestra", el dado imaginaria será lanzada $8$ veces. Ve si puedes estimar el valor esperado $μ$ por tomar muestreo repetidamente.
Ejemplo 1 Calcula la distribución de muestreo a mano
Una moneda lanzada al aire tiene una probabilidad de $75%$ de caer cara. Sea $X = 1$ si cae cara, y $X = 0$ si cae cruz. Encuentra la distribución muestral de la media $\bar{x}$ para muestras de tamaño $3.$
Solución El experimento consiste en lanzar una moneda $3$ veces y medir la media muestral $\bar{x}.$ La siguiente tabla muestra la colección de todos los resultados posibles (muestras) y media muestral asociada. ($H=$cara, $T=$cruz).
Como se muestra en la tabla, los valores posibles de $\bar{x}$ son $0, 1/3, 2/3,$ y $1.$ La distribución de muestra deseada es su distribución de probabilidad más abajo. (Introduzca las probabilidades como fracciones o decimales, y presiona "Verificar". No presione "Vistazo" a menos que quieras evitar cualquiera de los cálculos!)
Nota La distribución de la media muestral es una distribución binomial. El Teorema de Límite Central nos dice que, para muestras de tamaño más y más grande, debe parecer cada vez más a una distribución normal.
El siguiente ejemplo involucra muestras de una distribución continua, y el uso de la tecnología.
Ejemplo 2 Utilizando la tecnología para muestrear una distribución continua
El ejemplo con el que comenzamos esta sección consiste en tomar cinco muestras de tamaño $n = 4$ de una variable aleatoria uniforme finita (el resultado de lanzar un dado). Aquí, también muestrearemos de una variable aleatoria uniforme, pero esta vez utilizamos la variable aleatoria continua con el dominio $[0, 1],$ para que los resultados pueden ser cualquier número entre $0$ y $1.$ Por ejemplo, una muestra posible de tamaño $n = 6$ es
${0.136, 0.397, 0.278, 0.029, 0.810, 0.496},$
que tiene una media $\bar{x} = 0.358.$ Si permitimos decimales de longitud arbitrarias, entonces el número de muestras posibles de tamaño $n = 6$ es infinito, y por lo tanto no podemos numerar todos. En vez de esto, te dejaremos decidir el número de muestras a generar, y calcular el resultado (experimental) distribución de probabilidad basada en estas muestras. En un sentido, esta es una aproximación de la distribución real de muestreo. (Cuanto mayor sea el número de muestras que se utilice, mayor será la aproximación).
P ¿Como se usa la simulación?
R Sólo tienes que seguir estas instrucciones:
- Primero, selecciona el número de muestras que deseas generar. Le sugerimos utilizar un número pequeño al principio, como unas $20.$ (Puede cambiar más adelante a un valor mayor, pero no digas que no te lo advertimos: cuanto mayor sea el número de muestras, más larga la espera, especialmente en aquellas máquinas lentas no-Macintosh...)
- Después, presiona "Generar muestras, y veras las $20$ o las muestras aparecen en una nueva ventana, junto con la media, $\bar{x},$ de cada muestra.
- Finalmente, presiona "Gráfica" para ver el resultado de distribuciones de probabilidad y gráficoa de las medias muestrales, utilizando las siguientes clases de medición: $0-0.1, 0.1-0.2, 0.2-0.3, ..., 0.9-1.0.$
Una vez que ha hecho todo esto, entonces deberías contestar a algunas preguntas basadas en la distribución de prueba que haz generado!
Ahora usa la distribución (en la gráfica) para responder a las siguientes preguntas:
Nota El histograma da una "muestra" de la distribución real de muestreal; no podemos producir toda la distribución de muestreal de esta manera, ya que hay, principalmente, un numero infinito de muestras posibles.
2. Estimación sin sesgo ("sin sesgo") de los parámetros poblacional
Supongamos que queremos estimar la media poblacional de una muestra de $100.$ Podríamos utilizar la media muestral, o tal vez la mediana muestral, como tal estimación. Dicha estimación se llama un estimador. Suponga, por ejemplo, queremos utilizar la mediana muestral como un estimador de la media poblacional. ¿Qué tan exacto es?
En primer lugar, va a haber muchas medianas diferentes correspondientes a las diferentes muestras de $100.$ Si supiéras la distribución muestral de las medianas muestral con $n = 100,$ podrías calcular el valor esperado (media) de esta distribución muestral. Es decir, podrías calcular el valor esperado de la mediana muestral. Si es igual a la media poblacional, diríamos que la mediana muestral es una estimador sin sesgo ("sin sesgo") de la media poblacional. Por otra parte, decimos que es un estimador con sesgo ("parcial") donde el sesgo es igual a la diferencia entre el valor esperado del estimador y el valor del parámetro de población.
Además, con el fin de obtener una estimación más exacta del parámetro de población, debemos utilizar una estadístico muestral cuya desviación estándar (la desviación estándar de la distribución muestral) es lo más pequeño posible. De esta manera, el estadístico de una sola muestra será probablemente cercano al valor esperado.
Ejemplo 3 ¿La media muestral es un estimador sin sesgo ("sin sesgo") de la media poblacional?
Consulta el Ejemplo 1: $X$ es el número de caras cuando lanzamos una moneda al aire (tiene una probabilidad de $75%$ de caer cara). Es decir, $X = 1$ si es cara y $X = 0$ si es cruz. Determina si la media muestral es un estimador sin sesgo de la media poblacional.
Solución
Necesitamos comparar la media poblacional para $X$ con el valor esperado de la distribución muestral de las medias muéstrales. Es decir, debemos comparar dos valores esperados:
Paso 1 Calcula la media poblacional $E(X) = μ.$
Esto significa que debemos calcular el número promedio de caras cuando una moneda es lanzada al aire (no tres veces--esto fue el tamaño muestral que usamos--pero una vez). Pero, el valor esperado de $X$ se da por
$μ = ΣxP(X=x) = 0(0.25) + 1(0.75) = 0.75.$
Paso 2 Calcula el valor esperado $E(\bar{x})$ de la distribución muestral de la media muestral.
Para hacer esto, necesitamos la distribución muestral de la media muestral, y ya lo calculamos: la distribución muestral de $\bar{x}$ se encontró como sigue.
$\bar{x}$ | $0$ | $1/3$ | $2/3$ | $1$ |
$P(\bar{x} = \bar{x})$ | $1/64$ | $9/64$ | $27/64$ | $27/64$ |
Ahora podemos calcular el valor esperado $E(\bar{x})$ de forma habitual. (Completa la siguiente tabla, introduzca las respuestas como fracciones, y presiona "Verificar".)