Muestreo Aleatorio Simple

Estimación de la media poblacional

 

Por:

Dr. Luis Antonio Pérez González

Instituto Tecnológico de Orizaba - ipac

lperez@ipac.com.mx

 

 

Contenido

 

Resultados básicos. 2

Selección del tamaño de la muestra. 6

Consideraciones prácticas para la determinación del tamaño de la muestra. 8


Resultados básicos

Definición MAS2. Sea C una población finita cuyas unidades presentan sólo una característica, entendiendo por esto que a la unidad h-ésima de C le corresponde un solo valor ah. Sea X1, X2, …, Xn, una muestra aleatoria simple sin reemplazo extraída de C. (Es claro que si C es finita de tamaño N, entonces n < N). Consideremos las notaciones siguientes:

En las anteriores notaciones y s2 serán llamadas, respectivamente, media muestral (o promedio) y varianza muestral. s será llamada desviación estándar muestral.

Teorema MAS1. Sea X1, X2, …, Xn, n < N, una muestra aleatoria simple sin reemplazo extraída de la población finita A de tamaño N. Entonces:

 (MAS1)          

Demostración. Puesto que el muestreo es aleatorio, en cada extracción los miembros que quedan en la población tienen la misma probabilidad de ser extraídos. Tenemos así:

(MAS2)               

Considerando este resultado obtenemos, para todo i, i=1,…,n:

           

                    

Definición MAS3. En lo que sigue llamaremos a , media poblacional, y la denotaremos con µ. Llamaremos a varianza poblacional, y la denotaremos con s2. La desviación estándar poblacional será denotada con s. Tenemos así, cuando la población es finita de tamaño N:

                

Teorema MAS2. En un muestreo aleatorio simple sin reemplazo con una sóla característica, de una población finita la media aritmética muestral es un estimador insesgado (no desplazado) de la media poblacional µ, es decir:

           

Demostración. Tenemos:

                 

Teorema MAS3. En un muestreo aleatorio simple sin reemplazo con una sola característica, de una población finita de tamaño N, la varianza de la media aritmética muestral admite la expresión:

           

Demostración. Tenemos:

(MAS3)              

Por otra parte:

(MAS4)                      

Pero

(MAS5)

Sustituyendo este resultado en (MAS4) obtenemos:

Regresando a (MAS3) deducimos que:

           

                           

Corolario: Si

                       

entonces

(MAS6)             

Demostración. Tenemos:

           

                             

Teorema MAS4. Se cumplen las siguientes tres propiedades:

(MAS7)           

La primera de estas expresiones nos dice que la varianza muestral sobreestima ligeramente a la varianza poblacional, y que dicha sobreestimación desaparece conforme el tamaño de la población aumenta. La segunda nos dice que si bien la varianza muestral no es un estimador insesgado de la varianza poblacional, sí lo es de . La tercera expresión nos dice cómo construir, a partir de la varianza muestral, un estimador insesgado para la varianza de la media muestral. Nos dice también que cuando la población es muy grande con respecto al tamaño de la muestra, s2/n tiende a ser un estimador insesgado de la varianza de  

Demostración. Tenemos:

           

           

           

Con esto queda probada la primera de las relaciones. La segunda relación resulta inmediata si observamos que:

La tercera y última expresión se hace evidente como sigue:

   

Selección del tamaño de la muestra

En nuestro propósito de estimar la media poblacional µ es que hemos supuesto la extracción de la muestra aleatoria simple sin reemplazo X2, …, Xn. Pero esta muestra lo que nos produce es , y no es µ. Nos gustaría que fuera µ, pero lo más que podemos exigir es que no se aleje mucho de ella. Aceptaremos por consiguiente un error de estimación. Denotemos con e a dicho error, al cual llamaremos error de muestreo o error máximo admisible. e estará en las mismas unidades que Declaramos con esto nuestro deseo de que se cumpla el evento ||< e. Asignemos un nivel de confianza a dicho evento, es decir, asignemos la probabilidad con que deseamos se cumpla el evento ||< e. Sea 1 – a tal nivel de confianza. Esto se resume en la siguiente expresión:

(MAS8)           

La siguiente es una forma equivalente de la expresión anterior:

(MAS9)             

Cualquiera que sea la distribución de ||/ y cualquiera que sea a, a e [0,1], es posible encontrar una cantidad B tal que

(MAS10)           

Podemos calcular la distribución exacta de ||/, a partir del comportamiento estadístico de las observaciones Xi. Pero para generalizar las aplicaciones que se deriven de lo que hasta ahora hemos expuesto, confiaremos en el Teorema Central del Límite. Este Teorema nos permite asumir normalidad de  bajo ciertos supuestos que son razonablemente satisfechos en la práctica del muestreo. La normalidad de  conduce a que ||/ se distribuya N(0,1) por lo que B(a) puede ser fácilmente calculado. De manera particular, si el nivel de confianza 1 – a es igual a 0.95, entonces B(a) = 1.95996278740841. Para protegernos contra un posible alejamiento de la normalidad, utilizaremos, para un nivel de confianza de 0.95, el valor B(a) = 2.

De las relaciones (MAS9) y (MAS10) resulta que podemos escribir:

                         

De aquí resulta:

(MAS11)         

Puesto que tanto a como B(a) son conocidos a partir del error de muestreo y del nivel de confianza aceptados, entonces la expresión (MAS11) puede ser un dato de entrada para el cálculo del tamaño de la muestra. Denotaremos a esta cantidad simplemente con D, es decir:

(MAS12)         

Traigamos ahora a nuestra memoria la expresión:

(MAS13)         

Estamos ahora en condiciones de probar el siguiente teorema:

Teorema MAS5. Si con n denotamos el tamaño de la muestra en un muestreo simple sin reemplazo de poblaciones finitas, entonces, para un nivel de confianza 1 - a y un error de muestreo e tiene lugar:

(MAS14)             

Demostración. Partiendo de la relación (MAS13) encontramos:

                       

Luego:

                       

Es ahora evidente que despejando n y sustituyendo  por su valor en la expresión (MAS12), se obtiene la relación (MAS14).      

Consideraciones prácticas para la determinación del tamaño de la muestra

Aunque como dijimos en un párrafo anterior, para un nivel de confianza del 95% el valor de B(a) es 1.95996278740841, se acostumbra sustituirlo por 1.96, o definitivamente por 2, para mantener el nivel de confianza del 95% aún frente al posible no cumplimiento del supuesto de normalidad. La posibilidad de no cumplimiento de este supuesto se debe a que si el valor de n no es suficientemente grande, la conclusión del teorema central del límite puede aún no manifestarse.

La cantidad e, por su parte, depende del nivel de precisión de muestreo deseado. Cuanto más pequeño sea, más grande será la precisión, y más grande también será el tamaño de muestra resultante.

En (MAS14) aparece la cantidad . Esta cantidad es desconocida e impide el cálculo de n si no encontramos un mecanismo para su determinación. Las sugerencias son: a) utilizar en su lugar la desviación estándar muestral obtenida en experimentos previos o en una prueba piloto; b) investigar sobre el valor máximo esperado y el valor mínimo esperado en cada estrato, y calcular el rango R (la diferencia entre el máximo y el mínimo). Del teorema de Tchebysheff y de lo que sabemos sobre la distribución normal resulta la idea de calcular  mediante la relación: . c) Ante la ausencia de información sobre  consensuar (por ejemplo, en un panel de especialistas) sobre el valor máximo esperado y el valor mínimo esperado en la población. Calcular luego el rango R. Calcular s mediante la relación .

En todos los casos, si al calcular la amplitud del intervalo de confianza para el valor estimado de µ (con los datos extraídos de la muestra) se encuentra que ésta es notablemente más amplia que dos veces el error máximo admisible, se procede a recalcular n utilizando los valores s obtenidos, y a realizar más observaciones hasta completar el nuevo valor de n.