Muestreo Aleatorio Estratificado

Estimación de proporciones

Por:

Dr. Luis Antonio Pérez González

Instituto Tecnológico de Orizaba - ipac

lperez@ipac.com.mx

 

 

Contenido

 

Selección del tamaño de la muestra. 4

Tamaño de la muestra para un Muestreo Estratificado Proporcional o Representativo. 6

Tamaño de la muestra para un Muestreo Estratificado Óptimo. 7

Tamaño de la muestra para un Muestreo Estratificado de Costo Mínimo. 7

Consideraciones prácticas para la determinación del tamaño de la muestra. 7

Expresiones simplificadas para el cálculo del tamaño de la muestra. 8


Utilizaremos los resultados sobre estimación de proporciones bajo muestreo aleatorio simple, al estudiar el muestreo estratificado simple de poblaciones finitas binarias que ahora nos ocupa. Haciendo un paralelismo con la notación que establecimos para estimar medias, asumiremos que la población A se ha partido en k estratos A1, A2, …,Ak, cada uno de los cuales posee la propiedad de que sus unidades presentan sólo una característica binaria, entendiendo por esto que a la unidad h-ésima de Aj le corresponde un solo valor ahj e {0,1}, h=1, …, Nj, j=1,…,k. En otras palabras, el estrato Aj de la población tiene Nj unidades, y los valores de cada unidad son los siguientes:

    valor de la unidad h del j-ésimo estrato

De cada estrato se extrae una muestra aleatoria simple sin reemplazo. Si nj es el tamaño de la muestra extraída del estrato Aj, entonces el tamaño total de la muestra puede obtenerse por la relación:

                       

Sea, , nj < Nj, la muestra aleatoria simple sin reemplazo extraída del estrato Aj, j=1,…,k. Introduzcamos las siguientes notaciones:

                       

                       

                       

Es claro ahora que:

                                

Iniciaremos nuestra búsqueda del tamaño de la muestra enunciando el siguiente teorema:

Teorema MAE3. En un muestreo estratificado simple de una población binaria finita se cumple:

a)             es un estimador insesgado de p.

b)         La varianza del estimadoradmite la expresión:

(MAE13)         

            donde      

c)         Un estimador insesgado de la varianza de la media muestral (i.e., de ), es:

(MAE14)         

Demostración. Las afirmaciones contenidas en los incisos “a” y “b” son consecuencia inmediata del teorema MAE1. Nos detendremos en el inciso “c”.  De la relación (ver teorema MAS4) y del inciso b del presente teorema resulta que un estimador insesgado de  es:

(MAE15)         

donde   

(MAE16)         

Gracias a (MAS24), (MAE16) puede expresarse mediante:

                       

Sustituyendo este resultado en (MAE15) obtenemos (MAE14).

Selección del tamaño de la muestra

Tenemos el propósito de estimar, mediante un muestreo aleatorio estratificado, la proporción p de veces en que aparece el valor 1 en una población finita binaria A. En el teorema MAE3 declaramos que es un estimador insesgado de p, y en la expresión (MAE13) del mismo teorema se observa que dicho estimador disminuye su variación alrededor de p conforme crecen los tamaños de la muestra en los estratos. Por lo tanto éste es el estimador que utilizaremos para p.

Denotemos con e al error de estimación (error de muestreo o error máximo admisible). Declaramos con esto nuestro deseo de que se cumpla el evento ||< e. Asignamos un nivel de confianza a dicho evento. Sea 1 – a tal nivel de confianza. Esto se resume en la siguiente expresión:

                       

La siguiente es una forma equivalente de la expresión anterior:

(MAE17)         

Cualquiera que sea la distribución de ||/ y cualquiera que sea a,  a e [0,1], es posible encontrar una cantidad B(a) tal que

(MAE18)         

Confiando en el Teorema Central del Límite podemos asumir normalidad de . En tal caso ||/ se distribuye N(0,1) por lo que B(a) puede ser fácilmente calculado. De manera particular, si el nivel de confianza 1 – a es igual a 0.95, entonces B(a) = 1.95996278740841. Para protegernos contra un posible alejamiento de la normalidad, utilizaremos, para un nivel de confianza de 0.95, el valor B(a) = 2.

De las relaciones (MAE17) y (MAE18) resulta que podemos escribir:

                         

De aquí resulta:

(MAE19)         

Puesto que tanto a como B(a) son conocidos a partir del error de muestreo y del nivel de confianza aceptados, entonces la expresión (MAE19) puede ser un dato de entrada para el cálculo del tamaño de la muestra. Denotaremos a esta cantidad simplemente con D, es decir:

(MAE20)         

Podemos ahora rescribir la expresión (MAE13) como sigue:

(MAE21)         

Utilizaremos los conceptos que hasta ahora hemos introducido para establecer el siguiente teorema:

Teorema MAE14. Si con n denotamos el tamaño de la muestra total en un muestreo estratificado simple de poblaciones finitas binarias, es decir, , y si wj es la fracción de observaciones asignadas al estrato j, es decir, , entonces, para un nivel de confianza 1 - a y un error de muestreo e tiene lugar:

(MAE22)         

Demostración. Sustituyendo nj por nwj en (MAE21)

                       

Es ahora evidente que despejando n se obtiene la relación (MAE22).      

La discusión sobre cómo determinar wj es igual en contenido a la que hicimos para determinar estos valores en el caso de la estimación de medias mediante muestreo estratificado. Puede proponerse , o , o bien . Pueden proponerse otros valores para wj, cuando se trate de compensar mediante la asignación de tamaños de muestras mayores, a estratos que a la luz de los objetivos del estudio, presenten mayor interés para el mismo. Las expresiones para el tamaño de la muestra correspondientes a las tres primeras propuestas para wj son las siguientes:

Tamaño de la muestra para un Muestreo Estratificado Proporcional o Representativo

Sustituyendo en (MAE22) y recordando que , y que  (ver teorema MAS7), encontramos:

                       

Tamaño de la muestra para un Muestreo Estratificado Óptimo

Sustituyendo en (MAE22) y recordando que , y que , encontramos:

                       

Tamaño de la muestra para un Muestreo Estratificado de Costo Mínimo

Sustituyendo  en (MAE22) y recordando que , y que , encontramos:

                       

En esta expresión cj representa el costo unitario de muestreo en el estrato j, j=1,…,k.

Consideraciones prácticas para la determinación del tamaño de la muestra

Gracias a la expresión (A.4.20), en las tres expresiones anteriores D puede debe sustituida por . A su vez B(a) debe sustituirse por 1.95996278740841, o por 1.96, o definitivamente por 2, para asegurar un nivel de confianza del 95%. La cantidad e depende del nivel de precisión de muestreo deseado.

En todas la expresiones para calcular n, en muestreo estratificado para estimar la proporción p, aparecen las cantidades . Estas cantidades son desconocidas e impiden el cálculo de n si no encontramos un mecanismo para su determinación. Las sugerencias son: a) utilizar en su lugar valores obtenidos en experimentos previos o en una prueba piloto; b) investigar los valores  en estudios similares hechos en los mismos estratos, para variables correlacionadas con la que es motivo de estudio c) Ante la ausencia de información sobre  asumir que todas las proporciones son iguales a 0.5, ya que este valor es el que conduce al valor mayor de la cantidad  asegurando un error de muestreo menor o igual al establecido para el estudio.

Expresiones simplificadas para el cálculo del tamaño de la muestra

Sin riesgo a perder información, las expresiones  y  pueden ser sustituidas por la unidad, conduciendo a las siguientes expresiones para n y nj:

(MAE23)           

para muestreo estratificado proporcional o representativo.

(MAE24)         

para muestreo estratificado óptimo.

(MAE25)         

para muestreo estratificado de costo mínimo.

Finalmente tenemos:

(MAE26)         

Esta expresión es la que se obtiene de (MAE22) al sustituir  por la unidad. Recordemos que de esta expresión se desprenden todas las demás, cuando wj se sustituye por los criterios correspondientes.

En el Teorema MAE4 establecimos . Luego, para determinar el tamaño de la muestra nj del estrato j, j=1,…,k, se recurre a la expresión , donde , o , o  , según se trate de muestreo estratificado proporcional o representativo, muestreo estratificado óptimo o muestreo estratificado de costo mínimo, respectivamente.