Estimación de la
media poblacional
Por:
Dr. Luis Antonio Pérez González
Instituto Tecnológico de Orizaba - ipac
Contenido
Selección del
tamaño de la muestra
Consideraciones
prácticas para la determinación del tamaño de la muestra
Definición MAS2. Sea C una población finita cuyas unidades presentan sólo una característica, entendiendo por esto que a la unidad h-ésima de C le corresponde un solo valor ah. Sea X1, X2, …, Xn, una muestra aleatoria simple sin reemplazo extraída de C. (Es claro que si C es finita de tamaño N, entonces n < N). Consideremos las notaciones siguientes:

En las anteriores notaciones
y s2
serán llamadas, respectivamente, media muestral (o promedio)
y varianza muestral.
s será llamada desviación
estándar muestral. ■
Teorema MAS1. Sea X1, X2, …, Xn, n < N, una muestra aleatoria simple sin reemplazo extraída de la población finita A de tamaño N. Entonces:
(MAS1) ![]()
Demostración. Puesto que el muestreo es aleatorio, en cada extracción los miembros que quedan en la población tienen la misma probabilidad de ser extraídos. Tenemos así:
(MAS2)
Considerando este resultado obtenemos, para todo i, i=1,…,n:
![]()
■
Definición MAS3.
En lo que sigue llamaremos a
, media poblacional,
y la denotaremos con µ. Llamaremos a
varianza poblacional,
y la denotaremos con s2. La desviación estándar poblacional será denotada con
s. Tenemos
así, cuando la población es finita de tamaño N:
■
Teorema MAS2. En un muestreo aleatorio simple sin reemplazo con una sóla característica, de una población finita la media aritmética muestral es un estimador insesgado (no desplazado) de la media poblacional µ, es decir:
![]()
Demostración. Tenemos:
■
Teorema MAS3. En un muestreo aleatorio simple sin reemplazo con una sola característica, de una población finita de tamaño N, la varianza de la media aritmética muestral admite la expresión:
![]()
Demostración. Tenemos:
(MAS3)
Por otra parte:
(MAS4)
Pero
(MAS5)
Sustituyendo este resultado en (MAS4) obtenemos:


Regresando a (MAS3) deducimos que:

■
Corolario: Si
![]()
entonces
(MAS6)
Demostración. Tenemos:
![]()
■
Teorema MAS4. Se cumplen las siguientes tres propiedades:
(MAS7) 
La primera de estas expresiones nos dice que la varianza muestral sobreestima ligeramente a la varianza poblacional,
y que dicha sobreestimación desaparece conforme el tamaño de la población
aumenta. La segunda nos dice que si bien la varianza muestral
no es un estimador insesgado de la varianza
poblacional, sí lo es de
. La tercera expresión nos dice cómo construir, a partir de
la varianza muestral, un estimador insesgado para la varianza de la media muestral.
Nos dice también que cuando la población es muy grande con respecto al tamaño
de la muestra, s2/n
tiende a ser un estimador insesgado de la varianza de
Demostración. Tenemos:
![]()
![]()

Con esto queda probada la primera de las relaciones. La
segunda relación resulta inmediata si observamos que:
![]()
La tercera y última expresión se hace evidente como sigue:
■
En nuestro propósito de estimar la media poblacional µ es
que hemos supuesto la extracción de la muestra aleatoria simple sin reemplazo X2, …, Xn.
Pero esta muestra lo que nos produce es
, y
no es µ. Nos gustaría que fuera µ, pero lo más que podemos
exigir es que no se aleje mucho de ella. Aceptaremos
por consiguiente un error de estimación. Denotemos con e a dicho error, al cual llamaremos error de muestreo o error
máximo admisible. e
estará en las mismas unidades que
Declaramos con esto nuestro deseo de que se cumpla el evento
|
|< e.
Asignemos un nivel de confianza a
dicho evento, es decir, asignemos la probabilidad con que deseamos se cumpla el
evento |
|< e. Sea 1 – a
tal nivel de confianza. Esto se resume en la siguiente expresión:
(MAS8) ![]()
La siguiente es una forma equivalente de la expresión anterior:
(MAS9)
Cualquiera que sea la distribución de |
|/
y cualquiera que sea a, a e
[0,1], es posible encontrar una cantidad B tal que
(MAS10)
Podemos calcular la distribución exacta de |
|/
, a partir del comportamiento estadístico de las
observaciones Xi.
Pero para generalizar las aplicaciones que se deriven de lo que hasta ahora
hemos expuesto, confiaremos en el Teorema Central del Límite. Este Teorema nos
permite asumir normalidad de
bajo ciertos supuestos
que son razonablemente satisfechos en la práctica del muestreo. La normalidad
de
conduce a que |
|/
se distribuya N(0,1) por lo que B(a) puede
ser fácilmente calculado. De manera particular, si el nivel de confianza 1 – a es
igual a 0.95, entonces B(a) = 1.95996278740841. Para protegernos
contra un posible alejamiento de la normalidad, utilizaremos, para un nivel de
confianza de 0.95, el valor B(a) = 2.
De las relaciones (MAS9) y (MAS10) resulta que podemos escribir:
De aquí resulta:
(MAS11)
Puesto que tanto a como B(a) son conocidos a partir del error de muestreo y del nivel de confianza aceptados, entonces la expresión (MAS11) puede ser un dato de entrada para el cálculo del tamaño de la muestra. Denotaremos a esta cantidad simplemente con D, es decir:
(MAS12)
Traigamos ahora a nuestra memoria la expresión:
(MAS13)
Estamos ahora en condiciones de probar el siguiente teorema:
Teorema MAS5. Si con n denotamos el tamaño de la muestra en un muestreo simple sin reemplazo de poblaciones finitas, entonces, para un nivel de confianza 1 - a y un error de muestreo e tiene lugar:
(MAS14)
Demostración. Partiendo de la relación (MAS13) encontramos:
![]()
Luego:

Es ahora evidente que despejando n y sustituyendo
por su valor en la
expresión (MAS12), se obtiene la relación (MAS14). ■
Aunque como dijimos en un párrafo anterior, para un nivel de confianza del 95% el valor de B(a) es 1.95996278740841, se acostumbra sustituirlo por 1.96, o definitivamente por 2, para mantener el nivel de confianza del 95% aún frente al posible no cumplimiento del supuesto de normalidad. La posibilidad de no cumplimiento de este supuesto se debe a que si el valor de n no es suficientemente grande, la conclusión del teorema central del límite puede aún no manifestarse.
La cantidad e, por su parte, depende del nivel de precisión de muestreo deseado. Cuanto más pequeño sea, más grande será la precisión, y más grande también será el tamaño de muestra resultante.
En (MAS14) aparece la cantidad
. Esta cantidad es desconocida e impide el cálculo de n si no
encontramos un mecanismo para su determinación. Las sugerencias son: a)
utilizar en su lugar la desviación estándar muestral
obtenida en experimentos previos o en una prueba piloto; b)
investigar sobre el valor máximo esperado y el valor mínimo esperado en cada
estrato, y calcular el rango R (la
diferencia entre el máximo y el mínimo). Del teorema de Tchebysheff
y de lo que sabemos sobre la distribución normal resulta la idea de calcular
mediante la relación:
. c) Ante la ausencia de información sobre
consensuar
(por ejemplo, en un panel de especialistas) sobre el valor máximo esperado y el
valor mínimo esperado en la población. Calcular luego el rango R. Calcular s
mediante la relación
.
En todos los casos, si al calcular la amplitud del intervalo de confianza para el valor estimado de µ (con los datos extraídos de la muestra) se encuentra que ésta es notablemente más amplia que dos veces el error máximo admisible, se procede a recalcular n utilizando los valores s obtenidos, y a realizar más observaciones hasta completar el nuevo valor de n.