Introducción
Por:
Dr. Luis Antonio Pérez González
Instituto Tecnológico de Orizaba - ipac
La teoría de la probabilidad y estadística cobra
relevancia cuando nos ayuda a descubrir aspectos del mundo que nos rodea; cuando
nos ayuda responder preguntas; cuando nos auxilia a evaluar los riesgos de generalizar
a partir de un conjunto de observaciones. Esta es la esencia de la práctica de
la estadística: hacer afirmaciones probabilísticas sobre las características de
un conjunto de elementos con base en la información que podamos obtener sobre
una parte de él. Denotemos con C dicho conjunto. En el marco del tema que nos
ocupa, dicho conjunto será llamado población.
Los elementos de C pueden ser personas u objetos pero serán llamados, para
generalizar, unidades. C puede ser
finito o infinito, es decir, la población puede ser finita o infinita. Si C es
finito, denotaremos con N al número de unidades en C, es decir:
La cantidad de unidades
de C es llamada tamaño de la población.
Estudiaremos los aspectos relacionados con la extracción de elementos de C. A
este proceso le llamaremos muestreo,
y a las unidades extraídas les llamaremos muestra.
La cantidad de unidades en la muestra es llamada tamaño de la muestra. Diremos que el muestreo es con reemplazo
si una vez que una unidad ha sido seleccionada, ésta se devuelve a C o se le
reemplaza por otra igual, de manera que tiene posibilidad de volver a ser
elegida en una extracción subsecuente. Si la unidad
no es regresada a C ni reemplazada por otro igual, entonces diremos que el muestreo es sin reemplazo. Nos ocuparemos a continuación sólo del Muestreo sin Reemplazo de Poblaciones
Finitas.
Proposición MAS1.
El cardinal del espacio muestral
asociado a un muestreo
sin reemplazo de una población finita C de tamaño N, con muestras de tamaño n, está
dado por
![]()
Demostración. De
la población C se extraen n unidades diferentes (porque al ser el muestreo sin reemplazo, una unidad una vez que se
extrajo ya no puede volver a aparecer en la muestra). De aquí resulta que el
espacio muestral
consiste de todos los
subconjuntos de C con n unidades, es decir:
![]()
Los elementos de w son eneadas
de unidades de C en donde no importa el orden de selección, es decir, n unidades
de C conforman w sin importar el orden en que hayan aparecido. Con los n unidades
de cualquier w de
podemos formar n! eneadas en las que sí importa el orden, es decir, al
multiplicar n! por el cardinal de omega (i.e.
) obtenemos el total de eneadas
extraídas de C en donde sí importa el orden de extracción. El total de eneadas extraídas de C en donde sí importa el orden puede también formarse como sigue. Una primera
unidad de de este tipo de eneadas puede ser elegida
de N formas distintas. Puesto que no hay reemplazo, la segunda unidad pude ser
elegida de (N-1) formas, es decir, tenemos N(N-1) maneras distintas de
seleccionar las dos primeras unidades. Continuando con esta lógica calculamos
N(N-1)(N-2) formas distintas de seleccionar las
primeras 3 unidades de una eneada ordenada. Al llegar
al n-ésimo elemento habremos navegado entre N(N-1)(N-2)…(N-n+1) maneras distintas de
seleccionar las n unidades en donde el orden de extracción es importante. Igualando
a esta cantidad tenemos:
![]()
![]()
![]()
Despejando
obtenemos:
■
Observación.
Sea C una población finita cuyas unidades presentan sólo una característica,
entendiendo por esto que a la unidad h-ésima de C le
corresponde un solo valor ah.
Extraigamos, con o sin reemplazo, n unidades de C. Sean X1, X2, …, Xn, los valores de interés
para nuestro estudio, tomados, respectivamente, por cada una de esas unidades. En términos estadísticos
podemos referirnos a las Xi como variables aleatorias y podemos elucubrar
sobre el rango de valores al que pertenece Xi calculando probabilidades bajo
supuestos adecuados a la situación en cuestión. Estas variables aleatorias
pueden o no ser independientes. Cuando el muestreo es sin reemplazo no lo son. En
efecto, en tal caso el valor que tome, por ejemplo, X2, dependerá probabilísticamente
del valor que haya tomado X1.
Ilustremos esto con un ejemplo trivial en una población finita de tamaño 4. Si
la población está formada por el conjunto {Juan, Pedro, Pablo, María} la
probabilidad de que sea Pedro el elegido en la primera extracción es ¼. Pero la
probabilidad de que sea Pedro elegido en la segunda extracción dependerá del
resultado de la primera extracción. Si en la Primera fue Pedro el elegido, al
ser el muestreo sin reemplazo la probabilidad de que sea vuelto a elegir en la
segunda es cero; en caso contrario, la probabilidad de que sea elegido en la
segunda es un tercio, porque una vez realizada la primera extracción sólo
quedan tres opciones para ser elegido en la segunda. ■
Definición MAS1.
El muestreo aleatorio simple
(también llamado muestreo irrestricto
aleatorio) es un método de muestreo de n unidades en donde cada una de las
muestras distintas tiene la misma oportunidad de ser elegida.
Una muestra obtenida mediante este proceso es llamada muestra irrestricta aleatoria. ■
En lo que sigue utilizaremos de manera indistinta el término muestra, para referirnos tanto para las n unidades que resultan del muestreo, como a los valores o mediciones X1, X2, …, Xn asociados a ellas.
Una pregunta normal que nos hacemos es cómo asegurar en la práctica que una muestra que seleccionemos es aleatoria. Primero veamos dos que no lo son. La primera es aquella en la que recurrimos a nuestro criterio para seleccionar “aleatoriamente” a las unidades de la muestra. Una segunda es que seleccionemos una muestra que, de acuerdo a nuestra experiencia, es “representativa”. En ambos casos habremos introducido un sesgo. En ninguno habremos obtenido realmente una muestra aleatoria.
Una muestra irrestricta aleatoria la podríamos obtener si a cada unidad de la población le asignáramos una etiqueta distinta para ponerlas en una urna. La muestra irrestricta aleatoria se obtendría al revolver las etiquetas y seleccionar, posteriormente, una a una, sin reemplazo, las etiquetas de las unidades que pasarían a formar parte de la muestra. Puesto que este método puede ser impráctico, sobre todo si la población es muy grande, lo que se recomienda es apoyarse en números pseudoaleatorios, generados en una computadora, como sigue: con apoyo de un paquete de cómputo estadístico o de una hoja de cálculo, se crean dos columnas, una para las etiqueta de las unidades de la población, y otra para asociar a cada etiqueta un número aleatoriamente seleccionado entre 0 y 1. Se ordenan luego las dos columnas, tomando como referencia para el ordenamiento, a los números pseudoaleatorios. Las unidades correspondientes a las primeras n etiquetas son las que pasan a formar parte de la muestra.
Los procesos de muestreo se hacen necesarios en la práctica para conocer aspectos de la población sin tener que estudiar a todas sus unidades. Los censos son caros y algunas veces prácticamente imposibles aún cuando el tamaño de la población sea pequeño. Suponga por ejemplo que desea determinar si los ladrillos para la construcción de una obra poseen la resistencia requerida. Para ver si un ladrillo tiene o no dicha resistencia es necesario someterlo a una prueba destructiva. Si para lograr nuestro propósito tuviésemos que probar todos los ladrillos, nos quedaríamos sin construcción. La recomendación es tomar una muestra de ladrillos, probarlos, y con base en los resultados de estas pruebas inferir si el resto están en condiciones de ser utilizados.
El proceso de extender las propiedades encontradas en una muestra, al resto de la población, es llamado inferencia. Veremos más adelante que las inferencias serán mejores en la medida en que el tamaño de la muestra es mayor, pero que no se requieren muestras demasiado grandes para lograr buenas inferencias.
La característica de la población que pretendemos
investigar puede ser una media, como cuando tratamos de estimar la resistencia
media de los ladrillos, o una proporción, cuando el propósito del estudio es
estimar la proporción de votantes que estarían dispuestos a votar por
determinado partido político en una elección especificada.