Muestreo Aleatorio Simple

Introducción

Por:

Dr. Luis Antonio Pérez González

Instituto Tecnológico de Orizaba - ipac

lperez@ipac.com.mx

 

La teoría de la probabilidad y estadística cobra relevancia cuando nos ayuda a descubrir aspectos del mundo que nos rodea; cuando nos ayuda responder preguntas; cuando nos auxilia a evaluar los riesgos de generalizar a partir de un conjunto de observaciones. Esta es la esencia de la práctica de la estadística: hacer afirmaciones probabilísticas sobre las características de un conjunto de elementos con base en la información que podamos obtener sobre una parte de él. Denotemos con C dicho conjunto. En el marco del tema que nos ocupa, dicho conjunto será llamado población. Los elementos de C pueden ser personas u objetos pero serán llamados, para generalizar, unidades. C puede ser finito o infinito, es decir, la población puede ser finita o infinita. Si C es finito, denotaremos con N al número de unidades en C, es decir:  La cantidad de unidades de C es llamada tamaño de la población. Estudiaremos los aspectos relacionados con la extracción de elementos de C. A este proceso le llamaremos muestreo, y a las unidades extraídas les llamaremos muestra. La cantidad de unidades en la muestra es llamada tamaño de la muestra. Diremos que el muestreo es con reemplazo si una vez que una unidad ha sido seleccionada, ésta se devuelve a C o se le reemplaza por otra igual, de manera que tiene posibilidad de volver a ser elegida en una extracción subsecuente. Si la unidad no es regresada a C ni reemplazada por otro igual, entonces diremos que el muestreo es sin reemplazo. Nos ocuparemos a continuación sólo del Muestreo sin Reemplazo de Poblaciones Finitas.

Proposición MAS1. El cardinal del espacio muestral  asociado a un muestreo sin reemplazo de una población finita C de tamaño N, con muestras de tamaño n, está dado por

           

Demostración. De la población C se extraen n unidades diferentes (porque al ser el muestreo  sin reemplazo, una unidad una vez que se extrajo ya no puede volver a aparecer en la muestra). De aquí resulta que el espacio muestral  consiste de todos los subconjuntos de C con n unidades, es decir:

           

Los elementos de w son eneadas de unidades de C en donde no importa el orden de selección, es decir, n unidades de C conforman w sin importar el orden en que hayan aparecido. Con los n unidades de cualquier w de  podemos formar n! eneadas en las que sí importa el orden, es decir, al multiplicar n! por el cardinal de omega (i.e. ) obtenemos el total de eneadas extraídas de C en donde sí importa el orden de extracción. El total de eneadas extraídas de C en donde sí importa el orden puede también formarse como sigue. Una primera unidad de de este tipo de eneadas puede ser elegida de N formas distintas. Puesto que no hay reemplazo, la segunda unidad pude ser elegida de (N-1) formas, es decir, tenemos N(N-1) maneras distintas de seleccionar las dos primeras unidades. Continuando con esta lógica calculamos N(N-1)(N-2) formas distintas de seleccionar las primeras 3 unidades de una eneada ordenada. Al llegar al n-ésimo elemento habremos navegado entre N(N-1)(N-2)…(N-n+1) maneras distintas de seleccionar las n unidades en donde el orden de extracción es importante. Igualando a esta cantidad tenemos:

           

                       

                       

Despejando  obtenemos:

                     

Observación. Sea C una población finita cuyas unidades presentan sólo una característica, entendiendo por esto que a la unidad h-ésima de C le corresponde un solo valor ah. Extraigamos, con o sin reemplazo, n unidades de C. Sean X1, X2, …, Xn, los valores de interés para nuestro estudio, tomados, respectivamente, por  cada una de esas unidades. En términos estadísticos podemos referirnos a las Xi como variables aleatorias y podemos elucubrar sobre el rango de valores al que pertenece Xi calculando probabilidades bajo supuestos adecuados a la situación en cuestión. Estas variables aleatorias pueden o no ser independientes. Cuando el muestreo es sin reemplazo no lo son. En efecto, en tal caso el valor que tome, por ejemplo, X2, dependerá probabilísticamente del valor que haya tomado X1. Ilustremos esto con un ejemplo trivial en una población finita de tamaño 4. Si la población está formada por el conjunto {Juan, Pedro, Pablo, María} la probabilidad de que sea Pedro el elegido en la primera extracción es ¼. Pero la probabilidad de que sea Pedro elegido en la segunda extracción dependerá del resultado de la primera extracción. Si en la Primera fue Pedro el elegido, al ser el muestreo sin reemplazo la probabilidad de que sea vuelto a elegir en la segunda es cero; en caso contrario, la probabilidad de que sea elegido en la segunda es un tercio, porque una vez realizada la primera extracción sólo quedan tres opciones para ser elegido en la segunda.

Definición MAS1. El muestreo aleatorio simple (también llamado muestreo irrestricto aleatorio) es un método de muestreo de n unidades en donde cada una de las muestras distintas tiene la misma oportunidad de ser elegida. Una muestra obtenida mediante este proceso es llamada muestra irrestricta aleatoria.

En lo que sigue utilizaremos de manera indistinta el término muestra, para referirnos tanto para las n unidades que resultan del muestreo, como a los valores o mediciones X1, X2, …, Xn asociados a ellas.

Una pregunta normal que nos hacemos es cómo asegurar en la práctica que una muestra que seleccionemos es aleatoria. Primero veamos dos que no lo son. La primera es aquella en la que recurrimos a nuestro criterio para seleccionar “aleatoriamente” a las unidades de la muestra. Una segunda es que seleccionemos una muestra que, de acuerdo a nuestra experiencia, es “representativa”. En ambos casos habremos introducido un sesgo. En ninguno habremos obtenido realmente una muestra aleatoria.

Una muestra irrestricta aleatoria la podríamos obtener si a cada unidad de la población le asignáramos una etiqueta distinta para ponerlas en una urna. La muestra irrestricta aleatoria se obtendría al revolver las etiquetas y seleccionar, posteriormente, una a una, sin reemplazo, las etiquetas de las unidades que pasarían a formar parte de la muestra. Puesto que este método puede ser impráctico, sobre todo si la población es muy grande, lo que se recomienda es apoyarse en números pseudoaleatorios, generados en una computadora, como sigue: con apoyo de un paquete de cómputo estadístico o de una hoja de cálculo, se crean dos columnas, una para las etiqueta de las unidades de la población, y otra para asociar a cada etiqueta un número aleatoriamente seleccionado entre 0 y 1. Se ordenan luego las dos columnas, tomando como referencia para el ordenamiento, a los números pseudoaleatorios. Las unidades correspondientes a las primeras n etiquetas son las que pasan a formar parte de la muestra.

Los procesos de muestreo se hacen necesarios en la práctica para conocer aspectos de la población sin tener que estudiar a todas sus unidades. Los censos son caros y algunas veces prácticamente imposibles aún cuando el tamaño de la población sea pequeño. Suponga por ejemplo que desea determinar si los ladrillos para la construcción de una obra poseen la resistencia requerida. Para ver si un ladrillo tiene o no dicha resistencia es necesario someterlo a una prueba destructiva. Si para lograr nuestro propósito tuviésemos que probar todos los ladrillos, nos quedaríamos sin construcción. La recomendación es tomar una muestra de ladrillos, probarlos, y con base en los resultados de estas pruebas inferir si el resto están en condiciones de ser utilizados.

El proceso de extender las propiedades encontradas en una muestra, al resto de la población, es llamado inferencia. Veremos más adelante que las inferencias serán mejores en la medida en que el tamaño de la muestra es mayor, pero que no se requieren muestras demasiado grandes para lograr buenas inferencias.

La característica de la población que pretendemos investigar puede ser una media, como cuando tratamos de estimar la resistencia media de los ladrillos, o una proporción, cuando el propósito del estudio es estimar la proporción de votantes que estarían dispuestos a votar por determinado partido político en una elección especificada.