viernes, 9 de mayo de 2008

Muestreo y Estadística Descriptiva.

La recopilación y el análisis de datos son fundamentales en el ejercicio de cualquier profesión que se desempeñe para un posterior estudio estadístico.

Al analizar los datos recopilados en experimentos, se descubren los principios que rigen el mundo físico. Adquiridos dichos conocimientos, se pueden diseñar nuevos productos y procesos que funcionen de forma óptima.

Una de las principales dificultades que se encuentra en el análisis de los datos, es que éstos se encuentran sujetos a variaciones aleatorias o incertidumbres.

Una de las herramientas matemáticas para el manejo de datos, es la estadística, la cual se dedica a la recopilación, el análisis y la interpretación de datos con incertidumbre.


Muestreo.

Los métodos estadísticos están basados en la idea de analizar una muestra tomada de una población.

Hay que tener muy en cuenta y en claro, qué significa cada concepto que se trate en la estadística, por lo tanto, hasta aquí, nos pueden asaltar dos preguntas fundamentales, ¿qué es una muestra? Y ¿qué es una población?

  • Una muestra es un subconjunto de una población, que alberga elementos o resultados que realmente se observan.

  • Una población representa la colección completa de elementos o resultados de la información buscada.

Un ejemplo básico, se realiza un experimento sobre la raza humana, por lo tanto, todos los individuos de la especie humana que hay en la Tierra componen la población de nuestro experimento, esto suele ser tedioso la mayoría de veces, ya que a ciencia cierta, no se sabe el número total de humanos que hay en la Tierra, por lo que se toma una muestra que represente a toda la especie humana, por ejemplo a los humanos que residen en España.

En resumen, la población sería toda la especie humana que habita en la Tierra, y la muestra será los seres humanos que residan en España.

Ahora bien, la siguiente pregunta que surge es, ¿la muestra tomada es buena?, es decir, ¿dicha muestra representa a toda la especie humana?

Seguramente no, ya que los seres humanos residentes en España poco tendrán en común, con los residentes en Japón, por ejemplo.

Por lo tanto, las muestras, para que sean satisfactorias, deben de ser aleatorias. Hay distintos tipos de muestreo aleatorio, el básico es el muestreo aleatorio simple.

  • El muestreo aleatorio simple de tamaño n, es una muestra elegida al azar, por lo que cada colección de n elementos de la población tiene la misma probabilidad de formar parte de la muestra.

En algunos casos, es imposible o demasiado difícil extraer una muestra de forma aleatoria. Para éstos, las directrices a seguir es seleccionar los elementos de la muestra por algún método conveniente.

Por ejemplo, imagínese que se ha recibido 100 bloques de hormigón de forma que estén apilados, y se quiere realizar un estudio sobre la resistencia que tiene el bloque de hormigón respecto a un impacto.

Realizar una muestra aleatoria en estos casos puede ser bastante dificultoso, ya que conllevaría a sacar bloques de hormigón del centro y de abajo de la pila donde están los bloques.

Debido a estas dificultades de maniobra, y sabiendo que todos los bloques, a priori, poseen las mismas características, se realiza una muestra de conveniencia, en este caso, realizar la muestra con los 10 primeros bloques de hormigón que están en la pila.

  • Por lo tanto, una muestra de conveniencia es una muestra que no se extrae por un método aleatorio bien definido.

El problema con las muestras de conveniencia es que pueden diferir sistemáticamente de la población.

Por esta razón, tales muestras no se suelen usar, excepto, como se ha visto en el ejemplo anterior, no es viable tomar una muestra aleatoria.

Hay que tener siempre en cuenta que, las muestras aleatorias simples, siempre son diferentes de sus poblaciones en algunos aspectos y en ciertos casos, incluso radicalmente diferentes entre sí.

Dos muestras diferentes de la misma población, también serán diferentes entre sí. A este fenómeno se le llama variación del muestreo.

Un aspecto a tener en cuenta en el muestreo, es si los elementos son independientes.

Por lo tanto, se dice que los elementos en una muestra son independientes si al conocer los valores de algunos de ellos no ayuda a predecir los valores de los otros.

Esta característica es importante sobre todo en poblaciones pequeñas, donde el manejo de los elementos afectan a la población. En cambio, cuando manejamos poblaciones grandes, los elementos pueden tratarse como independientes.

Por lo tanto, los elementos de una muestra aleatoria simple se pueden tratar como independientes en muchos casos que se encuentren en la práctica, excepto cuando la población es finita y la muestra consiste de una parte importante (más del 5%) de la población.

Una vez seleccionada la muestra de la población que queremos realizar el estudio pertinente, se debe proceder a matizar el tipo de experimento a utilizar.
  • Experimento de una muestra: Donde sólo hay una población de interés y se extrae una única muestra de dicha población.

  • Experimento de muestras múltiples: Donde existen dos o más poblaciones de interés y se toma una muestra de cada población.


Otra cosa a tener en cuenta en el estudio estadístico, es el tipo de datos que se estén manejando, los datos pueden ser numérico (cuantitativos) o categóricos (cualitativos).

  • Los datos numéricos (cuantitativos) son los que se le asigna una cantidad numérica a cada elemento de una muestra.

  • Los datos categóricos (cualitativos) son los que se le asigna una categoría a los elementos de una muestra.


Por último, apuntar, que existen otros métodos de muestreo de datos, por ejemplo el muestreo ponderado, el cual se le asigna cierta prioridad a ciertos elementos de la muestra.

Se usa y utiliza el muestreo aleatorio simple, el expuesto en este tema, por ser uno de los más importantes.

Datos Agrupados Y Sin Agrupar.



Usualmente, los caracteres cualitativos poseen pocos valores distintos, por ejemplo el carácter “sexo” sólo toma dos valores: Masculino o Femenino.

Por el contrario, existen caracteres cuantitativos que pueden tomar muchos valores distintos, por ejemplo, el carácter “estatura de una población”, pueden darse hasta 41 valores distintos, pongamos un mínimo de 1.50m y un máximo de 1.90m.

Por ello, es importante, en muestras de muchos elementos, el poder agruparlos.

En lineas generales, el procedimiento para ello, consiste en tomar el intervalo cuyos extremos son los datos más pequeños y más grandes respectivamente, y dividirlo en subintervalos contiguos de igual longitud, llamados clases.

Los datos de la muestra estarán distribuidos dentro de estas clases, pero una cosa a tener en cuenta, que las subdivisiones se deben hacer, para no crear ambigüedades, de tal modo que cada dato distinto, permanezca a una y sólo a una de las clases, es decir, hay que evitar que alguno d ellos puntos de subdivisión coincida con un dato, ya que ello confundiría a confusión con respecto a cual de los intervalos de las dos clases contiguas incluirse.

En la práctica, los extremos del intervalo que contiene todos los datos, no tiene por qué coincidir con el menor y el mayor de los datos.

La metodología para agrupar los datos será la siguiente:

Primero es realizar la subdivisión, se debe comenzar completando la parte decimal de los datos con ceros (si ello fuese necesario), con objeto de que todos tengan la misma longitud.

Definimos los términos que se usará para la agrupación de datos:

· d El número de cifras decimales una vez completadas.

· a y b Los extremos del intervalo.

· p El número de clases en que se desea agrupar los datos.


Por lo tanto, la longitud de cada clase vendrá dada por la expresión siguiente:



El número h debe redondearse hasta la d-ésima cifra decimal, resultando un nuevo valor h'. Con ello, se logra que los puntos de subdivisión:


a, a+h', a+2·h', ..., a+(p-1)·h', a+p·h'


tengan el mismo número, d, de cifras decimales que los datos, pero entonces, puede darse el caso de que alguno de estos puntos coincida con un dato.


Para evitar este inconveniente, tomamos como extremos de la clase i-ésima, los puntos:


a+i', a+(i+1)·h'-10-d, i = 0, 1, 2, 3, ..., p-1


Una vez agrupados los datos en clases, éstos pierden su individualidad. La única información que se tiene después del agrupamiento es el número de clases, los extremos de las mismas y el número de datos de cada una.


Es conveniente para determinados cálculos, tener un número que de alguna forma caracterice a cada clase. Así, si son lk y lk+1 los extremos de la k-ésima clase, se llama representante o marca a dicho número, que se define de la siguiente forma:



Es de tener en cuenta, que el representante de una clase no tiene por qué coincidir con un dato de la muestra.


Distribuciones de Frecuencias.


Supongamos que al recoger datos relativos a un determinado carácter en una muestra de tamaño N, hemos obtenido valores:



de los cuales sólo son distintos:



Admitamos que por ser n pequeño, no se ha juzgado oportuno agrupar los datos en clases.


Por lo tanto, se llama: Frecuencia absoluta, fi, al número de veces que aparece el dato xi.


Frecuencia relativa:

Frecuencia absoluta acumulada:

Frecuencia relativa acumulada:


Caso de que por ser n grande (y naturalmente, por tratarse de un carácter cuantitativo), se haya optado por agrupar los datos en p clases.
A continuación, se disponen de una colección de problemas resueltos.

Problemas: Muestreo y Estadística Descriptiva.
Problema 1
Problema 2
Problema 3
Problema 4
Problema 5
Problema 6
Problema 7

7 comentarios:

Anónimo dijo...

Hola:Muy buen blog,me encanta, estoy tratando de realizar mi tarea, estuve revisando los ejercicios de esta seccion del blog, y guiarme de algun ejemplo para encontrar la mediana, pero revise los 7 ejercicios que tienen esta seccion,pero en ninguno de ellos me permite ver la imagen de las operaciones realizadas para resolver los ejercicios,me podrian ayudar a resolver este ejercicio o verificar que sucede con las imagenes de las operaciones realizadas en los ejercicios que tienen, para poder revisarlos y guiarme de ellos para resolver mi ejercicio,les comento mi ejercicio:Dada la distribución del número de hermanos de universitarios de la UCA: nº hermanos:


ni
0 1.230
1 5.638
2 2.728
3 2.766
4 840
5 398
6 o más 136


La mediana es:
a. 1,5 hermanos.
b. 2 hermanos.
c. 1 hermano.
d. Ninguna de las anteriores

Gracias de antemano.

Danilo S.

Anónimo dijo...

Hola Soy Danilo de nuevo, los datos se juntaron al enviar los msjes,los datos son:

0
1
2
3
4
5
6 o más


ni respectivamente para los anteriores:
1.230
5.638
2.728
2.766
840
398
136
Gracias.

Unknown dijo...

Buenas Danilo:

Efectivamente, tenemos problemas con las expresiones matemáticas de este capítulo, lo vamos a solucionar, bueno más bien, lo vamos a reestructurar completamente y darle un enfoque más práctico.

Con respecto a tu ejercicio (variables discretas no agrupadas), debes hallar Ni, una vez que lo tengas, debes seguir los siguientes pasos:

· Obtener: N/2, dónde N = Σni = 13736
· Si existe un valor de Xi que cumpla lo siguiente:

Ni-1 < N/2 < Ni

Entonces, se toma cómo mediana: Me = xi.

· Pero en el caso que Ni = N/2, entonces se toma cómo mediana: Me = (xi + xi+1)/2

Explicarlo por aquí resulta algo tedioso, pero es fácil de obtener.

Te agradezco que me informes sobre los fallos que tenemos en el blog, te pido disculpas y pronto intentaremos darle una solución.

Lo dicho, gracias por tu comentario.

Anónimo dijo...

Hola, al entrar a los problemas resueltos me aparecen las soluciones con fallo de imagen, no se si es problema de mi conexión o le pasa a todos, pero no se ve. Agradecería que lo comprobaran, porque se trata de un muy buen material.

Saludos

Unknown dijo...

Buenas:

Es fallo del servidor donde están alojadas las imágenes, que hace tiempo nos hicieron la gracia (más bien puñeta) de borrar todos los archivos.

Imagínate, ningún apartado se podía ver en condiciones, tuvimos que rehacerlas nuevamente.

Y es cierto, este es el apartado que nos queda, tengo que reconocer, que es el que más tenemos olvidado dentro del curso de Estadística, ya que queremos rehacerlo y darle una estructura nueva.

Espero que a finales de este mes, o principios del que viene, esté al menos, los problemas restaurados.

Un saludo y gracias por tu comentario y apreciación.

Anónimo dijo...

Entonse pa los desimale es iwa q con los numero normale sumano?

Anónimo dijo...

Buenas Manuel, antes que nada enhorabuena por su blog, nos sirve de gran ayuda. Estuve viendo ejercicio por ejercicio de los que tiene subidos pero no encuentro nada parecido a este, muchas gracias por su ayuda.

El número de vehículos que toma una determinada salida de cierta autopista sigue una distribución de Poisson. Se sabe que en un periodo de 2 minutos el numero medio de coches que toma dicha salida es 3.

i) Calcule la probabilidad de que tomen dicha salida 6 o más vehículos durante un periodo de 4 minutos.

ii) Observamos que en cierto momento un automóvil abandona la autopista por la salida en cuestión. ¿Cuál es la probabilidad de que transcurra un minuto sin que ningún otro coche tome la salida?