martes, 19 de mayo de 2009

R: Distribución Hipergeométrica

En este apartado, se explicarán las funciones existentes en R para obtener resultados válidos que se basen en la distribución Hipergeométrica de variables aleatorias discretas.

Ya que aquí sólo se expondrá cómo es el manejo de las funciones, se recomienda que se visite el capítulo: Variables Aleatorias Discretas y Distribuciones de Probabilidad, para determinar en qué consiste dicha distribución.

Para obtener valores que se basen en la distribución Hipergeométrica, R, dispone de cuatro funciones:

R: Distribución Hipergeométrica.
dhyper(x, m, n, k, log = F)Devuelve resultados de la función de densidad.
phyper(q, m, n, k, lower.tail = T, log.p = F)Devuelve resultados de la función de distribución acumulada.
qhyper(p, m, n, k, lower.tail = T, log.p = F)Devuelve resultados de los cuantiles de la Hipergeométrica.
rhyper(nn, m, n, k)Devuelve un vector de valores de la Hipergeométrica aleatorios.


Los argumentos que podemos pasar a las funciones expuestas en la anterior tabla, son:
  • x, q: Vector de cuantiles. Corresponde al número de particulares en la muestra.
  • m: Selección aleatoria particular.
  • n: El número total de la población menos la selección aleatoria particular. n = N - m.
  • n: El número de la selección a evaluar.
  • prob: Probabilidad.
  • nn: Número de observaciones.
  • log, log.p: Parámetro booleano, si es TRUE, las probabilidades p son devueltas como log (p).
  • lower.tail: Parámetro booleano, si es TRUE (por defecto), las probabilidades son P[X ≤ x], de lo contrario, P [X > x].

Para comprobar el funcionamiento de estas funciones, usaremos dos ejemplos de aplicación.

Imaginemos el siguiente problema: De un grupo de 20 ingenieros con doctorado, se eligen 10 aleatoriamente con el fin de contratarlos.

¿Cuál es la probabilidad de que entre los 10 seleccionados, estén los 5 mejores del grupo de 20?


Sea la variable aleatoria discreta X, mejores ingenieros de un grupo.

Dicha variable aleatoria, sigue una distribución Hipergeométrica con parámetros:

· N = 20. Número total de ingenieros.
· n = 10. Muestra aleatoria de la población total de ingenieros (20 ingenieros).
· r = 5. Conjunto de 5 ingenieros estén los 5 mejores.

Para resolver este apartado, necesitamos resolver: P( X = 5), por lo tanto, sólo necesitamos el valor que toma X en el punto 5 de la función de densidad:

> dhyper(5,10,20-10,5)
[1] 0.01625387

Emplearemos otro problema para practicar más con los argumentos de la distribución Hipergeométrica, Un producto industrial, se envía en lotes de 20 unidades. Se muestrean 5 artículos de cada lote y el rechazo del lote completo si se encuentra más de un artículo defectuoso.

Si un lote contiene 4 artículos defectuosos, ¿cuál es la probabilidad de que sea rechazado?

Sea la variable aleatoria discreta X, número de artículos para que el lote sea rechazado.

Dicha variable aleatoria, sigue una distribución Hipergeométrica con parámetros:

· N = 20. Número total de unidades.
· n = 5. Muestra aleatoria de la población total de cada lote (20 unidades en cada lote).
· r = 4. Artículos defectuosos en un lote.

Para resolver este apartado, necesitamos resolver: P( X > 1), empleamos la función de distribución acumulada indicando que, el área de cola es hacia la derecha:

> phyper(1, 5, 20-5, 4, lower.tail = F)
[1] 0.24871

Para demostrar dicho resultado, operamos sobre la desigualdad:

P( X > 1) = 1 - P(X ≤ 1) = 1 - [P(X = 0) + P(X = 1)]

Por lo tanto:

> 1 - (dhyper(0, 5, 20-5, 4) + dhyper(1, 5, 20-5, 4))
[1] 0.24871


Como hemos podido comprobar, R dispone de varias funciones que satisfacen cualquier cálculo y operación que se desee realizar sobre distribución Hipergeométrica discreta.

Por supuesto, se recomienda que se emplee la ayuda de R para ampliar conocimientos sobre las funciones expuestas en este capítulo.

> ?stats::Hypergeometric

1 comentarios:

Anónimo dijo...

excelente blog