sábado, 25 de abril de 2009

R: Diagrama de Tallo y Hoja

Este capítulo tratará sobre el diseño de diagramas de tallos y hojas mediante el software matemático R.

Este gráfico fue propuesto por Tukey y a pesar de no ser un gráfico para presentación definitiva, se utiliza a la vez que el analista recoge la información, ya que ve la distribución de los mismos.

Estos gráficos son fáciles de realizar a mano y se usan como una forma rápida y no pulida de mirar los datos, y son capaces de ofrecer información de interés del tipo:

  • El centro de la distribución.
  • La forma general de la distribución. Simétrica: Si las porciones a cada lado del centro son imágenes espejos de las otras. Sesgada a la izquierda: Si la cola izquierda (los valores menores) es mucho más larga que los de la derecha (los valores mayores). Sesgada a la derecha: Opuesto a la sesgada a la izquierda.
  • Desviaciones marcadas de la forma global de la distribución. Outliers: Observaciones individuales que caen muy por fuera del patrón general de los datos. Gaps: Huecos en la distribución.

La principal ventaja de este tipo de gráficos es:
  • Muy fácil de realizar y puede hacerse a manos.

Y las desventajas son:
  • El gráfico es tosco y no sirve para presentaciones definitivas.
  • Funciona cuando el número de observaciones no es muy grande.
  • No permite comparar claramente diferentes poblaciones

El software matemático, R, dispone, para la realización de diagramas de tallos y hojas, de una función llamada: stem() y como decía un famoso científico, "el movimiento se demuestra andando", usaremos un ejemplo de aplicación para demostrar como se debe emplear dicha función.

El ejemplo contempla los datos de un estudio del tipo de sedimentos existente en perforaciones en mar abierto:

Cemento (%)
10211212
20132436
31
18
17
16
37
16
32
13
14
49
25
19
13
32
27


Guardaremos dichos elementos en la variable datos mediante la función scan():

> datos <- scan()

1: 10 21 12 12
5: 20 13 24 36
9: 31 18 17 16
13: 37 16 32 13
17: 14 49 25 19
21: 13 32 27
24:

Y directamente, usaremos la función stem() para crear el diagrama de tallo y hoja:

> stem(datos)

The decimal point is 1 digit(s) to the right of the |

1 | 022333466789
2 | 01457
3 | 12267
4 | 9

Por supuesto, y como es habitual en las funciones definidas en R, se pueden configurar mediante sus argumentos, que se muestran a continuación:
  • x: Vector numérico que albergará los datos iniciales para el estudio.
  • scale: Ampliar la escala del diagrama de tallo y hoja, por defecto es 1, es decir, genera un diagrama individual, para cada elemento, de tallo y hoja.
  • width: Anchura deseada del gráfico.
  • atom: Marca una tolerancia.

Por ejemplo, si queremos generar un diagrama de doble tallo y hoja del los datos anteriores:

> stem(datos,2)

The decimal point is 1 digit(s) to the right of the |

1 | 0223334
1 | 66789
2 | 014
2 | 57
3 | 122
3 | 67
4 |
4 | 9

También, podemos imponer la anchura máxima por elemento del diagrama de tallo y hoja mediante el argumento width, por ejemplo, si, en el ejemplo anterior, sólo queremos una anchura de tres elementos:

> stem(datos,width = 3)

The decimal point is 1 digit(s) to the right of the |

1 | +9
2 | +2
3 | +2
4 |

Podemos observar que el diagrama nos muestra la cantidad de datos sobrantes por la imposición de una anchura de tres elementos.
Una función, ya definida en R, muy útil para la comprensión de cómo realiza este software, el diagrama de tallo y hoja, es: summary(), que nos muestra los estadísticos típicos de los datos empleados, siguiendo con el ejemplo del capítulo:

> summary(datos)
....Min....1st Qu...Median.. Mean.. 3rd Qu... Max.
..10.00...13.50......19.00.....22.04....29.00....49.00

Y por supuesto, se recomienda que se emplee la ayuda para obtener más información sobre las funciones aquí expuestas.

> ?"stem"

En definitiva, aunque este tipo de gráficos no son muy habituales con datos grandes, son bastante útiles, por su información visual directa, en muestras pequeñas.

0 comentarios: