miércoles, 27 de mayo de 2009

Problema5: Análisis de Regresión

Ej5. Los datos siguientes, proporcionan el contenido de x de agua de nieve al 1 de Abril, y la afluencia y (en pulgadas) de Abril a Junio en la cuenca de cierto río de EEUU:

x..
23.10.24.00.24.20.
25.10.
30.40.
30.50.
31.80.
32.00.
32.80.
37.90.
39.50.
52.50
y
10.5010.50
12.40
12.90
16.30
14.10
18.20
17.00
16.70
22.80
23.10
24.90

a) Ajusta un modelo de regresión lineal simple.

b) Prueba si la regresión es significativa con un nivel de significación de 0.05.

c) Prueba la hipótesis H0: β0 = 0 frente a H1: β0 ≠ 0, con α = 0.05.


Antes de empezar a resolver los apartados propuestos, hacemos una recopilación de datos que podemos extraer de la tabla dada, ya que posteriormente serán de gran utilidad.

· n = 12

·

·

·

·

·


Apartado a)

Para calcular la pendiente, la expresión matemática es:



Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

·

·

Por lo tanto, la pendiente es:



Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:



Sustituimos valores:



Por lo tanto, la ecuación de regresión ajustada es:

y(x) = - 0.899358 + 0.547661·x

Siendo:

· y ≡ El contenido de agua de nieve al 1 de Abril en la cuenca de cierto río de EEUU.
· x ≡ La afluencia, en pulgadas, de Abril a Junio en la cuenca de cierto río de EEUU.


Apartado b)

Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:



El estadístico es:



Debemos obtener el valor del estimador de la desviación estándar:



Siendo:



Debemos obtener Syy:

·

Ya tenemos todos los datos necesarios para estimar la varianza:



Obtenemos el valor del estadístico:



Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.05/2, 12 -2 = t0.025, 10 = 2.2281

Comprobamos el valor del estadístico con la región crítica:


Se cumple la condición de la región crítica, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 8.244137) ≈ 2 · P(T > 8.2441)

Buscamos en las tablas de la t-Student con 12-2 = 10 grados de libertad, no encontramos el valor exacto, pero el valor más alto cercano al 8.2441 de las tablas corresponde a un área de cola de 0.0005, por lo tanto:

p-valor = 2 · P(T > 8.2441) = 2 · 0.0005 = 0.0010

Hay que tener en cuenta que las tablas de la t-Student que dispone Aqueronte, albergan un área de cola desde 0.4500 hasta 0.0005, el valor para determinar el p-valor es, aproximadamente, 8.2441.

Si buscamos, con 10 grados de libertad, en las tablas t-Student, no encontramos un valor exacto ni superior, sólo un nivel inferior, que corresponde al área de cola: 0.0005.

Por lo tanto, el área de cola será menor que 0.0005, el p-valor corresponderá:

p-valor < . 0.0010

Al ser el nivel de significación del problema,
α = 0.05, mayor que el p-valor, rechazamos la hipótesis nula.

Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.



Apartado c)

En este apartado nos piden realizar una prueba de hipótesis a la ordenada en el origen. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:



El estadístico es:



Obtenemos el valor del estadístico:



Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.05/2, 12 -2 = t0.025, 10 = 2.2281

Comprobamos el valor del estadístico con la región crítica:


No se cumple la condición de la región crítica, por lo tanto, aceptamos la hipótesis nula.

Esto quiere decir que, existen evidencias significativas que la ordenada en el origen sea cero.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 0.410636) ≈ 2 · P(T > 0.4106)

Buscamos en las tablas de la t-Student con 10 grados de libertad, no encontramos el valor exacto, pero está dentro del los valores: 0.3966 < . 0.4106 < . 0.5415, cuya área de cola corresponde a: 0.3 < . α < . 0.35.

Teniendo en cuenta que existen dos áreas de cola, el p-valor estará comprendido entre los valores:

0.6 < . p-valor < . 0.7

Podemos dar un valor aproximado del p-valor realizando una interpolación lineal:

..0.35.......T............0.3
0.3966..0.4106....0.5415

De donde:

0.35 - 0.3.-> 0.3966 - 0.5415
0.35 - T.-> 0.3966 - 0.4106

Calculamos:



Por lo tanto, el p-valor es:

p-valor = 2 · P(T > 0.4106) = 2 · 0.3451690.690338

Al ser el nivel de significación del problema, α = 0.05, menor que el p-valor, aceptamos la hipótesis nula.

Aceptar la hipótesis nula quiere decir que existen evidencias significativas de que la ordenada sea cero.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis nula, es decir, que existe evidencias significativas que la ordenada en el origen sea cero.

3 comentarios:

danyboy dijo...

¡¡¡hey que buen blog!!!

Manuel Caballero dijo...

Buenas:

Muchísimas gracias por tu comentario, un saludo.

Jorge Elias Saldarriaga dijo...

Te felicito. Excelente trabajo.