Ej5. Los datos siguientes, proporcionan el contenido de x de agua de nieve al 1 de Abril, y la afluencia y (en pulgadas) de Abril a Junio en la cuenca de cierto río de EEUU:
x..
23.10. 24.00. 24.20.
25.10.
30.40.
30.50.
31.80.
32.00.
32.80.
37.90.
39.50.
52.50
y
10.50 10.50
12.40
12.90
16.30
14.10
18.20
17.00
16.70
22.80
23.10
24.90
a) Ajusta un modelo de regresión lineal simple.
b) Prueba si la regresión es significativa con un nivel de significación de 0.05.
c) Prueba la hipótesis H0: β0 = 0 frente a H1: β0 ≠ 0, con α = 0.05.
Antes de empezar a resolver los apartados propuestos, hacemos una recopilación de datos que podemos extraer de la tabla dada, ya que posteriormente serán de gran utilidad.
· n = 12
·
·
·
·
·
Apartado a)
Para calcular la pendiente, la expresión matemática es:
Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:
·
·
Por lo tanto, la pendiente es:
Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:
Sustituimos valores:
Por lo tanto, la ecuación de regresión ajustada es:
· y ≡ El contenido de agua de nieve al 1 de Abril en la cuenca de cierto río de EEUU.
· x ≡ La afluencia, en pulgadas, de Abril a Junio en la cuenca de cierto río de EEUU.
Apartado b)
Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.
La prueba de hipótesis es:
El estadístico es:
Debemos obtener el valor del estimador de la desviación estándar:
Siendo:
Debemos obtener Syy:
Ya tenemos todos los datos necesarios para estimar la varianza:
Obtenemos el valor del estadístico:
Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:
Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:
Comprobamos el valor del estadístico con la región crítica:
Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.
Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:
Buscamos en las tablas de la t-Student con 12-2 = 10 grados de libertad, no encontramos el valor exacto, pero el valor más alto cercano al 8.2441 de las tablas corresponde a un área de cola de 0.0005, por lo tanto:
Hay que tener en cuenta que las tablas de la t-Student que dispone Aqueronte, albergan un área de cola desde 0.4500 hasta 0.0005, el valor para determinar el p-valor es, aproximadamente, 8.2441.
Si buscamos, con 10 grados de libertad, en las tablas t-Student, no encontramos un valor exacto ni superior, sólo un nivel inferior, que corresponde al área de cola: 0.0005.
Por lo tanto, el área de cola será menor que 0.0005, el p-valor corresponderá:
Al ser el nivel de significación del problema, α = 0.05, mayor que el p-valor, rechazamos la hipótesis nula.
Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.
Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.
Apartado c)
En este apartado nos piden realizar una prueba de hipótesis a la ordenada en el origen. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.
La prueba de hipótesis es:
El estadístico es:
Obtenemos el valor del estadístico:
Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:
Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:
Comprobamos el valor del estadístico con la región crítica:
Esto quiere decir que, existen evidencias significativas que la ordenada en el origen sea cero.
Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:
Buscamos en las tablas de la t-Student con 10 grados de libertad, no encontramos el valor exacto, pero está dentro del los valores: 0.3966 < . 0.4106 < . 0.5415, cuya área de cola corresponde a: 0.3 < . α < . 0.35.
Teniendo en cuenta que existen dos áreas de cola, el p-valor estará comprendido entre los valores:
Podemos dar un valor aproximado del p-valor realizando una interpolación lineal:
..0.35.......T............0.3
0.3966..0.4106....0.5415
De donde:
0.35 - 0.3.-> 0.3966 - 0.5415
0.35 - T.-> 0.3966 - 0.4106
Calculamos:
Por lo tanto, el p-valor es:
Al ser el nivel de significación del problema, α = 0.05, menor que el p-valor, aceptamos la hipótesis nula.
Aceptar la hipótesis nula quiere decir que existen evidencias significativas de que la ordenada sea cero.
Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis nula, es decir, que existe evidencias significativas que la ordenada en el origen sea cero.
3 comentarios:
¡¡¡hey que buen blog!!!
Buenas:
Muchísimas gracias por tu comentario, un saludo.
Te felicito. Excelente trabajo.
Publicar un comentario