martes, 26 de mayo de 2009

Problema4: Análisis de Regresión

Ej4. A continuación, se muestran los resultados obtenidos en los exámenes de diez alumnos seleccionados al azar en las asignaturas de Estadística y Cálculo Infinitesimal:


Estadística..6.5.6.9.7.1.7.4.7.5.8.3.8.6.8.8.9.0.9.4
Cálculo Inf.7.27.57.68.28.18.18.08.19.29.5

a) Encuentra la recta de regresión que relaciona las notas de ambas asignaturas.

b) Prueba si la regresión es significativa con un nivel de significación de 0.05.

c) Estima el coeficiente de correlación lineal.


Antes de empezar a resolver los apartados propuestos, hacemos una recopilación de datos que podemos extraer de la tabla dada, ya que posteriormente serán de gran utilidad.

· n = 10

·

·

·

·

·


Apartado a)

Para calcular la pendiente, la expresión matemática es:


Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

·

·

Por lo tanto, la pendiente es:


Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:


Sustituimos valores:


Por lo tanto, la ecuación de regresión ajustada es:

y(x) = 3.306796 + 0.609208·x

Siendo:

· y ≡ Resultado de los exámenes de la asignatura de Cálculo Infinitesimal.
· x ≡ Resultado de los exámenes de la asignatura de Estadística.


Apartado b)

Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:


El estadístico es:


Debemos obtener el valor del estimador de la desviación estándar:


Siendo:



Debemos obtener Syy:

·

Ya tenemos todos los datos necesarios para estimar la varianza:


Obtenemos el valor del estadístico:


Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.05/2, 10 -2 = t0.025, 8 = 2.3060

Comprobamos el valor del estadístico con la región crítica:


Se cumple la condición de la región crítica, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 4.544796) ≈ 2 · P(T > 4.5448)

Buscamos en las tablas de la t-Student con 8 grados de libertad, no encontramos el valor exacto, pero está dentro del los valores: 4.5008 < 4.5448 < 5.0414, cuya área de cola corresponde a: 0.0005 < α < 0.0010.

Teniendo en cuenta que existen dos áreas de cola, el p-valor estará comprendido entre los valores:

0.001 < p-valor < 0.002

Podemos dar un valor aproximado del p-valor realizando una interpolación lineal:

..0.001.......X.......0.0005
4.5008.....4.5448....5.0414

De donde:

0.001 - 0.0005 -> 4.5008 - 5.0414
0.001 - X -> 4.5008 - 4.5448

Calculamos:


Por lo tanto, el p-valor es:

p-valor = 2 · P(T > 4.5448) = 2 · 9.593045·10-40.0019186

Al ser el nivel de significación del problema, α = 0.05, mayor que el p-valor, rechazamos la hipótesis nula.

Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.

Apartado c)

Para obtener el coeficiente de correlación, empleamos su expresión matemática:


Sustituimos valores y obtenemos el resultado del coeficiente de correlación:

4 comentarios:

Anónimo dijo...

Hola bueneas: preguntarte si en la ecuación de regresión ajustada el signo es negativo o positivo.

pd: muy buen blog

Manuel Caballero dijo...

Buenas:

El signo es positivo, estaba mal puesto anteriormente, ya está corregido.

Gracias por el apunte, un saludo.

Anónimo dijo...

Buenas, me gustaría saber por que al hallar el p-valor dices, que tendríamos dos regiones? por que no sería 1?

Manuel Caballero dijo...

Buenas:

Existen dos regiones críticas ya que el indicador de la región crítica es dado en valor absoluto, en este ejercicio es el siguiente:

· |T| > t_(α/2, n-2)

Al ser valor absoluto, tenemos dos regiones criticas de igual valor pero de signo contrario (es por ello que se expresa en valor absoluto).


Un saludo.