martes, 26 de mayo de 2009

Problema2: Análisis de Regresión

Ej2. Se emplea la técnica de regresión para analizar datos de un estudio donde se pretende investigar la relación que existe entre la temperatura x de la superficie de una carretera y la deformación y del pavimento. El resumen de las cantidades es el siguiente:

·


·

·

·

·

· n = 20

Determinar:

a) Calcula las estimaciones de mínimos cuadrados de la pendiente y la ordenada en el origen.

b) Predice la deformación del pavimento cuando la temperatura de la superficie sea de 85º.

c)
Estima σ2.

d) Estima los errores estándar de la pendiente y la ordenada en el origen.


e) ¿Qué conclusiones puedes obtener sobre la significación de la regresión si tomamos un nivel de significación de 0.05?


Apartado a)

Para calcular la pendiente, la expresión matemática es:


Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

·

·

Por lo tanto, la pendiente es:


Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:


Sustituimos valores:


Por lo tanto, la ecuación de regresión ajustada es:

y(x) = 0.329989 + 4.161175·10-3·x

Siendo:

· y ≡ Deformación del pavimento.
· x ≡ Temperatura de la superficie de una carretera.


Apartado b)

Para predecir la deformación del pavimento, se emplea la ecuación de la recta:

y(85) = 0.329989 + 4.161175·10-3 · 85 ≈ 0.683689


Apartado c)

Para estimar la varianza, empleamos su expresión matemática:


Siendo:


Debemos obtener Syy:


Por lo tanto:


Ya tenemos todos los datos necesarios para estimar la varianza:



Apartado d)
Para obtener la desviación típica del estimador de la pendiente (error estándar de la pendiente):


El error estándar en el origen se obtiene mediante la siguiente expresión matemática:


Sustituimos valores:



Apartado e)

Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:


El estadístico es:


Obtenemos el valor del estadístico:


Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.05/2, 20 -2 = t0.025, 18 = 2.1009

Comprobamos el valor del estadístico con la región crítica:


Se cumple la condición de la región crítica, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 8.598406) ≈ 2 · P(T > 8.5984)

Buscamos en las tablas de la t-Student con 20-2 = 18 grados de libertad, no encontramos el valor exacto, pero el valor más alto cercano al 8.5984 de las tablas corresponde a un área de cola de 0.0005, por lo tanto:

p-valor = 2 · P(T > 8.5984) = 2 · 0.0005 = 0.0010

Hay que tener en cuenta que las tablas de la t-Student que dispone Aqueronte, albergan un área de cola desde 0.4500 hasta 0.0005, el valor para determinar el p-valor es, aproximadamente, 8.5984.

Si buscamos, con 18 grados de libertad, en las tablas t-Student, no encontramos un valor exacto ni superior, sólo un nivel inferior, que corresponde al área de cola: 0.0005.

Por lo tanto, el área de cola será menor que 0.0005, el p-valor corresponderá:

p-valor < 0.0010

Al ser el nivel de significación del problema,
α = 0.05, mayor que el p-valor, rechazamos la hipótesis nula.

Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.

4 comentarios:

Anónimo dijo...

En el apartado a), la recta de regresión indica que es:
y = 0.329989 - 4.161175.10^-3 . x

Ese menos , ¿no sería un más? Un saludo.

Manuel Caballero dijo...

Buenas:

Efectivamente, sería un +, ya está corregido. Ha sido un error al redactar el ejercicio ya que el siguiente apartado, si te das cuenta, está calculado de manera correcta.

Un saludo y muchas gracias por la corrección.

Anónimo dijo...

Porque decimos que hay 2 colas de probabilidad si solo tenemos una region critica?

Aparte, en que casos aproximamos (el valor del estadistico hallado segun la prueba de hipotesis con la que trabajemos) y en que casos debemos interpolar como haciamos en el tema anterior?

gracias por el blog un saludo

Manuel Caballero dijo...

Buenas:

Tenemos dos regiones críticas ya que si te fijas en la definición de Región Crítica para las Pruebas de Hipótesis sobre los Coeficientes de Regresión, verás que el estadístico es dado en valor absoluto, en otras palabras, éste puede ser positivo o negativo.

Ahora bien, trabajamos con el valor positivo ya que la curva de datos que recoge la distribución t-Student es simétrica, por lo tanto, los datos que podremos obtener en la parte positiva será los mismo que en la parte negativa pero con signo contrario.

Por otro lado, si te fijas en las tablas de t-Student que puedes descargarte de este blog, comprobarás que la dicha curva es simétrica y que en nuestro caso, sólo trabajamos con el semiciclo positivo.

Y con respecto al tema de aproximaciones de datos, simplemente decirte que emplees el método que convenga, es decir, si es para la vida profesional, pues dependiendo de la precisión que quieras obtener puedes usar uno u otro, y si es para aprobar una asignatura, pues el que te digan.

En el tema anterior se ha usado la interpolación de manera más habitual para mostrar otro tipo de aproximación de datos que es útil y sencillo de emplear.


Un saludo.