martes, 26 de mayo de 2009

Problema1: Análisis de Regresión

Ej1. Se realiza un estudio para investigar la relación que existe entre la resistencia a la compresión x y la permeabilidad intrínseca y de varias mezclas y tratamientos de cemento. El resumen de unidades es el siguiente:

·


·

·

·

·

· n = 14

Suponiendo que las dos variables están relacionadas de acuerdo con el modelo de regresión lineal simple, determinar:

a) Calcula las estimaciones de mínimos cuadrados de la pendiente y la ordenada en el origen.

b) Utiliza la ecuación de la recta ajustada para predecir la permeabilidad que será observaba cuando la resistencia a la compresión sea x = 4.3.

c) Si el valor observado de la permeabilidad para x = 3.7 es y = 46.1, calcula el valor del residuo correspondiente.

d) Estima
σ2 y la desviación típica de β1.

e) Prueba si es significativa la regresión usando un nivel de significación de 0.05. Acota el p-valor de la prueba, ¿puede concluirse que el modelo especifica una relación lineal entre las dos variables?

f) En este modelo, ¿cuál es el error estándar de la ordenada en el origen?


Apartado a)

Para calcular la pendiente, la expresión matemática es:



Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

·

·

Por lo tanto, la pendiente es:



Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:



Sustituimos valores:



Por lo tanto, la ecuación de regresión ajustada es:

y(x) = 48.012963 - 2.329802·x

Siendo:

· y ≡ Permeabilidad intrínseca.
· x ≡ Resistencia a la compresión.


Apartado b)

Para predecir la permeabilidad, se emplea la ecuación de la recta:

y(4.3) = 48.012963 - 2.329802 · 4.3 = 37.994814


Apartado c)

Para obtener el residuo, nos dan el valor real de la permeabilidad intrínseca para una resistencia de compresión determinada, lo que debemos hacer es, restar la real con la que obtenemos con la ecuación de regresión ajustada:

Residuo ≡ 46.1 - (48.012963 - 2.329802 · 3.7) = 6.707304


Apartado d)

Para estimar la varianza, empleamos su expresión matemática:



Siendo:



Debemos obtener Syy:

·

Por lo tanto:



Ya tenemos todos los datos necesarios para estimar la varianza:



Para obtener la desviación típica del estimador de la pendiente:




Apartado e)

Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:



El estadístico es:



Obtenemos el valor del estadístico:



Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.05/2, 14 -2 = t0.025, 12 = 2.1788

Comprobamos el valor del estadístico con la región crítica:


Se cumple la condición de la región crítica, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 8.639047) ≈ 2 · P(T > 8.6391)

Buscamos en las tablas de la t-Student con 14-2 = 12 grados de libertad, no encontramos el valor exacto, pero el valor más alto cercano al 8.6391 de las tablas corresponde a un área de cola de 0.0005, por lo tanto:

p-valor = 2 · P(T > 8.6391) = 2 · 0.0005 = 0.0010

Hay que tener en cuenta que las tablas de la t-Student que dispone Aqueronte, albergan un área de cola desde 0.4500 hasta 0.0005, el valor para determinar el p-valor es, aproximadamente, 8.6391.

Si buscamos, con 12 grados de libertad, en las tablas t-Student, no encontramos un valor exacto ni superior, sólo un nivel inferior, que corresponde al área de cola: 0.0005.

Por lo tanto, el área de cola será menor que 0.0005, el p-valor corresponderá:

p-valor < . 0.0010

Al ser el nivel de significación del problema,
α = 0.05, mayor que el p-valor, rechazamos la hipótesis nula.

Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.


Apartado f)

El error estándar en el origen se obtiene mediante la siguiente expresión matemática:



Sustituimos valores y obtenemos la solución a este apartado:


2 comentarios:

Anónimo dijo...

Buenas.
No entiendo porqué en el apartado e, a la hora del calcular el p-valor decimos que existen dos regiones críticas, en este caso solo existiría una region crítica ¿no?

AqueronteBlog dijo...

Buenas:

Existen dos regiones críticas ya que el estadístico está en valor absoluto:

· P(T > |t|)

Esto quiere decir

· |t|= ± t


Un saludo.