jueves, 24 de septiembre de 2009

Poblema15: Análisis de Regresión

Ej15. En un estudio para investigar las propiedades del fosfato sódico como inhibidor de la corrosión del hierro, se introdujeron ejemplares del metal en disoluciones acuosas de fosfato sódico.

En la tabla se muestran los valores de las concentraciones x de fosfato en ppm frente a la medida y de la rapidez de la corrosión:

x..
5.03.7.60.11.60.
19.60.
26.20.
33.00.
40.00.
50.00.
y
6.956.30
5.75
1.43
0.93
0.72
0.68
0.65

a) Ajusta un modelo de regresión lineal simple.

b) Halle el intervalo de confianza del 99% para la media de la rapidez de la corrosión cuando la concentración de fosfato es de 25.00 ppm.

c) Prueba la hipótesis H0: β1 = 0, ¿es significativa la regresión? Utilizad α = 0.01.


Antes de empezar a resolver los apartados propuestos, hacemos una recopilación de datos que podemos extraer de la tabla dada, ya que posteriormente serán de gran utilidad.

· n = 8

·

·

·

·

·


Apartado a)

Para calcular la pendiente, la expresión matemática es:



Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

·

·

Por lo tanto, la pendiente es:



Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:



Sustituimos valores:



Por lo tanto, la ecuación de regresión ajustada es:

y(x) = 6.631943 - 0.153580·x

Siendo:

· y ≡ La rapidez de la corrosión.
· x ≡ Concentraciones de fosfato en ppm..


Apartado b)

En este apartado nos piden obtener un intervalo para la respuesta media, cuya expresión matemática es:



Al 99%, obtenemos α:

100(1 - α) = 99

Despejamos el parámetro que nos interesa: α = 0.01, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.01/2, 8 -2 = t0.005, 6 = 3.7074

Debemos obtener el valor del estimador de la desviación estándar:



Siendo:



Debemos obtener Syy:

·

Ya tenemos todos los datos necesarios para estimar la varianza:



El único dato que nos falta por obtener es el valor del parámetro Y cuando x vale 25.00, para ello, usamos la recta ajustada calculada en el Apartado a):

· Y(25) = 6.631943 - 0.153580·25 = 2.792443.

Sustituimos valores en la expresión del intervalo de confianza para la respuesta media



Por lo tanto, el intervalo de predicción al 99% es,aproximadamente:

[0.790831, 4.794055]


Apartado c)

Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:



El estadístico es:



Disponemos de todos los datos, calculados en apartados anteriores, para obtenemos el valor del estadístico:



Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.01/2, 8 -2 = t0.005, 6 = 3.7074

Comprobamos el valor del estadístico con la región crítica:


Se cumple la condición de la región crítica, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 4.297307)

Buscamos en las tablas de la t-Student con 8-2 = 6 grados de libertad, no encontramos un valor exacto, sólo un intervalo.

Por lo tanto, el área de cola estará comprendido entre 0.0025 y 0.005, entonces, el p-valor estará comprendido entre los valores:

0.005 < . p-valor < . 0.01

También, podemos dar un valor aproximado del p-valor mediante interpolación lineal:

.0.0025...........T.........0.005
4.3168....4.297307....3.7074

De donde:

0.0025 - 0.005.-> 4.3168 - 3.7074
0.0025 - T.-> 4.3168 - 4.297307

Calculamos:



Sustituimos y obtenemos el p-valor:

p-valor = 2 · P(T > 4.297307) = 2·0.002580 = 0.00516

Como el p-valor es menor que el nivel de significación, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.

0 comentarios: