viernes, 28 de agosto de 2009

Problema11: Análisis de Regresión

Ej11.Una empresa desea estimar los gastos indirectos Y en función del número de unidades producidas x. Para ello, se toma una muestra aleatoria de 10 unidades de la que se conoce la siguiente información:

· Σxi = 420.
· ΣYi = 1922.
· Σx2i = 18228.
· ΣY2i = 395024.
· Σxi·Yi = 84541.

Determinar:

a) La recta de regresión de Y sobre x utilizando el método de los mínimos cuadrados.

b) Calcule e interprete el coeficiente de determinación R2.

c) ¿Es significativa la regresión a un nivel de significación 0.05?

d) Construya un intervalo de predicción del 95% para los gastos indirectos cuando el número de unidades producidas es 50.


El enunciado del problema nos ofrece, esta vez, los datos resumidos y necesarios para realizar el estudio que nos plantea.


Aparatdo a)

Para calcular la pendiente, la expresión matemática es:



Para obtener su valor, necesitamos saber los valores de Sxy y Sxx:

·

·

Por lo tanto, la pendiente es:



Una vez obtenida la pendiente, podemos tener el valor del estimador para la ordenada:



Sustituimos valores:



Por lo tanto, la ecuación de regresión ajustada es:

Y(x) = -80.442874 + 6.491497·x


Apartado b)

Para obtener el coeficiente de determinación, empleamos su expresión matemática:



Debemos obtener el valor de Syy:

·

Sustituimos valores y obtenemos el resultado del coeficiente de determinación:



Al estar próximo a 1, la regresión es significativa y el ajuste realizado en el apartado anterior, es bastante bueno.


Apartado c)

Para estudiar si la regresión es significativa, la pendiente debe ser distinta de cero. Calcularemos tanto la región crítica como el p-valor, para contrastar los resultados.

La prueba de hipótesis es:



El estadístico es:



Debemos obtener el valor del estimador de la desviación estándar:



Siendo:



Tenemos todos los datos necesarios, calculados en apartados anteriores, para estimar la varianza:



Obtenemos el valor del estadístico:



Para comprobar si aceptamos o rechazamos la hipótesis nula, empleamos la región crítica, que para esta prueba es:

|T| > tα/2, n -2

Para un nivel de significación de: α = 0.05, tenemos, en la tabla t-Student:

· tα/2, n -2 = t0.05/2, 10 -2 = t0.025, 8 = 2.3060

Comprobamos el valor del estadístico con la región crítica:


Se cumple la condición de la región crítica, por lo tanto, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.

Esto quiere decir que, la pendiente no vale cero, por lo tanto, existe dependencia entre las variables x e y, en otras palabras, existen evidencias significativas de dependencia lineal.

Ahora, vamos a obtener el p-valor de la prueba, para dicho cálculo, debemos tener claro en que condiciones estamos, en nuestro caso, existen dos regiones críticas, por lo tanto, tenemos dos colas de probabilidad, el p-valor en estas condiciones, se calcula cómo:

p-valor = 2 · P(T > |t|) = 2 · P(T > 15.384069)

Buscamos en las tablas de la t-Student con 10-2 = 8 grados de libertad, no encontramos el valor exacto, pero el valor mayor más cercano al 15.384069 de las tablas, corresponde a un área de cola de 0.0005, por lo tanto:

p-valor = 2 · P(T > 15.384069) = 2 · 0.0005 = 0.0010

Hay que tener en cuenta que las tablas de la t-Student que dispone Aqueronte, albergan un área de cola desde 0.4500 hasta 0.0005, el valor para determinar el p-valor es, aproximadamente, 15.384069.

Si buscamos, con 8 grados de libertad, en las tablas t-Student, no encontramos un valor exacto ni superior, sólo un nivel inferior, que corresponde al área de cola: 0.0005.

Por lo tanto, el área de cola será menor que 0.0005, el p-valor corresponderá:

p-valor < . 0.0010

Al ser el nivel de significación del problema,
α = 0.05, mayor que el p-valor, rechazamos la hipótesis nula.

Rechazar la hipótesis nula quiere decir que se acepta la hipótesis alternativa, en otras palabras, la pendiente es distinta de cero por lo que existe dependencia lineal entre las variables x e y.

Como se puede observar, ambos métodos, la región crítica como el p-valor, satisfacen la hipótesis alternativa, es decir, que existe evidencias significativas que hay dependencia lineal entre las variables del modelo.



Apartado d)

En este apartado nos piden obtener un intervalo de predicción, cuya expresión matemática es:



Al 95%, obtenemos α:

100(1 - α) = 95

Despejamos el parámetro que nos interesa: α = 0.05.

El único dato que nos falta por obtener es el valor del parámetro Y cuando x vale 50, para ello, usamos la recta ajustada calculada en el Apartado a):

· Y(50) = -80.442874 + 6.491497·50 = 244.131976.

Sustituimos valores en la expresión del intervalo de predicción:



Por lo tanto, el intervalo de predicción al 95% es:

[218.189784, 270.074168]

0 comentarios: