Análisis de Varianza.
1.
Mínimos cuadrados.
Suponga
que tenemos n puntos de datos experimentales en la forma acostumbrada [xi, yi]
y que se estima la línea de regresión utilizando mínimos cuadrados. Definimos
la suma de los errores al cuadrado SSE
como:
donde los
valores sobre la recta calculada son
y a y b los parámetros de la ecuación de la recta, la cual podemos
calcular resolviendo el sistema de ecuaciones
Ejemplo
1.
Calcular
la recta de mínimos cuadrados dada por el conjunto de datos:
x
= [ 1 2 3 4
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20]
y
= [ 2.6888
-0.4724 3.7286 5.6471
1.1164 4.3160 5.2080
-0.3875 0.0181 4.1423
2.3002 4.5800 4.9312
4.8238 6.0805 4.9372
6.0817 1.3951 3.8604
3.6866]
La
gráfica para estos datos la podemos ver en la Figura
1.
Figura 1
La solución para este
utilizado MATLAB es:
clear;
x = [ 1 2 3
4 5 6
7 8 9 10 11 12 13 14 15 16 17 18 19 20]';
y = [ 2.6888 -0.4724
3.7286 5.6471 1.1164
4.3160 5.2080 -0.3875
0.0181 4.1423 2.3002
4.5800 4.9312 4.8238
6.0805 4.9372 6.0817
1.3951 3.8604 3.6866]';
n = length(x);
plot(x,y);
title('Regresión lineal');
xlabel('x');
ylabel('y');
M
= [x, ones(n, 1)];
p
= inv(M'*M)*M'*y;
b
= p(1)
a
= p(2)
Una vez ejecutado el código
tenemos b = 0.1180 y a = 2.1953, con una ecuación y = 0.1180
x +
2.1953.
Es importante notar, que el
hecho de ajustar una línea recta a un conjunto de datos significa que verdaderamente
exista una dependencia lineal entre ellos. Así pues, para los datos en la Figura
1, queremos averiguar hasta donde la variable y
depende de x.
2.
Varianza.
La
cantidad s2 se llama
varianza de muestra y se calcula con la siguiente expresión
Debe
quedar claro que la varianza es una medida de la variabilidad de los datos
respecto a una referencia, en este caso la media . La cantidad n-1 se denomina grados de libertad.
Para
el caso de mínimos cuadrados ecuación (1), definimos una varianza con (n-2) grados de libertad, dada por:
Ecuación 1
la cual
mide la brecha entre los puntos dados y la recta calculada .
También
podemos definir una varianza entre la recta de mínimos cuadrados respecto a la
media de los datos, con un grado de libertad como:
Ecuación 2
con
Note
que la Ecuación
2, mide que tanto difiere la línea de mínimos cuadrados
respecto de la media.
Ejemplo
2.
Calcular
las varianzas sSSR y sSSE
para los datos del ejemplo 1.
clear;
x = [ 1 2 3
4 5 6
7 8 9 10 11 12 13 14 15 16 17 18 19 20]';
y = [ 2.6888 -0.4724
3.7286 5.6471 1.1164
4.3160 5.2080 -0.3875
0.0181 4.1423 2.3002
4.5800 4.9312 4.8238
6.0805 4.9372
6.0817 1.3951 3.8604
3.6866]';
n = length(x);
plot(x,y);
hold on;
title('Regresión
lineal');
xlabel('x');
ylabel('y');
M = [x, ones(n, 1)];
p = inv(M'*M)*M'*y;
m = p(1)
b = p(2)
yp = mean(y)
v1 = 1;
v2 = n-2;
plot(x, M*p, 'r');
plot(x, ones(n,1)*yp, 'g');
SSR = (yp -m*x - b)'*(yp -m*x
- b)
SSE
= (y -m*x - b)'*(y -m*x -
b);
s2_SSE = SSE/v2
s2_SSR = SSR/v1
Los
resultados son:
s2_SSE
= 4.1701
s2_SSR
= 9.2571
Podemos
ver la recta de mínimos cuadrados y la media en la Figura 2.
Figura 2
En
este momento podríamos concluir dado las varianzas que hay menor diferencia
entre los datos y la recta de mínimos cuadrados, que entre la media de los
datos y esta misma recta.
3.
La distribución F.
La
distribución F encuentra enorme aplicación en la comparación de
varianzas muéstrales. La estadística F se define como la razón de cambio
de dos variables aleatorias ji cuadrada independientes, dividida cada una entre su número de grados
de libertad. De aquí, que podamos escribir:
Basados
en esto podemos mostrar que la Ecuación
1 y Ecuación
2 son distribuciones ji
cuadrada y que el cociente tiene por lo
tanto una distribución F. (ver [Walpole et all]) dada por:
Ecuación 3
La
distribución de la variable aleatoria F esta dada por:
La
curva de distribución F depende no sólo de los dos parámetros v1
y v2 sino también del orden en que se establecen. En la Figura 3, tenemos la gráfica de la distribución F(x, 6, 24),
la cual fue calculada utilizando MATLAB.
clear;
f = 0:0.1:10;
plot(f, fpdf(f, 6, 24));
title('Distribución
F con 6 y 24 grados de libertad');
xlabel('f');
ylabel('h(f)');
[m, v] =fstat(6,24)
Figura 3
La media y la varianza se
calcula utilizando [m, v] =fstat(6,24).
Si
integramos la función F de 1 a infinito, nos daremos cuenta, que el área
bajo la curva es 1. En algunos problemas será interesante determinar el valor
de fa que parte a la curva en porcentaje (1-a) (a es llamado el
nivel de significancia). Para esto tenemos que
calcular el valor de fa que satisfaga la ecuación:
Este
dato puede ser calculado utilizando la función de MATLAB utilizando la función
finv((1-alfa), v1, v2)
Ejemplo
3.
Determinar
el valor crítico para una distribución F con 6 y 24 grados de libertad en un
nivel de significacia de 0.05. Graficar la
distribución el valor crítico.
clear;
f
= 0:0.1:10;
plot(f, fpdf(f, 6, 24));
title('Distribución
F con 6 y 24 grados de libertad');
xlabel('f');
ylabel('h(f)');
[m, v] =fstat(6,24)
fa = finv(0.95, 6, 24)
hold on;
y = 0:0.1:0.8;
plot(ones(length(y),1)*fa,
y, 'r');
Figura 4
Podemos
ver en la Figura
4, que el 95% de los datos se concentran a la izquierda
de la línea roja y solo un 5% a la derecha.
4.
Prueba de Hipótesis.
Una
hipótesis estadística es una aseveración o conjetura con respecto a una o más
poblaciones.
La
estructura de la prueba de hipótesis se formulará con el uso del término de
hipótesis nula, el cual se refiere a cualquier hipótesis que deseamos probar y
se denota con H0. El rechazo de H0 conduce a la aceptación de la hipótesis
alternativa.
Errores.
· El rechazo de la hipótesis nula cuando es verdadera se
llama error tipo I.
· La aceptación de hipótesis nula cuando es falsa se
llama error tipo II.
Al
probar cualquier hipótesis estadística, hay cuatro situaciones
|
H0 es verdadero
|
H0 es falsa
|
Aceptar H0
|
Decisión correcta |
Error tipo II |
Rechazar H0
|
Error Tipo I |
Decisión correcta |
La
probabilidad de cometer un error tipo I, también llamada nivel de significancia, se denota con la letra griega a.
5.
Procedimiento del análisis de varianza.
Con
frecuencia el problema de analizar la calidad de la línea de regresión estimada
se maneja mediante un enfoque de análisis de varianza: un procedimiento por el
que la variación de la total en la variable dependiente se subdivide en
componentes significativos que se observan y tratan en forma sistemática.
Suponga
que tenemos n puntos de datos experimentales en la forma acostumbrada (xi, yi)
y que se estima la recta de regresión
Una
formulación alternativa y quizá más informativa es
Por
lo cual logramos una partición de la suma total corregida de cuadrados de y
en dos componentes que deben reflejar un significado particular para el
experimentador. Indicaremos esta partición de manera simbólica como
SST = SSR + SSE
donde:
SSR
= es la suma de cuadrados de regresión y refleja las
variaciones sobre la media.
SSE
= es la suma de
cuadrados del error y refleja las variaciones sobre la recta de regresión
Supongamos
que nos interesa probar la hipótesis
H0 : b es igual a cero
H1 : b es diferente de cero
Lo que significa que los valores de y no
dependen de x y que probablemente fueron generados de manera aleatoria
independientemente de x.
Para probar la hipótesis anterior calculamos
Ecuación 4
donde f
es una distribución f y rechazamos H0 al nivel de significancia a cuando f > fa(1, n-2)
Los
cálculos por lo general se resumen por medio de una tabla de análisis de
varianza como la siguiente.
Análisis de variancia para probar
b =0
|
||||
Fuente de variación |
Suma de cuadrados |
Grados de libertad |
Cuadrado medio |
f calculada |
Regresión |
SSR |
1 |
SSR |
SSR/ s2 |
Error |
SSE |
n-2 |
s2=SSE/(n-2) |
|
Total |
SST |
n-1 |
|
|
rechazamos b=0,
al nivel de significancia a cuando f > fa(1,
n-2) |
La media de los datos es una línea recta con
pendiente cero y la línea de mínimos cuadrados es una línea recta con pendiente
diferente de cero b!=0. En
esta prueba de hipótesis más que probar si no hay dependencia lineal, esta
probando que la varianza de los datos calculados respecto a la media es similar
a la varianza de los datos calculados
respecto a la línea de mínimos cuadrados.
Ejemplo
4.
Determinar,
para los datos del ejemplo 1, si existe dependencia lineal de y respecto
de x.
La
implementación en MATLAB es:
clear;
x = [ 1 2 3
4 5 6
7 8 9 10 11 12 13 14 15 16 17 18 19 20]';
y = [ 2.6888 -0.4724
3.7286 5.6471 1.1164
4.3160 5.2080
-0.3875 0.0181 4.1423
2.3002 4.5800 4.9312
4.8238 6.0805 4.9372
6.0817 1.3951 3.8604
3.6866]';
n = length(x);
plot(x,y);
title('Regresión lineal');
xlabel('x');
ylabel('y');
d
= [x, ones(n, 1)];
p
= inv(d'*d)*d'*y;
m = p(1);
b = p(2);
yp = mean(y);
v1 = 1;
v2 = n-2;
SSR = (yp -m*x - b)'*(yp -m*x
- b)
SSE
= (y -m*x - b)'*(y -m*x -
b);
SST = SSR + SSE;
s2 = SSE/v2;
F = SSR/s2;
alfa = 0.05;
Fc = finv(1-alfa, v1, v2);
fprintf('---------------------------------------------------------------------\n');
fprintf('Curva ajustada\n');
fprintf('y = %13.3f
*x + %13.3f\n', m, b);
fprintf('---------------------------------------------------------------------\n');
fprintf('Analisis
de Varianza\n');
fprintf('---------------------------------------------------------------------\n');
fprintf('Fuente de Suma Grados de Cuadrado F calc\n');
fprintf('Variacion cuadrados Libertad medio \n');
fprintf('---------------------------------------------------------------------\n');
fprintf('Regresion %13.2f
%13.f %13.2f %13.2f\n',
SSR, v1, SSR/v1, F);
fprintf('Error
%13.2f %13.f %13.2f \n', SSE, v2, s2);
fprintf('Total
%13.2f %13.f \n', SST, v1+v2);
fprintf('---------------------------------------------------------------------\n');
fprintf('Con (1-alfa) = %5.3f tenemos %13.2f > %13.2f\n',
1-alfa, F, Fc);
Los
resultados de la ejecución son:
---------------------------------------------------------------------
Curva ajustada
y =
0.118 *x + 2.195
---------------------------------------------------------------------
Analisis de Varianza
---------------------------------------------------------------------
Fuente de
Suma Grados de Cuadrado F calc
Variacion cuadrados Libertad medio
---------------------------------------------------------------------
Regresion 9.26 1 9.26 2.22
Error
75.06 18 4.17
Total
84.32 19
---------------------------------------------------------------------
Con (1-alfa) = 0.950 tenemos 2.22 > 4.41
Dado
los valores la hipótesis nula debe ser aceptada ya que la f calculada es
menor que la f para el nivel de significancia. Esto
significa que para nuestro experimento, no se da la dependencia lineal entre la
variable x y y.
Para
entender mejor esto hagamos la gráfica correspondiente para una distribución h(f, 1, 18).
f = 0:0.05:8;
v1 = 1;
v2 = 18;
alfa = 0.05;
plot(f, fpdf(f, v1, v2));
title('Distribución F');
xlabel('f');
ylabel('h(f)');
[m, v] =fstat(v1,v2)
fa = finv(1-alfa, v1, v2)
hold on;
y = 0:0.1:0.8;
plot(ones(length(y),1)*fa, y, 'r');
En
la figura podemos ver que a la izquierda de la línea roja las varianzas motivo
de nuestro análisis son iguales y a la derecha son diferentes. Nuestro valor
calculado de f es 2.22 lo cual significa que la varianza S_SSR
es igual a la varianza S_SSE. Esto
significa que la media describe de manera similar a la recta de mínimos
cuadrados las variaciones en los datos y por lo tanto se concluye que no hay
dependencia lineal.
6. Uso de MINITAB para el análisis de
Varianza
Podemos
llevar a cabo este procedimiento utilizando MINITAB, para ello tenemos que
ingresar los datos en la hoja de trabajo de la siguiente manera o abriendo el
archivo ejemplo4.mtw.
Ir
a la opcion Stat >
Regresión > Regression …
Ahí
aparecerá la opción
Al
dar OK la solución que da MINITAB, es la siguiente
Regression
Analysis: y versus x
The regression equation is
y = 2.20 + 0.118 x
Predictor Coef SE Coef T
P
Constant 2.1953 0.9486
2.31 0.033
x 0.11799 0.07919
1.49 0.154
S = 2.04208 R-Sq = 11.0% R-Sq(adj) = 6.0%
Analysis of Variance
Source DF SS
MS F P
Regression 1
9.257 9.257 2.22
0.154
Residual Error 18
75.062 4.170
Total 19
84.319
Podemos ver que el
resultado de la f calculada es de 2.22 y será necesario calcular el valor del
estadístico f para completar la prueba de hipótesis. Sin embargo, tenemos
un dato adicional el valor P. Este valor indica que la hipótesis Ho (b=0) es valida con nivel de significancía
de 15.4 % muy superior al valor que deseamos del 5%. Por lo tanto la hipótesis
se acepta y no existe evidencia de dependencia lineal en el nivel de significancia.
Ejemplo
5.
Uno de los problemas más
desafiantes que enfrenta el campo de control de la contaminación del agua lo
presenta la industria del curtido de pieles. Los desechos de las curtidurías
son químicamente complejos. Se caracterizan por los altos valores de demanda
bioquímica de oxígeno, sólidos volátiles y otras medidas de contaminación.
Considérese los datos experimentales de la siguiente tabla que se obtuvieron
con 33 muestras de desechos químicamente tratados.
Reducción de Sólidos |
Demanda química de oxígeno |
x(%) |
y(%) |
3 |
5 |
7 |
11 |
11 |
21 |
15 |
16 |
18 |
16 |
27 |
28 |
29 |
27 |
30 |
25 |
30 |
35 |
31 |
30 |
31 |
40 |
32 |
32 |
33 |
34 |
33 |
32 |
34 |
34 |
36 |
37 |
36 |
38 |
36 |
34 |
37 |
36 |
38 |
38 |
39 |
37 |
39 |
36 |
39 |
45 |
40 |
39 |
41 |
41 |
42 |
40 |
42 |
44 |
43 |
37 |
44 |
44 |
45 |
46 |
46 |
46 |
47 |
49 |
50 |
51 |
Figura 5
Hacer el análisis para
determinar si existe dependencia lineal entre los datos.
---------------------------------------------------------------------
Curva
ajustada
y
= 0.904 *x + 3.830
---------------------------------------------------------------------
Análisis
de Varianza
---------------------------------------------------------------------
Fuente
de Suma Grados de Cuadrado F calc
Variación cuadrados Libertad medio
---------------------------------------------------------------------
Regresión 3390.55 1 3390.55 325.08
Error 323.33 31 10.43
Total 3713.88 32
---------------------------------------------------------------------
Con
(1-alfa) = 0.950 tenemos 325.08
> 4.16
De acuerdo al análisis de
varianza, se rechaza la hipótesis nula, es decir, existe suficiente evidencia
de la dependencia lineal.
La corrida en MINITAB con
los datos contaminacion.mtw fue
Results
for: contaminacion.MTW
Regression
Analysis: y versus x
The regression equation is
y = 3.83 + 0.904 x
Predictor Coef SE Coef T
P
Constant 3.830 1.768
2.17 0.038
x 0.90364 0.05012
18.03 0.000
S = 3.22954 R-Sq = 91.3% R-Sq(adj) = 91.0%
Analysis of Variance
Source DF SS
MS F P
Regression 1 3390.6
3390.6 325.08 0.000
Residual Error 31 323.3
10.4
Total 32 3713.9
Unusual Observations
Obs x y
Fit SE Fit
Residual St Resid
1 3.0
5.000 6.541 1.627
-1.541 -0.55 X
2 7.0
11.000 10.155 1.440
0.845 0.29 X
3 11.0
21.000 13.770 1.258
7.230 2.43R
11 31.0
40.000 31.843 0.575
8.157 2.57R
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large leverage.
Ejercicios de repaso
11.43 Los siguientes datos
son el resultado de una investigación sobre el efecto de la temperatura de
reacción x, sobre la conversión porcentual
de un proceso químico y. Haga un ajuste por regresión lineal simple y utilice
pruebas de falta de ajuste para determinar si el modelo es adecuado. Analice
los resultados.
Observación |
Temperatura (°C) x |
Conversión % y |
1 |
200 |
43 |
2 |
250 |
78 |
3 |
200 |
69 |
4 |
250 |
73 |
5 |
189.65 |
48 |
6 |
260.35 |
78 |
7 |
225 |
65 |
8 |
225 |
74 |
9 |
225 |
76 |
10 |
225 |
79 |
11 |
225 |
83 |
12 |
225 |
81 |
11.48 Para una variedad
particular de planta, los investigadores desean desarrollar una formula para
predecir la cantidad de semillas (granos) como función de la densidad de las
plantas. Efectuaron un estudio con cuatro niveles del factor X, el número de
plantas por parcela. Se utilizaron cuatro réplicas para cada nivel de X. A
continuación se muestran los datos.
Plantas por parcela x |
Cantidad de semillas y (granos) |
10 |
12.6,
11.0, 12.1, 10.9 |
20 |
15,3,
16.1, 14.9, 15.6 |
30 |
17.9,
18.3, 18.6, 17.8 |
40 |
19.2,
19.6, 18.9, 20.0 |
¿Es adecuado un modelo
de regresión lineal para analizar el conjunto de datos?
Bibliografía.
[Walpole et all] Walpole Ronald
E., Myers Raymond H., Myers Sharon L. y Ye Keying “Probabilidad y
estadística para Ingeniería y ciencias”. Octava Edición. Pearson Education. 2007.