Análisis de componentes principales

Análisis de componentes principales

 

El Análisis de Componentes Principales (ACP o PCA en inglés) es una técnica estadística de síntesis de la información, o reducción de la dimensión (número de variables). Es decir, ante un banco de datos con muchas variables, el objetivo será reducirlas a un menor número perdiendo la menor cantidad de información posible. Los nuevos componentes principales o factores serán una combinación lineal de las variables originales, y además serán independientes entre sí. Un aspecto clave en PCA es la interpretación de los factores, ya que ésta no viene dada a priori, sino que será deducida tras observar la relación de los factores con las variables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones). Esto no siempre es fácil, y será de vital importancia el conocimiento que el experto tenga sobre la materia de investigación.

 

Objetivos

 

• Entender por qué es importante reducir la dimensión en un problema estadístico.

• Saber aplicar el análisis de componentes principales, con ayuda de Minitab.

• Conocer pautas para elegir el modelo más adecuado para nuestro problema.

• Interpretar los factores del modelo obtenido.

 

Motivación

 

Consideremos un conjunto de datos en dos dimensiones dado por

 

 

1

1

 

2

2

X=

3

3

 

4

4

 

5

5

 

 

Para hacer el cálculo de la matriz de covarianza muestral, hacemos S = XTX/N (estimador sesgado de la Covarianza ) donde N es el total de muestras. La matriz de covarianza resulta ser

 

S = 

11

11

 

11

11

 

Para la matriz de covarianza podemos notar que su determinante es cero (11*11 – 11*11 =0) lo que significa su inversa no existe. ¿A que se debe dicha condición?. Veamos como lucen en una gráfica dichos puntos.

 

 

En realidad podemos notar que solo existe variación en una dirección, dicha dirección esta a 45 grados (q = atan (1/1) … q = atan (5/5) ) de acuerdo con los valores. Ahora porque no podemos sacar la inversa. Sacar la inversa de una matriz es equivalente a solucionar un sistema de ecuaciones así para nuestra matriz de covarianza un sistema equivalente es

 

11 x + 11 y = b1

11 x + 11 y = b2

 

Note que ambas ecuaciones son la misma y que por lo tanto no tengo un sistema completo de ecuaciones. Ambas ecuaciones son paralelas y la solución gráfica es el punto donde ambas ecuaciones se interceptan. Si embargo volviendo al problema de la varianza, es necesario calcular la covarianza dado que vemos variación en una dirección.

 

Descomposición en valores singulares.

 

Consideremos que nuestros datos pueden ser modelados por una distribución gausiana, como la siguiente

 

 

 

El término dentro de la exponencial asumiendo que la media es cero, lo podemos usarlo para explicar el procedimiento

 

xTS-1x

 

Si aplicamos una matriz de rotación R a los ejes coordenados y recordando que la transpuesta de una matriz de rotación es equivalente a la inversa de esta, podemos escribir esta expresión como

 

xT(RTR)TS-1(RTR )x

(Rx)T(RS-1R) Rx

yT(RS-1R) y

 

Lo interesante de esta transformación es tomar una matriz de rotación que haga a la matriz de covarianza un matriz diagonal. Eso es precisamente lo que hace la descomposición en valores singulares. Así dada un matriz la descomposición en valores singulares la escribimos como A = UDV, donde U y V son matrices de rotación de acuerdo a nuestro desarrollo anterior y D es una matriz diagonal a la cual se le llama la matriz de eigenvalores D = diag[l1, l2, …, ln]. li es el i-esimo eigenvalor o factor.

 

Para los datos que hemos estado manejando tenemos que la descomposición en valores singulares de a es A = UDV

 

A=

 

-0.7071

-0.7071

 

22

0

 

-0.7071

-0.7071

 

 

-0.7071

0.7071

 

0

0

 

-0.7071

0.7071

 

Note que la matriz D es una diagonal y para nuestro nuevo sistema de referencia podemos ver que el eigenvalor principal es igual a 22 y en el segundo eigenvalor es cero. En este caso las matrices U y V son iguales y cada columna de estas matrices es un eigenvector. Los eigenvectores dan la dirección de las componentes principales. Note en este caso que la dirección del eigenvector principal (columna 1) es 270 grados y del segundo eigenvalor es 135 grados.

 

v1 = -0.7071 i - 0.7071j   q = tg-1(-0.7071/-0.7071) = 270°

v2 = -0.7071 i + 0.7071j  q = tg-1(0.7071/-0.7071) = 135°

 

Uno de los objetivos de hacer el análisis en componentes principales (PCA), es resolver este tipo de problemas, reduciendo la dimensionalidad de nuestros datos. Una vez que se aplica las matrices de rotación a los puntos de entrada y se selecciona el número de factores de nuestro análisis. En este caso el número de factores será uno dado que uno de los eigenvalores o factores es cero

 

PCA en MINITAB

 

Para llevar a cabo este procedimiento en MINITAB hacemos:

 

Ir al menú Stat > Multivariate > Principal Components…

 

 

Al seleccionar la opción aparecerá

 

 

En la opción Storage damos los lugares donde guardaremos los valores transformados

 

 

Selección de los factores

 

La elección de los factores se realiza de tal forma que el primero recoja la mayor proporción posible de la variabilidad original; el segundo factor debe recoger la máxima variabilidad posible no recogida por el primero, y así sucesivamente. Del total de factores se elegirán aquéllos que recojan el porcentaje de variabilidad que se considere suficiente. A éstos se les denominará componentes principales.

 

Ejemplo 1

 

Considere los datos

 

 

1

1

 

2

2

X=

3

3

 

4

4

 

5

5

 

Calcular las eigenvalores, eigenvectores y datos transformados utilizando MINITAB

 

Principal Component Analysis: C1, C2

 

Eigenanalysis of the Covariance Matrix

 

Eigenvalue  5.0000  0.0000

Proportion   1.000   0.000

Cumulative   1.000   1.000

 

 

Variable    PC1     PC2

C1        0.707   0.707

C2        0.707  -0.707

 

 

Los datos transformados son

 

1.41421     0

2.82843     0

4.24264     0

5.65685     0

7.07107     0

 

La grafica correspondiente a los eigenvalores o valores principales es

 

 

 

Ejemplo 2

 

Considere los datos de la imagen y haga el análisis en componentes principales

 

Results for: Imagen.MTW

 

Principal Component Analysis: x1, x2, x3

 

Eigenanalysis of the Covariance Matrix

 

Eigenvalue  75.883  -0.000  -0.000

Proportion   1.000  -0.000  -0.000

Cumulative   1.000   1.000   1.000

 

 

Variable    PC1     PC2     PC3

x1        0.577   0.789  -0.211

x2        0.577  -0.211   0.789

x3        0.577  -0.577  -0.577

 

 

 

b) dibuje el histograma del componente principal.

 

 

 

c) Cual es la función discriminante del componente principal

 

Discriminant Analysis: tono versus C8

 

Linear Method for Response: tono

 

 

Predictors: C8

 

 

Group        10        20

Count        64        36

 

 

Summary of classification

 

                 True Group

Put into Group     10     20

10                 64      0

20                  0     36

Total N            64     36

N correct          64     36

Proportion      1.000  1.000

 

N = 100           N Correct = 100           Proportion Correct = 1.000

 

 

Squared Distance Between Groups

 

         10       20

10   0.0000  94.5161

20  94.5161   0.0000

 

 

Linear Discriminant Function for Groups

 

              10       20

Constant  -44.60  -183.67

C8          5.20    10.55

 

La función de la frontera queda dada por

 

139.07 -5.35y1 = 0

y1 = 25.994

 

Ejemplo 3

 

La resistencia a la tracción de una unión de alambre es una característica importante. El archivo resistencia.mtw, brinda información sobre la resistencia a la tracción y, la altura del molde x1, la altura del perno x2, la altura del lazo x3, longitud del alambre x4, ancho de la unión sobre el molde x5 y ancho del molde sobre el perno x6.

 

a) hacer el análisis en componentes principales y decir cuales son las variables con los dos componentes principales

 

b) hacer la transformación de los datos al nuevo sistema y graficar.

 

c) hacer el análisis de varianza para el conjunto transformado considerando solamente dos factores.

 

Regresar.