Componentes de Varimax

15

Click here to load reader

description

Metodo econométrico

Transcript of Componentes de Varimax

Page 1: Componentes de Varimax

El procedimiento varimax

Sea Tij EAzZ )(][

la representación de un conjunto de datos de dimensiones .

Ahora ocurre que tanto como

E están truncados, luego de cierto valor m. es decir, que sólo en los primeros m autovectores y las correspondientes m componentes son retenidas, luego de haber aplicado algún criterio de selección. Entonces suponemos, de aquí en mas, que de dimensiones y de dimensiones ; donde

. Sea una matriz de rotación (de dimensiones pp ) que aplicaremos a

E de

forma tal que

REER. Entonces . Teniendo en cuenta que

podemos escribir

(6.118)obteniendo una nueva representación de , donde

(6.119)

Podemos utilizar la (6.118) para expresar la nueva matriz de componentes, utilizando la propiedad de ortonormalidad de , como

(6.120)Sea (6.121)donde (6.122)Además (6.123)donde (6.124)Cada elemento de la (6.120) puede ser escrito como

(6.125)

Entonces es la proyección de sobre el nuevo eje . Si calculamos la varianza de los n

puntos de proyectados sobre cada nuevo eje , tenemos que

(6.126)

63

Page 2: Componentes de Varimax

Entonces calculando la dispersión respecto a la varianza de las proyecciones sobre cada uno de los nuevos ejes , estimamos la cantidad

donde hemos tenido en cuenta que la varianza de los puntos proyectados esta dada por

, siendo la matriz de dispersión

dada por (6.46).Nuestro objetivo es encontrar un nuevo sistema de ejes que maximice . Para este

propósito hacemos variar los , sobre todas las posibles orientaciones en sujetos a las restricciones de ortonormalidad (6.127)Resolver este problema implica utilizar multiplicadores de Lagrange en forma de una ecuación de autovalores no lineal, que debe ser resuelta en forma iterativa. No entraremos en detalles sobre el procedimiento, sólo mencionaremos que existen muchas rutinas que aplican el método varimax de rotación.

Ejemplo de aplicación de una rotación

Muchas veces los resultados alcanzados al aplicar el PCA no son fáciles de interpretar, especialmente en la dependencia espacial. Este problema es muy frecuentemente en meteorología, donde en el estudio de la circulación atmosférica o de la precipitación se presentan modos espaciales cuyas formas no se ajustan a lo esperado.

Mostraremos la dependencia de las soluciones respecto a las formas de los campos mediante un ejemplo: Sea el caso de tres campos de presión a nivel del mar de formas singulares, como los mostrados en la Figura 6.14, sobre una grilla de 36 puntos (6 x 6). El Caso I corresponde a una circulación SW-NE, el Caso II a una circulación zonal W-E; y por último el Caso III que es una circulación ciclónica, con su centro de alta presión desplazado hacia el NE. La correspondiente matriz de datos, digitalizados a partir de la Figura 6.14, está dada por la Tabla XI. En el proceso de digitalización se ha producido cierto ruido.

64

Page 3: Componentes de Varimax

Figura 6.14

Nodo Caso ICaso II Caso III

1 1034 1012 1027

2 1032 1012 1028

3 1030 1012 1036

4 1028 1012 1036

5 1026 1012 1033

6 1024 1012 1032

7 1032 1013 1028

8 1030 1013 1030

9 1028 1013 1032

10 1026 1013 1034

11 1024 1013 1034

12 1022 1013 1033

65

Page 4: Componentes de Varimax

13 1030 1014 1027

14 1028 1014 1030

15 1026 1014 1032

16 1024 1014 1034

17 1022 1014 1034

18 1020 1014 1033

19 1028 1015 1026

20 1026 1015 1028

21 1024 1015 1030

22 1022 1015 1032

23 1020 1015 1033

24 1018 1015 1032

25 1026 1018 1024

26 1024 1018 1026

27 1022 1018 1028

28 1020 1018 1029

29 1018 1018 1030

30 1016 1018 1030

31 1024 1019 1023

32 1022 1019 1024

33 1020 1019 1026

34 1018 1019 1027

35 1016 1019 1028

36 1014 1019 1028

Tabla XI

Resultados:

********** MATRIZ DE COVARIANZAS ********** RESULTADOS DEL PROGRAMA LOS PRIMEROS AUTOVALORES DE LA MATRIZ ORDENADOS EN FORMA DECRECIENTE, SU % DE VARIANZA EXPLICADA

66

Page 5: Componentes de Varimax

Y SU ERROR SON: RANK EIGENVALUE % VAR +/- ERROR 1 .28050880E+02 66.0798 .661165600E+01 2 .13865040E+02 32.6621 .326802200E+01 3 .53408150E+00 1.2581 .125884200E+00

Tabla XII

Los autovectores son: AUTOVECTORES DE LA MATRIZ .89738 .31310 -.31093 -.41050 .33389 -.84853 .16185 -.88909 -.42816

Tabla XIII

Las componentes principales son:

Nodo PC1 PC2 PC3 1 678.7 -251.5 -1619.9 2 677.1 -253.0 -1619.7 3 676.6 -260.7 -1622.5 4 674.8 -261.3 -1621.9 5 672.5 -259.3 -1620.0 6 670.5 -259.0 -1619.0 7 676.6 -252.6 -1620.6 8 675.2 -255.0 -1620.8 9 673.7 -257.4 -1621.1 10 672.2 -259.9 -1621.3 11 670.4 -260.5 -1620.7 12 668.5 -260.2 -1619.6 13 674.3 -252.0 -1620.4 14 673.0 -255.3 -1621.0 15 671.5 -257.7 -1621.3 16 670.0 -260.1 -1621.5 17 668.2 -260.8 -1620.9 18 666.3 -260.5 -1619.8 19 671.9 -251.4 -1620.2 20 670.4 -253.8 -1620.4 21 669.0 -256.3 -1620.7 22 667.5 -258.7 -1620.9 23 665.9 -260.2 -1620.7

67

Page 6: Componentes de Varimax

24 663.9 -259.9 -1619.6 25 668.6 -249.3 -1621.3 26 667.1 -251.7 -1621.5 27 665.6 -254.1 -1621.7 28 664.0 -255.6 -1621.5 29 662.4 -257.1 -1621.3 30 660.6 -257.8 -1620.7 31 666.2 -248.7 -1621.0 32 664.6 -250.2 -1620.9 33 663.1 -252.6 -1621.1 34 661.5 -254.1 -1620.9 35 659.8 -255.6 -1620.7 36 658.0 -256.3 -1620.1

Tabla XIV

1 2 3 4 5 6- 6

- 5

- 4

- 3

- 2

- 1

Figura 6.15: PC1 (66.08%)

La Figura 6.15 muestra como la S-PC1 captura gran parte del proceso generado por el Caso I (ver Figura 6.14), aunque también hay influencia del Caso II (curvatura de las líneas). Esto se puede apreciar también en la matriz de correlaciones de las variables con las componentes en la Tabla XV.

68

Page 7: Componentes de Varimax

1 2 3 4 5 6- 6

- 5

- 4

- 3

- 2

- 1

Figura 6.16: PC2 (32.66%)Por su parte la Figura 6.16 captura parte del proceso generado por el CasoII, con mezcla del proceso generado por el Caso III (ver Figura 6.14). Ver correlaciones en la matriz de correlaciones de las variables con las componentes en la Tabla XV.

1 2 3 4 5 6- 6

- 5

- 4

- 3

- 2

- 1

Figura 6.17: PC3 (1.26%)

La Figura 6.17 es prácticamente ruido. Es decir que no se ha podido capturar adecuadamente el proceso dado por el Caso III.

69

Page 8: Componentes de Varimax

MATRIZ DE CORRELACION DE LAS VARIABLES CON LAS COMPONENTES PRINCIPALES CP1 CP2 CP3 .9702 .2380 -.0464 Caso I -.8426 .4819 -.2403 Caso II .2496 -.9640 -.0911 Caso III

Tabla XV

Aplicamos el programa OFROTADO.FOR , que produce una rotación ortogonal utilizando el método Varimax, de la matriz de autovectores dada por la Tabla XIII.

Resultados:

1.00000 .00001 .00000 .00000 .00000 -1.00000 .00000 -1.00000 .00000 Tabla XVI

La Tabla XVI, muestra la matriz de los autovectores rotados la que representa una estructura simple perfecta.

PC1R PC2R PC3R

1 1034.0 -1027.0 -1012.02 1032.0 -1028.0 -1012.03 1030.0 -1036.0 -1012.04 1028.0 -1036.0 -1012.05 1026.0 -1033.0 -1012.06 1024.0 -1032.0 -1012.07 1032.0 -1028.0 -1013.08 1030.0 -1030.0 -1013.09 1028.0 -1032.0 -1013.010 1026.0 -1034.0 -1013.011 1024.0 -1034.0 -1013.012 1022.0 -1033.0 -1013.013 1030.0 -1027.0 -1014.014 1028.0 -1030.0 -1014.015 1026.0 -1032.0 -1014.016 1024.0 -1034.0 -1014.017 1022.0 -1034.0 -1014.018 1020.0 -1033.0 -1014.019 1028.0 -1026.0 -1015.020 1026.0 -1028.0 -1015.021 1024.0 -1030.0 -1015.0

70

Page 9: Componentes de Varimax

22 1022.0 -1032.0 -1015.023 1020.0 -1033.0 -1015.024 1018.0 -1032.0 -1015.025 1026.0 -1024.0 -1018.026 1024.0 -1026.0 -1018.027 1022.0 -1028.0 -1018.028 1020.0 -1029.0 -1018.029 1018.0 -1030.0 -1018.030 1016.0 -1030.0 -1018.031 1024.0 -1023.0 -1019.032 1022.0 -1024.0 -1019.033 1020.0 -1026.0 -1019.034 1018.0 -1027.0 -1019.035 1016.0 -1028.0 -1019.036 1014.0 -1028.0 -1019.0

Tabla XVIIPor su parte, la Tabla XVII, muestras las nuevas componentes principales en el sistema rotado. No es necesario graficar las mismas para ver que capturan perfectamente los procesos simulados por el Caso I, Caso II y Caso III. Simplemente comparando La Tabla XVII con la Tabla XIV, encontramos que: Caso I = ; CasoIII=

y Caso III = .

La pérdida de propiedades del PCA para sistemas de autovectores rotadosMediante la rotación del sistema de ejes formado por los autovectores como fuera descrito anteriormente, un investigador quizás pueda lograr una mejor descripción acerca de la estructura de la varianza de la historia de un sistema físico en un espacio p-dimensional. Sin embargo, por lo general, esta ganancia en una mejor descripción se logra a expensas de la pérdida de otras importantes propiedades de la representación mediante el PCA del conjunto de datos , tales como la no correlación de las series de tiempo

representadas por las componentes principales [ ] . Para ver esto, podemos

suponer que el conjunto de datos está representado en la forma (6.81), y que

la matriz ortonormal de dimensiones es ortogonal en el espacio produce una transformación (rotación) sobre el sistema de ejes dado por . Entonces , dado que

, nuestra representación de toma la forma

como en (6.118). Recordando que la matriz de las

componentes principales originales, , tiene la propiedad dada por (6.86), es decir

; vemos que la nueva matriz de las componentes principales

no tiene por lo general razón de mantener dicha propiedad. Esto puede ser visto

en forma inmediata ya que ; donde

71

Page 10: Componentes de Varimax

no podemos esperar que sea una matriz diagonal, con autovalores , a

menos que . En vista de la observación hecha anteriormente, un investigador puede aún decidir que una rotación del sistema de ejes aun nuevo sistema tiene un gran valor práctico para él, pese a la pérdida de ortogonalidad en las nuevas componentes principales.

Alternativa cuando p>n en el modo-S

Hasta el momento hemos supuesto que n>p, esto es que el número de estaciones (locaciones) en nuestro conjunto de datos mes menor que el número de valores en el tiempo (longitud de las series). En algunos casos los conjuntos de datos son tales que el cociente entre p y n es mayor que la unidad. Por ejemplo es común en las imágenes satelitales tener valores tales como p=5000 (puntos espaciales, con una resolución de

, con longitudes temporales n=50. En tal caso, la matriz de covarianzas (o de dispersión) tal como la calculamos en (6.57), tendría dimensiones , lo que requiere de procesadores muy poderosos para ser descompuesta por un PCA. Una solución alternativa a este problema está basada en el siguiente truco algebraico: La matriz

de dimensiones y la matriz de dimensiones comparten

los mismos autovalores no-nulos. En el caso de tener n>p, la matriz es menor que , entonces podemos calcular el PCA de la matriz más pequeña. Esto es, de acuerdo a la (6.72) (6.128)

Los autovalores en la matriz , coincidirán con los autovalores no-nulos de obtenidos

de . Es decir:

(6.129)

Ahora podemos obtener la matriz de autovectores proyectando la matriz de los autovectores dados por la (6.128) sobre la matriz que representa el conjunto de datos de datos originales , en la forma (6.130)donde es de dimensiones y de dimensiones . Entonces tendrá dimensiones . Observemos que, usando este método alternativo, podemos únicamente calcular los primeros n-autovectores de la matriz , de los posibles p autovectores totales

72

Page 11: Componentes de Varimax

del campo p-variado . Sin embargo este no es estrictamente un problema en nuestras aplicaciones, ya que sólo nos interesan un conjunto reducido de las primeras componentes.

73