2.Mineria.datos.meteorologia

Ciencias de la Tierra y el Espacio, julio-diciembre, 2014, Vol.15, No.2, pp.113-123, ISSN 1729-3790

Gonzalo Joya-Caparros (*) Universidad de Mlaga, Espaa. Departamento de Tecnologa electrnica. E-mail: [email protected]

113

Aplicacin de la Tcnica de Minera de Datos SOM utilizando el lenguaje R en datos climticos

Gonzalo Joya-Caparros (1), Vivian Sistachs-Vega (2), Manuel Alejandro Cabrera-Castillo (3) y

Pedro Roura-Prez (4) (1)Universidad de Mlaga, Espaa. E-mail: [email protected]

(2)Facultad de Matemtica y Computacin, Universidad de La Habana, Cuba. E-mail: [email protected] (3) Centro de Investigacin y Desarrollo de Simuladores SIMPRO, Cuba. E-mail: [email protected]

(4) Centro del Clima, Instituto de Meteorologa, Cuba. E-mail: [email protected]

Recibido: julio 4, 2013 Aceptado: mayo 5, 2014 Resumen

En los ltimos aos, la Minera de Datos ha experimentado un auge como soporte para la gestin de la informacin y el conocimiento como alternativa a la modelacin matemtica. Esta permite explorar y analizar las Bases de Datos disponibles para ayudar a la toma de decisiones. La Minera de Datos se apoya en la aplicacin de mtodos matemticos de anlisis, y especficamente del uso de redes neuronales artificiales, que son de gran utilidad para llevar a cabo el anlisis inteligente de grandes volmenes de informacin digital. Tambin la Climatologa ha utilizado durante aos las tcnicas y herramientas estadsticas de manera sistemtica, ellas brindan la posibilidad de explorar bases de datos existentes mediante mtodos estadsticos. Estos mtodos permitirn realizar descripciones y predicciones con menor incertidumbre por ello el objetivo que perseguimos a partir de la informacin obtenida del Departamento de Climatologa del Instituto de Meteorologa, referida a variables climticas en las diferentes provincias de Cuba en el ao 2011 es describir el comportamiento climtico a partir de los datos observados con el fin de buscar relaciones y agrupamientos entre ellos. Para lograrlo utilizaremos la tcnica de Minera de Datos, Mapas auto-organizados (SOM por sus siglas en ingls) y se confeccion un paquete en R para facilitar el anlisis. Se logr una descripcin del comportamiento climtico de Cuba en el ao 2011, el cual se caracteriz por presentar dos estaciones bien definidas en periodos concretos y se obtuvo una descripcin ms detallada de cada uno de estos perodos. Palabras clave: Minera de Datos, Mapas auto-organizados, K-Medias.

Application of Data Mining Technique SOM using the R language on climate data

Abstract

On the latest years, Data Mining (DM) has experienced a growth as a support for information management and the knowledge as alterative to mathematical modeling. This allows exploring and analyzing the Data Bases (DB) available to help on decision making. Data Mining is based on the application of mathematical analysis methods and specifically the use of artificial neural networks, of great utility to carry out intelligent data analysis in great volumes of digital information. Climatology has used too, for many years in a systematic way techniques and statistics tools, allowing the possibility of exploring existing data bases by these means. These methods allow realizing descriptions and predictions with low uncertainty levels, thus the goal we peruse with this work is from information obtained by the Climatology Department, referred to the environmental variables on the different provinces of Cuba on 2011, to describe the climatic behavior of that year, from the observed data in order to seek relations and clustering among them. To achieve our goal we used the data mining technique Self- Organizing Maps (SOM) and in the process we make an R package to facilitate the analysisof this problem. We accomplish a description of the climatic behavior in Cuba on the year 2011, which was characterized by two well defined seasons on concrete periods, thus obtaining a more detailed description of each period. Keywords: data mining, Self-Organizing Maps, K-Means

Minera de datos SOM usando el lenguaje R en datos climticos

114

1. Introduccin El volumen de datos que se acumula continuamente, y la necesidad de encontrar mtodos que permitan descubrir conocimientos (dentro de esas enormes masas de datos), han convertido a la Minera de Datos en una disciplina de importancia estratgica para la planeacin y la toma de decisiones (Aluja, 2001 y Hans, 2006). La Minera de Datos se apoya en la aplicacin de mtodos matemticos de anlisis, y especficamente del uso de redes neuronales artificiales, que son de gran utilidad para llevar a cabo el anlisis inteligente de grandes volmenes de informacin digital (Hastie, 2009).En la Minera de Datos se coleccionan los datos y se espera que de ellos emerjan hiptesis. De ah que la Minera de Datos debe presentar un enfoque exploratorio y no confirmador. SOM (Self-OrganizingMaps) (Kohonen, 2001) es un eficiente algoritmo neuronal (no supervisado) que permite proyeccin de datos que habitan en un espacio multidimensional, a una retcula bidimensional denominada mapa, preservando cualitativamente la organizacin (topologa) del conjunto original. Desde que SOM fue introducido por T. Kohonen en el ao 1982 se han desarrollado diversas aplicaciones en la Minera de Datos que han dado solucin a una gran variedad de problemas. Entre las aplicaciones, la Climatologa ha utilizado durante aos las tcnicas y herramientas estadsticas de manera sistemtica (Olaya and Adeyemo, 2012), ellas brindan la posibilidad de explorar bases de datos existentes mediante mtodos estadsticos. Estos mtodos permiten realizar descripciones y predicciones climatolgicas. Por lo anterior , a partir de la informacin obtenida del Departamento de Climatologa del Instituto de Meteorologa, referida a variables climticas en las diferentes provincias de Cuba en el ao 2011 , el objetivo principal de este trabajo es describir el comportamiento climtico a partir de los datos observados con el fin de buscar descripciones y agrupamientos entre ellos. En la seccin 2 se aborda el problema del tratamiento de SOM dentro de las tcnicas de Minera de Datos. En la seccin 3 se describen los datos y la metodologa de trabajo seguida y en la seccin 4 se presentan los resultados y la discusin sobre el comportamiento del clima en Cuba durante el ao 2011. 2. Materiales y mtodos 2.1 SOM Los mapas auto-organizados son un tipo de red neuronal con aprendizaje no supervisado (Gurney, 1997)que describen una correspondencia entre un espacio de entrada y uno de salida (Fig. 1).De manera usual la dimensionalidad del espacio de entrada es mucho mayor que la del espacio de salida. SOM mapea el espacio de entrada de las muestras en un espacio de menor dimensin en el cual la medida de similaridad entre las muestras se calcula considerando la relacin de cercana de los vecinos.

Fig. 1. Representacin de una red neuronal SOM

Joya-Caparros et al.

115

Fig. 2. Topologas usadas en la capa de salida de SOM. (a) Unidimensional. (b) Circular. (c) Rectangular. (d) Hexagonal.

Las topologas de salida ms utilizadas son la Rectangular y la Hexagonal (Fig. 2). Estas pueden utilizarse para obtener una representacin de pequea dimensionalidad de los datos con el propsito de visualizarlas. De ah que a menudo la dimensionalidad del espacio de salida sea 2 o 3. La capa de entrada est formada por neuronas, donde es la dimensin del espacio de entrada. La topologa y la cantidad de neuronas en la capa de salida queda a eleccin. Cada neurona de entrada est conectada con todas las neuronas de la capa de salida y no existen conexiones entre neuronas de una misma capa, por lo que cada neurona de salida tiene asociado un vector de pesos de dimensin que la representa.Entre las neuronas de la capa de salida se define un criterio de vecindad. A continuacin se hace una descripcin del algoritmo de entrenamiento (Gurney, 1997):

1. Inicializar los pesos de forma aleatoria 2. Hacer una seleccin aleatoria de cada vector en el conjunto de entrenamiento y se aplica el siguiente

procedimiento para cada seleccin : 2.1. Buscar la neurona ganadora, que es aquella neurona de salida cuyo vector de pesos cumpla que = min , o sea, que es el ms cercano al vector seleccionado

2.2. Actualizar los pesos de la neurona y las que estn en la vecindad segn un criterio de vecindad en la topologa escogida (las reas sombreadas en la Fig. 2 definen vecindades de la neurona del centro). La asignacin de los nuevos pesos sigue la siguiente regla

=( ),

0,

Donde es el factor de aprendizaje de la red 3. Disminuir un poco 4. Despus de cierto nmero de iteraciones, disminuir la funcin de vecindad

La idea detrs de este algoritmo es ir acercando los vectores de pesos de las neuronas ganadoras y sus vecindades a los respectivos patrones de entrenamiento. Reducir progresivamente la funcin de vecindad y el factor de aprendizaje contribuye a estabilizar la red y converger hacia una caracterizacin del conjunto de entrenamiento. La capacidad de reduccin de la dimensin provee de una til herramienta para comprender la naturaleza del conjunto de entrenamiento. De esta forma es posible usar SOM para entender, por ejemplo, cuantos grupos


116

significativos pueden existir en el conjunto y realizar agrupamientos sin la necesidad de conocer a priori la cantidad de clster (Hans, 2006) en los que se agrupar. 2.2 Software R El R es un lenguaje y un entorno de programacin, creado en 1993 por Ross Ihaka y Robert Gentleman del Departamento de Estadstica de la Universidad de Auckland (R Development Core Team, 2013), cuya caracterstica principal es que forma un entorno de anlisis estadstico para la manipulacin y el clculo de datos, as como la creacin de grficos. R puede considerarse como otra implementacin del lenguaje de programacin S-PLUS, con la particularidad de que es un software GNU, General PublicLicense (conjunto de programas desarrollados por la Free Software Foundation), es decir de uso libre. El entorno incluye un intrprete del lenguaje R y numerosos complementos (paquetes) para aplicaciones estadsticas concretas. El lenguaje R es orientado a objetos, interpretado a alto nivel y tiene una sintaxis dirigida al manejo de datos estadsticos. Desde la pgina oficial de R(www.r-project.org) es posible descargar el archivo de instalacin que permite una fcil, prctica y muy rpida puesta en marcha del software, y funciona en una amplia variedad de plataformas (Elosua, 2011) (Arriaza, 2008)(LutgardeyBuydens,2007). Se desarroll un paquete con el software necesario para el anlisis de este tipo de datos climatolgicos usando SOM facilitando la interpretacin de los resultados. Existen otras herramientas que desempean tareas similares en entornos de desarrollo como MATLAB (Gilat, 2011) el componente MeteoLab (Meterological Machine LearningToolbox) (Gutirrez, Cano, Cofio, y Sordo, 2004), pero tiene el inconveniente de que no es libre. Tambin existen sistemas estadsticos y de minera de datos para el anlisis de informacin, como Weka (Witten, Frank, y Hall, 2011), S-Plus(Longhow, 2001), en los cuales es posible realizar los mismos tipos de anlisis, pero por las facilidades que ofrece R y la comunidad cientfica a su alrededor se escogi este para el desarrollo de la herramienta. 2.3 Datos climatolgicos El Departamento de Climatologa del Instituto de Meteorologa de Cuba, estaba interesado en conocer si exista algn patrn de informacin del ao 2011 en el pas, referida a las variables climticas siguientes:

TMed: Temperatura media (Temperatura ambiente del aire). TMin: Temperatura mnima (Temperatura ms baja alcanzada en un intervalo de tiempo dado). TMax: Temperatura mxima (Temperatura ms alta alcanzada en un intervalo de tiempo dado). TMaxAbs: Temperatura mxima absoluta mensual (Temperatura ms alta de las temperaturas mximas

mensuales observadas en un mes dado durante un nmero de aos determinados). TMinAbs: Temperatura mnima absoluta mensual (Temperatura ms baja de las temperaturas mnimas

mensuales observadas en un mes dado durante un nmero de aos determinados). AmpTem: Amplitud de Temperatura (Diferencia entre las temperaturas mximas y mnimas medias en un

intervalo de tiempo dado). HRMed: Humedad relativa media (Relacin entre la fraccin molar del vapor de agua en el aire y la

fraccin molar correspondiente si el aire estuviese saturado con respecto al agua a una presin y una temperatura dadas).

Nubosidad: Nubosidad (Fraccin del cielo cubierta por nubes de un gnero, una especie, una variedad o una capa dadas o por una combinacin particular de nubes).

RR: Precipitaciones (Cantidad de das con lluvia). RRMax: Precipitaciones mxima (Es la mxima lluvia que se registra en un da). RRTotal: Precipitaciones Total (La suma de todas las veces que ha llovido en el mes).

2.3.1 Metodologa de trabajo Se realiz un estudio del comportamiento del clima en Cuba durante el ao 2011, tomando como referencia variables meteorolgicas de diferentes tipos como temperaturas, precipitaciones, humedad relativa y nubosidad. El conjunto de datos, formado por 180 observaciones de las variables climatolgicas en las 15 provincias de Cuba durante todos los meses del ao 2011, obtenidas mediante el promedio de los valores recogidos en todas las estaciones experimentales del pas. Este conjunto se utiliza como datos de entrenamiento para construir una red


117

neuronal SOM. Uno de los principales usos de la redes SOM es representar datos de dimensin n en dimensin 2, por tal razn la capa de neuronas de salida de la red es una malla de 6 filas y 19 columnas que conforman un total de 114 neuronas de salida. Cada neurona de salida se caracteriza por tener un vector centroide que representa al grupo de las observaciones que salgan por esta. Como no es de inters tener 114 grupos distintos se aplic el algoritmo K-Medias(Johnson & Wichern, 2002)para agrupar las neuronas de salida de la red SOM y as facilitar la interpretacin de los datos en trminos de las estaciones del ao y las zonas del pas. Como parte de la presente investigacin y con el objetivo de experimentar con diferentes variantes en la topologa de la malla de salida y los agrupamientos posibles se confeccion un paquete de software soportado en R que incluye diferentes funcionalidades que permiten obtener y graficar la red automticamente. 3.- Resultados y discusin Debido a la forma alargada del pas y la presencia usual de dos estaciones (verano e invierno) y dos perodos de transicin (verano-invierno e invierno-verano) se decidi crear particiones de 3, 4, 5 y 6 grupos. Los grficos de las neuronas de la capa de salida de SOM agrupadas en las particiones pueden observarse en las Figs. 3, 4, 5 y 6 en el mismo orden en el que fueron mencionadas. Como puede observarse cada particin arroja resultados similares y se distingue cierto patrn en cuanto a las caractersticas de los grupos presentes en cada poca del ao.

Fig. 3. Neuronas de la capa de salida de SOM en 3 grupos


118


Al particionar en 6 grupos se observa que los grupos 1, 4 y 6, a la izquierda del grfico, presentan bajas temperaturas y precipitaciones, humedad relativa moderada, as como variables meteorolgicas caractersticas del invierno. El grupo 3 tiene altas temperaturas pero bajas precipitaciones. Los grupos 2 y 5, a la derecha del grfico, se caracterizan por altas temperaturas, elevada humedad relativa y abundantes precipitaciones, parecen representar al verano.

En la particin de 5 grupos se observa algo similar. Los grupos 2 y 5 corresponden con valores altos de precipitaciones, los del 2 por encima de los del 5, presencia de elevada humedad relativa y temperaturas, que son caractersticas del verano. Nuevamente el grupo 3 presenta altas temperaturas y bajas precipitaciones. Los grupos 1 y 4 representan al invierno con presencia de bajas temperaturas y escasas precipitaciones.



119


La particin de 4 grupos arroja que en el grupo 2 representa el verano por las condiciones de las variables climticas, altas temperaturas, precipitaciones, humedad relativa y nubosidad, as como baja amplitud de las temperaturas. Igualmente, el grupo 4 se asocia a altas temperaturas, sobre todo la mxima absoluta y tambin la amplitud de temperatura es grande pero se caracteriza adems por bajas precipitaciones y humedad relativa, como una transicin. En el grupo 3 estn presentes bajas temperaturas y humedad relativa con escasas precipitaciones, pero con una gran amplitud de temperatura. Por ltimo, el grupo 1 es caracterstico del invierno por sus bajas temperaturas y escasas precipitaciones. En la particin de 3 grupos se observa que el grupo 1, ubicado a la izquierda del grfico, presenta altas temperaturas, elevada humedad relativa y abundantes precipitaciones, estas son condiciones caractersticas del verano. El grupo 2, en el extremo derecho del grfico, se refiere al invierno por la presencia de bajas temperaturas, pocas precipitaciones y baja humedad relativa. El grupo 3 puede representar a la poca de transicin verano-invierno por la presencia de elevada temperatura mxima absoluta y la mayor amplitud de temperaturas. En realidad la representacin mejor definida es la de 4 grupos que es muy sencilla: verano, invierno, teniendo en cuenta que a su vez cada una se caracteriza por tener muchas y pocas precipitaciones en cada estacin, o sea, un verano muy lluvioso (grupo 2), un verano menos lluvioso (grupo 4), un invierno con algo de lluvia (grupo 3) y un invierno seco (grupo1). Esta representacin se corresponde con los resultados esperados: dos estaciones dominantes y dos de transicin usuales en Cuba. La representacin escogida puede verse en la Fig. 7 a travs de los meses del ao en las diferentes provincias del pas, donde por colores se ubicaron los grupos. El grupo 2(azul fuerte) es el verano lluvioso, el grupo 4(rojo) para el verano con escasas precipitaciones(seco) y el grupo 1(azul claro) y el grupo 3(anaranjado) para el invierno, el primero para invierno con lluvias y el segundo para invierno menos lluvioso. Adems, en la parte superior de la Fig. 7 aparecen los centroides por grupo. De este estudio utilizando la tcnica SOM para la descripcin de datos apreciamos lo siguiente: Durante los meses de enero y febrero hubo un patrn de invierno caracterizados por las bajas temperaturas. Enero se comport, segn las salidas (Fig. 7), de forma favorable teniendo en cuenta las precipitaciones, sin embargo hay que destacar que Granma tuvo los menores valores de precipitacin an con las mismas condiciones de temperaturas. Anlogamente Guantnamo present una anomala en las condiciones de verano lluvioso (caracterstico del grupo2). En febrero predomina el invierno en todo el pas con un periodo poco lluvioso excepto Las Tunas y Holgun, que estn al norte de las provincias orientales del pas y tienen los valores ms altos de precipitacin.


120

En marzo an contina la presencia de invierno pero menos lluvioso, excepto Granma y Las Tunas que ya se ven condiciones propias de verano con escasas precipitaciones (Fig. 7). En abril y mayo en todo el pas hay condiciones de verano poco lluvioso excepto Santiago de Cuba que presenta de forma inusual temperaturas ms bajas que el resto del pas. Los meses de junio a octubre son tpicos de verano lluvioso en todo el pas con altas temperaturas y humedad relativa, destacndose como excepcin Santiago de Cuba en los meses de julio y septiembre teniendo un verano muy seco, es decir con pocas precipitaciones. Al finalizar el ao (noviembre y diciembre) el pas tena condiciones de invierno o sea de bajas temperaturas y precipitaciones excepto en la provincia de Granma que an tena altas temperaturas como verano poco lluvioso, en diciembre sus temperaturas descendieron tpico del invierno


121

Fig. 7. Particin de cardinalidad 4 con los centroides de cada grupo

Conclusiones

Con la aplicacin SOM y el desarrollo de un paquete para R se logr una descripcin del comportamiento climtico del pas Cuba en el ao 2011. Se caracteriz por presentar dos estaciones bien definidas en periodos concretos: el inicio del ao (enero a marzo) comienza con invierno, el verano de junio a octubre y el inicio del nuevo invierno de noviembre a diciembre.


122

El verano se caracteriz por tener altas temperaturas y dos grupos, uno de pocas precipitaciones (rojo, grupo 4) y otro de muchas precipitaciones (azul fuerte, grupo 2) y el invierno se caracteriz por bajas temperaturas y tambin dos grupos, uno con precipitaciones (azul claro, grupo1) y otro con pocas precipitaciones (anaranjado, grupo3). En ese ao se destacaron algunas provincias con situaciones anmalas en el oriente del pas como fueron Guantnamo en enero, tuvo una situacin en el clima con presencia de verano, altas temperaturas y lluvias, Granma que se mantuvo todo el ao poco lluvioso y Santiago de Cuba estuvo tambin seco en mayo, julio y septiembre. Recomendaciones

Con el objetivo de facilitar y agilizar el anlisis de este tipo de datos se recomienda terminar y difundir el paquete de R en construccin, que brinda funcionalidades para este trabajo. Ampliar el anlisis en un mayor perodo de tiempo para sacar conclusiones del fenmeno desde un punto de vista ms global. Con ayuda del paquete, realizar este anlisis con aos anteriores y futuros para realizar comparaciones en el clima del pas. Agradecimientos

A la AECID (Agencia Espaola de Cooperacin Internacional para el Desarrollo), Proyecto A2/038418/11 por el apoyo para la realizacin de este trabajo. Y al proyecto del INSMET Prediccin estacional de las anomalas de precipitacin y temperaturas mximas y mnimas medias por conjuntos (Ensemble) para Cuba por facilitar los datos. Referencias

Aluja , T. 2001. La mineria de datos entre la Estadistica y la Inteligencia Artificial. Questiio.vol 25,3,p 479-498 Arriaza A. J., Fernndez, F, Lpez, M A, Muoz, M, Prez, S, y Snchez, A. 2008.Estadstica bsica con R y R-

commander. 1 ed. Cdiz: Servicio de Publicaciones de la Universidad de Cdiz. ISBN: 978-84-9828-186-6.Data Mining for Climate Change and Impacts 978-0-7695-3503-6 2008 U.S. Government Work Not Protected by U.S. Copyright DOI 10.1109/ICDM.Workshops.

Elosua, P. 2011. Introduccin al entorno R, Ed. Universidad del Pas Vasco. Gilat, A. 2011. MATLAB an Introduction with Applications. Wiley. Gurney, Kevin. 1997. AnIntroduction to Neural Networks.CRC Press. Gutirrez, J. M., Cano, R., Cofio, A. S., & Sordo, C. 2004. Redes Probabilsticas y Neuronales en las Ciencias

Atmosfricas. Monografas del Instituto Nacional de Meteorologa. Ministerio de Medio Ambiente, Espaa. Han, J. y Kamber, M. 2006.Data Mining: Concepts and Techniques, Captulo 8: Cluster Analysis, pginas 1-13. Hastie, T., Tibshirani, R. and Friedman, J. 2009. The Elements Statistical Learning, Dataminig, Inference and

prediction. Springer. Four Edition. Kohonen, T. 2001. Self-Organizing Maps, 3ra Edicin, Springer-Verlag. Longhow, L. 2001. S+ An Introduction to S-Plus for Windows. CANdiensten. Olaya, F. y Adeyemo, A.B. 2012. Application of Data Mining Techniques in Weather Prediction and Climate

Change Studies I.J. Information Engineering and Electronic Business, 2012, 1, 51-59 Published Online February 2012 in MECS (http://www.mecs-press.org/) DOI: 10.5815/ijieeb.2012.01.07.

PREGIBON, D. 1997. Data mining. Statistical Computing and Grafics, vol 7, n 8. R DEVELOPMENT CORE TEAM. 2008 R: A language and environment for statistical computing, R Foundation for Statistical Computing, Viena (Austria). Recurso en lnea: [consulta: 10

de julio de 2013]. Vivaracho-Pascual, C. V. y Moro-Sanchoi, Q. I. 2001.Informe tcnico: Redes Neuronales Artificiales, Captulo 2: El

Perceptron Multicapa y los Mapas Auto-organizados, paginas 12-24. Wehrens, R. y Buydens. 2007.Self- and Super-organizing Maps in R: The kohonen Package L.M.C. Journal of

Statistical Software October 2007, Volume 21, Issue 5. Witten, I. H., Frank, E., y Hall, M. A. 2011. Data Mining: Practical Machine Learning Tools and Techniques. Third

Edition. Morgan Kaufman.


123

Acerca de los autores: Gonzalo Joya-Caparros: Doctor en Ciencias Fsicas, Profesor Titular y Profesor invitado de

la Universidad de la Habana, trabaja en la Universidad de Mlaga, como Jefe departamento de Tecnologa electrnica. Vivian Sistachs-Vega: Profesora Titular y Doctora en Ciencias Matemticas, del Departamento de Matemtica Aplicada, Facultad Matemtica y Computacin, Universidad de La Habana. Manuel Alejandro Cabrera-Castillo: Licenciado en Ciencias de la Computacin, trabaja como Desarrollador de Software en el Departamento de Desarrollo de Software, Centro de Investigacin y Desarrollo de Simuladores SIMPRO, FAR.

Pedro Roura-Prez: Licenciado en Matemtica Pura, labora en el Departamento de Datos, Centro del Clima, Instituto de Meteorologa, como Especialista en Meteorologa.

2.Mineria.datos.meteorologia

Documents

Transcript of 2.Mineria.datos.meteorologia