MINERÍA DE DATOS: HERRAMIENTAS, TÉCNICAS Y …...del mismo de forma que puedan construir una base...
Transcript of MINERÍA DE DATOS: HERRAMIENTAS, TÉCNICAS Y …...del mismo de forma que puedan construir una base...
-
MINERÍA DE DATOS: HERRAMIENTAS, TÉCNICAS Y METODOLOGÍAS
Martínez de Pisón, J1P;Pernía Espinoza, A2.; González Marcos, A1.
1UNIVERSIDAD DE LA RIOJA. Área de Proyectos de Ingeniería. 2UNIVERSIDAD DE LOS ANDES. Dpto. de Circuitos y Medidas
RESUMEN
Actualmente, la capacidad de acceso y almacenamiento de la información que
tienen las empresas crece a pasos agigantados pero no así la capacidad para
asimilarla.
En este artículo se presentan, a modo introductorio, un estudio de las diferentes
herramientas informáticas existentes, metodologías y técnicas de minería de datos
que más se están utilizando en la actualidad para el análisis de la información.
Mediante éstas herramientas y técnicas se pueden obtener patrones y estructuras
de información muy valiosas para la industria que pueden ayudar, mediante el
análisis de los grandes volúmenes de datos de históricos almacenados, a mejorar la
calidad y reducir los costes de los procesos productivos así como comprender mejor
las causas que generan fallos en los mismos.
ABSTRACT
Nowadays, the business information access and storage capacity grows very fast but
isn’t the same with the assimilation capacity.
This paper presents the state of the art of different data mining tools, methodologies
and techniques for the information analysis.
Through the manage of this tools and techniques to analyse huge amount of stored
process data, we can obtain very useful industrial information patterns and structures
that can help to improve the processes quality and reduce its costs. Also we can
have a better understanding of failures causes to make suitable decisions.
359
-
1. INTRODUCCIÓN
El desarrollo tecnológico ha aumentado considerablemente la mejora de los
sistemas de almacenamiento de datos de las empresas. El problema es, que a
medida que aumenta nuestra capacidad para almacenar y acceder a la información,
más problemas tenemos para tratarla. Un ejemplo claro lo podemos ver en la
“revolución” que ha supuesto Internet y en cómo la información que se genera dentro
de cualquier campo de nuestro interés aumenta considerablemente cada año,
mientras que a su vez, cada vez nos vemos más incapaces de asimilarla.
En la industria, igualmente, la preocupación de las empresas por producir “mejor y
más barato”, la búsqueda constante de reducir “incertidumbre” en el proceso de
fabricación y el aumento creciente de la información que se tiene de los procesos
productivos, hace que crezca, cada vez más, la necesidad por analizarla [Castejón
et al (2001)]. Bien es cierto, que esta necesidad solo aparece cuando la empresa
tiene un volumen de históricos realmente importante del proceso.
Por otro lado, lógicamente, el tener un aceptable grado de automatización y
datawarehouse es requisito indispensable, ya que si no se dispone de la
infraestructura necesaria para capturar y almacenar convenientemente la
información, difícilmente se podrá obtener nada de ella [Ordieres (2000)]. Esto
implica que las empresas, antes de poder mejorar el proceso de producción con la
minería de datos, deben invertir en mejorar los sistemas de automatización y control
del mismo de forma que puedan construir una base de datos con históricos del
proceso completa y de buena calidad.
Las herramientas de data mining y estadística multivariante son útiles en este
momento, cuando ya tenemos un volumen de información importante y de buena
calidad. Los campos de aplicación de estas nuevas técnicas dentro de la industria
son numerosos: control de calidad, identificación de sistemas, determinación de
causas en fallos del proceso, detección de anomalías, prevención de fallos,
modelización de sistemas, obtención de reglas y patrones de comportamiento,
búsqueda de causas y relaciones entre variables, etc.
360
-
2. TÉCNICAS DE MINERÍA DE DATOS
Como vemos, se puede decir que la minería de datos es un conjunto de
metodologías y herramientas que mediante el análisis de grandes cantidades de
datos nos ayudan a obtener patrones de comportamiento o tendencias ocultas que
pueden ser muy útiles en la toma de decisiones [Mtnez. de Pisón et al (2001)].
Para alcanzar buenos resultados es necesario comprender que la minería de datos
no se basa en una metodología estándar y genérica que resuelve todo tipo de
problemas, sino que consiste en una metodología dinámica e iterativa que va a
depender del problema planteado, de la disponibilidad de la fuentes de datos, del
conocimiento de las herramientas necesarias, de la metodología desarrollada y de
los requerimientos y recursos de la empresa.
Los que si resulta necesario, es conocer qué técnicas pueden utilizarse en esa
búsqueda de patrones o tendencias ocultas y qué podemos incluir dentro del área de
la minería de datos. Realmente, los métodos y técnicas pueden categorizarse en
diferentes formas [Wang (1999)], aunque muchas de éstas pueden ser asociadas a
otros campos (estadística, programación evolutiva, etc.) según el uso que se haga
de ellas. Fundamentalmente se dividen en:
• Técnicas de Clusterizado: A partir de una base de datos de observaciones, se
busca agruparlas dentro de un número de clases preestablecidas o no,
generalmente mediante criterios de distancia o similitud, de forma que las
observaciones que pertenezcan a una de las clases sean similares entre si y
distintas con las de otras clases. Algunas técnicas muy utilizadas son: K-
Means, las Redes SOM (Self Organization Maps), Sistema de clasificación
automática Bayesiana (Autoclass), Teoría de Resonancia Adaptativa (ART y
ART2), otro tipo de redes neuronales, etc.
• Clasificadores: Tratan de buscar unas leyes o patrones que “expliquen”,
dentro de un cierta “incertidumbre” y partiendo de una base de datos de
observaciones, el comportamiento de unas variables frente a otras. Se dividen
fundamentalmente en: generadores de árboles de decisión, generadores de
reglas, modelos de regresión, redes neuronales, redes funcionales,
clasificadores bayesianos, algoritmos genéticos, métodos visuales,
clasificadores fuzzy, etc.
361
-
• Técnicas de Reducción de Dimensión y Visualización de la Información:
Tienen como objetivo reducir el número de variables y visualizar la nube de
puntos N-Dimensionales para poder detectar estructuras o características de
forma visual. Podemos encontrar en este grupo técnicas muy utilizadas como
por ejemplo: Análisis de Componentes Principales (PCA), proyector Sammon,
PCA no lineal, proyector Andrews, Proyección Pursuit, RADVIZ, Gráficos de
Coordenadas Paralelas, etc.
Poll
Data mining tools you regularly use: [967 choices, 551 voters]
SPSS Clementine (128) 13% Weka (101) 10% SAS (100) 10% CART/MARS (89) 9% SPSS/AnswerTree (76) 8% SAS Enterprise Miner (67) 7% Other commercial tools (65) 7% Other free/open-source tools (57) 6% MATLAB (52) 5% Microsoft SQLServer/Excel (40) 4% Insightful Miner (36) 4% IBM Intelligent Miner (35) 4% KXEN (35) 4% C4.5 / C4.8 (29) 3% Angoss (26) 3% Megaputer Polyanalyst (10) 1% Neuralware (8) 1% Oracle Suite (Darwin) (8) 1% Quadstone (3) 0.3% ThinkAnalytics (2) 0.2%
Figura 1. Herramienta de Minería de Datos usadas habitualmente (Junio de 2002).
(http://www.kdnuggets.com/polls/data_mining_tools_2002_june2.htm)
Algunas de las técnicas descritas anteriormente, pueden ser aplicadas con alguna
de las herramientas que se describen a continuación (para más detalle consultar [1]).
3. HERRAMIENTAS INFORMÁTICAS
En la Figura 1 podemos apreciar, el resultado de una encuesta hecha en el conocido
portal sobre Minería de Datos y Gestión del Conocimiento, KDnuggets [KDnuggets
(2002)], donde se pregunta al encuestado sobre la herramienta de Data Mining que
habitualmente usa.
362
-
Este tipo de encuesta es particularmente importante, porque nos da una idea de las
aplicaciones que más están usando los profesionales y nos puede ayudar a decidir
correctamente cuando tengamos que adquirir uno de estos programas.
La lista que aparece en la Figura 1 es una pequeña muestra de las múltiples
aplicaciones que existen en el mercado. De ella destacan programas comerciales
que forman parte de familias de aplicaciones estadísticas como por ejemplo: SAS
(SAS, SAS EnterpriseMiner), o SPSS (SPPS Clementine, SPSS AnswerTree) y que
son preferencia de aquellos que habitualmente trabajan con estos paquetes.
Figura 2. Ejemplo del programa comercial (PolyAnalyst (www.megaputer.com)).
Por otro lado, este tipo de aplicaciones comerciales contrastan con otras
desarrolladas íntegramente en el campo de la Minería de Datos como por ejemplo:
CART/MARS, IBM-I-Miner, Angoss, Megaputer PolyAnalyst, KXEN, etc.; y que
fundamentalmente abarcan métodos estadísticos y de visualización combinados con
algoritmos, bastante eficientes, más propios de Minería de Datos (clasificadores,
generadores de reglas, clusterizado, etc.).
Habitualmente, estas herramientas disponen de sus propios entornos gráficos y
suelen permitir al usuario hacer múltiples tareas, pero siempre acotados a las
especificaciones de cada aplicación. El grado de eficiencia de cada herramienta
depende de múltiples factores: tipos de algoritmos, funciones de tratamiento de la
información, eficiencia de los algoritmos, generadores de informes, formas de pasar
la información, etc.; aunque generalmente, los primeros de la lista cubren bastante
bien las expectativas que se espera de ellos. Algunos de ellos, como el que se
muestra en la Figura 2, pueden ser descargados de la red y evaluados durante un
corto periodo de tiempo.
363
-
Por otro lado, en la segunda posición de la lista, se alza la herramienta WEKA. Esta
aplicación es de libre distribución (licencia GPL) y destaca por la cantidad de
algoritmos que presenta así como por la eficiencia de los mismos. Esta aplicación
está desarrollada por miembros de la Universidad de Waikato (Nueva Zelanda) y es
una muy buena opción, tal y como muestra la encuesta, frente a las costosas
distribuciones comerciales.
-4 -2 0 2 4
010
0030
0050
00
Distribución de Bobinas con (Error40)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Distribución de Bobinas con (Error 40, ]$LARGO
Freq
uenc
y
0 1000 2000 3000 4000 5000 6000
05
1015
010
0030
0050
00
Distribución de Bobinas con (Error40)
0 1000 2000 3000 4000 5000 60000
e+00
2 e
-04
4 e
-04
Distribución de Bobinas con (Error40)
N = 144 Bandwidth = 148.3
Den
sity
Figura 3. Algunas de múltiples posibilidades que ofrece el programa R para visualización de datos.
Según nuestra experiencia, hemos obtenido excelentes resultados con las
herramientas de libre distribución siguientes:
• R: Herramienta excelente para el análisis de datos basada en el conocido
programa estadístico S-Plus y con un manejo de las matrices y variables
equivalente a MATLAB. Este programa es muy útil para el análisis estadístico,
transformación y manipulación de los datos. Está compuesto de múltiples
librerías para realizar: gráficos y análisis estadísticos de todo tipo, regresiones
lineales y no lineales, modelizado, clusterizado, etc.; y sigue en continua
evolución. Cabe destacar la excelente asesoría técnica (responden las
364
-
preguntas en pocas horas) llevada a cabo principalmente por algunos de los
principales profesores e investigadores en estadística del mundo.
• WEKA: Programa de libre distribución que abarca algoritmos clasificadores de
todo tipo, generadores de reglas, herramientas de clusterizado, etc. Esta
aplicación proporciona gran cantidad de herramientas para la realización de
tareas propias de minería de datos y permite la programación en JAVA de
algoritmos más sofisticados.
• SNNS: Aplicación de libre distribución para el desarrollo, entrenamiento y
testeo de multitud de tipos diferentes de redes neuronales. Muy útil para
desarrollar clasificadores sofisticados y modelos basados en redes
neuronales.
• XmdvTool, Xgobi, IBM-OpenDX, Visipoint: Otras herramientas con licencia
GPL que tienen diferentes funciones de visualización muy útiles para
encontrar patrones ocultos en los datos.
Figura 4. Generación de un árbol con un clasificador del programa WEKA (izquierda) y diagrama de
coordenadas paralelas realizado con el programa XmdvTool (derecha)
4. CONCLUSIONES
Hoy en día, existen herramientas de libre distribución, realmente sorprendentes. Las
que se acaban de enumerar, y muchas otras, permiten múltiples posibilidades. Los
programas R y WEKA, usados conjuntamente, no solo se pueden utilizar como
herramientas de aplicación, sino también, como auténticos entornos de
programación. Esta característica, como es lógico, unido a que su coste es cero por
365
-
ser programas con licencia GPL, aporta múltiples ventajas para los campos de
investigación y docencia en el aprendizaje y desarrollo de la Minería de Datos.
En este artículo hemos pretendido orientar sobre las técnicas y herramientas más
adecuadas que existen actualmente en el campo de la minería de datos. Si
analizamos el creciente aumento en la capacidad de almacenar información y en la
sensibilidad que tienen las empresas en la mejora de la calidad a partir del análisis
de la información que se tiene, vemos el increíble potencial futuro que se encierra en
estas herramientas.
5. AGRADECIMIENTOS
Esta comunicación está parcialmente soportada por el contrato del M.C.Y.T. DPI-
2001-1408, por el Plan Riojano de I+D y por la empresa Metzeler Ibérica S.A.
Los autores expresan el máximo reconocimiento a las entidades colaboradoras.
6. REFERENCIAS
• CASTEJÓN, M.; ORDIERES, J.B.; DE COS, F.J.; MTNEZ DE PISÓN, F.J.
(2001). Control de Calidad. Metodología para el análisis previo a la modelización
de datos en procesos industriales. Fundamentos teóricos y aplicaciones prácticas
con R. Logroño: Universidad de La Rioja. Servicio de Publicaciones.
• KDDNUGGETS (2002). Dirección Web: http://www.kdnuggets.com. Portal de
Data Mining, Web Mining & Knowledge Discovery.
• MTNEZ DE PISÓN, F.J.; ORDIERES, J.B.; CASTEJÓN, M.; DE COS, F.J.;
PERNÍA, A. (2001) Gestión del Conocimiento y Minería de Datos. Murcia: Actas
del XVII Congreso Nacional de Ingeniería de Proyectos.
• ORDIERES, J.B.; CASTEJÓN, M.; DE COS, F.J.; MTNEZ DE PISÓN, F.J. (2000)
Análisis de la Importancia del Acero en la Condiciones de Laminación en
Caliente. XIV España: Congreso Nacional de Ingeniería Mecánica.
• WANG, XUE Z. Data Mining and Knowledge Discovery for Process. (1999).
London: Springer-Verlag.
366
-
7. CORRESPONDENCIA
Persona de Contacto: Fco. Javier Martínez de Pisón Ascacíbar. Dirección: Edificio Departamental. C/ Luis de Ulloa, 20. 26004 Logroño (La Rioja). Área de Proyectos de Ingeniería. Departamento de Ingeniería Mecánica. Universidad de La Rioja. Teléfonos: 941-299232, 941-299625. Fax: 941-299478. Email: [email protected]
367