Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del...
-
Upload
nguyenthuan -
Category
Documents
-
view
224 -
download
4
Transcript of Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del...
![Page 1: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/1.jpg)
Introducción a selección de atributos usando WEKA
Blanca A. Vargas [email protected]
Reconocimiento de patronescenidet
Octubre 1, 2012
![Page 2: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/2.jpg)
2
Contenido
Introducción a WEKAInterfaces
El origen
Selección de atributos
1
2
![Page 3: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/3.jpg)
3
Selección de atributos
![Page 4: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/4.jpg)
4
¿Por qué selección de atributos?
Calidad de los datos – éxito algoritmos.
Problemas: información irrelevante, ruidosa.
Procesos lentos debido exceso de información poco significativa.
![Page 5: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/5.jpg)
5
¿Por qué selección de atributos?
Problemas aún con algoritmos como C4.5.
Selección manual: profundo conocimiento del problema y los atributos.
![Page 6: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/6.jpg)
6
¿Por qué selección de atributos?
Selección deatributos
Técnica muy usada - 1970 Elimina datos redundantes,
irrelevantes, ruidosos. Reconocimiento de patrones,
aprendizaje automático, minería de datos.
Categorización de textos, recuperación de imágenes, detección de intrusos y análisis del genoma.
![Page 7: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/7.jpg)
7
Beneficios Mejora del desempeño
predictivo
Reducción del tiempo de entrenamiento/proceso
Reducción de las necesidades de almacenamiento
Visualización y comprensión de los datos
¡Qué bueno que saquétodo lo que había
guardado en el auto!
![Page 8: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/8.jpg)
8
Selección de atributos: objetivo
Seleccionar el sub-conjunto más pequeño de atributos tal que no se afecte significativamente el porcentaje de clasificación y que la distribución resultante sea lo más parecida a la original.
![Page 9: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/9.jpg)
9
Selección de atributos: cuatro pasos
Generación de sub-conjuntos
Evaluación de sub-conjuntos
Criteriode
paro
Validaciónde
resultados
Conjunto original
Sub-conjunto
NoSi
Medida de bondad del sub-conjunto
![Page 10: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/10.jpg)
10
1. Generación de sub-conjuntos: búsquedaCada estado en el espacio define un sub-conjunto candidato.
Dirección de la búsqueda: forward y backward
![Page 11: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/11.jpg)
11
1. Generación de sub-conjuntos: búsqueda
Búsqueda exhaustiva - impráctica
Búsqueda greedy haciendo un cambio en cada estado (agregando o borrando un atributo http://en.wikipedia.org/wiki/Greedy_algorithm
Otros esquemas:Best-first, beam search
![Page 12: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/12.jpg)
12
![Page 13: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/13.jpg)
13
2. Evaluación de sub-conjuntosCada candidato es evaluado y comparado con el mejor de acuerdo a cierto criterio de evaluación.
Filtro:● Independiente● Características de los datos
Envoltura:● Dependiente del algoritmo.
● Se usa la evaluación del ● algoritmo de aprendizaje.● Costo computacional alto
como el C4.5
![Page 14: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/14.jpg)
14
Filtros: rankeoMedidas de distancia, de información. Ejemplos:
Ganancia de información.
Basado en instancias. Se muestrea aleatoriamente una instancia, se ubica a los vecinos cercanos (misma clase y opuesta).
a b c d f g consa b c d f e cons
a b c d f g consa b c d f e vocal
Irrelevante, se decrementasu score.
Relevante, se incrementasu score.
Se seleccionan los atributos con pesos positivos
![Page 15: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/15.jpg)
15
Filtros: sub-conjuntosMedidas de dependencia y de consistencia. Ejemplos:
Correlación
Consistencia
![Page 16: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/16.jpg)
16
![Page 17: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/17.jpg)
17
![Page 18: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/18.jpg)
18
3. Criterio de paro
Determina cuándo el proceso de selección debe parar.
Búsquedacompleta
Límite:No. de atributosNo. iteraciones
Se selecciona unsub-conjunto bueno
No hay mejoraal agregar o eliminar un atributo
![Page 19: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/19.jpg)
19
Introducción a WEKA
![Page 20: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/20.jpg)
20
¿Qué es WEKA?
![Page 21: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/21.jpg)
21
¿Qué es WEKA?
aikato nvironment for nowledge nalysis
WWEEKKAA
Plataforma de prueba para aprendizaje automático
![Page 22: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/22.jpg)
22
NuevaZelanda
![Page 23: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/23.jpg)
23
Origen
1993 ● Inicio del proyecto – Universidad de Waikato.●Primer versión en C y TCL/TK.●Algoritmos de distintas fuentes.
1997 ●Reimplementación en Java. ●Cambio de nombre a JAWS (Java WEKA System).
1998 ● Incluía clasificadores, reglas de asociación, filtros y evaluación.
1999 ●Se le agregó selección de atributos.●Se le regresó el nombre WEKA.
![Page 24: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/24.jpg)
24
¿Qué se puede hacer con WEKA?
Pre-proceso de datos:
Soporte de distintos formatos, conectividad a base de datos y filtrado.
Clasificación:
Más de 100 métodos.
Clustering:
K-means, jerárquicos.
![Page 25: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/25.jpg)
25
¿Qué se puede hacer con WEKA?
Selección de atributos:Diversos criterios de selección y métodos de búsqueda.
Visualización:Gráficas de atributos con respecto a la clase y a otros atributos.
Visualización: Árboles, redes bayesianas y dendogramas para clustering jerárquico.
![Page 26: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/26.jpg)
26
¿Cómo puede usarse?
●Aplicar un método de aprendizaje a un conjunto de datos y analizar la salida para aprender más sobre los datos.
●Usar métodos aprendidos para generar predicciones sobre nuevas instancias.
![Page 27: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/27.jpg)
27
¿Cómo puede usarse?
●Aplicar diferentes técnicas y comparar su desempeño para elegir uno.
●Preprocesamiento y selección de atributos: transformación de atributos continuos a nominales, eliminación de atributos irrelevantes o redundantes.
![Page 28: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/28.jpg)
28
Interfaces
Exploración de datos, filtrado, clasificación,clustering y visualización.
Experimentos que involucren clasificación y regresión. Permite comparación de desempeño.
Exploración, procesamiento y visualización. El usuario determina los pasos y puede repetirse.
![Page 29: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/29.jpg)
29
Explorer: preprocess
![Page 30: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/30.jpg)
30
Práctica
1.Con los datos del archivo rtoy.html, construye un archivo de tipo CSV.
2.Construye los sub-árboles para cada atributo.
3.Con base en 2, ¿cuál crees que sería el mejor atributo?
4.Obtén la ganancia de información para el atributo que crees sería el mejor.
5. Obtén el árbol en WEKA e interpreta los resultados del árbol. ¿Fué el mejor atributo el que tu creíste? ¿qué indica en términos del usuario el árbol obtenido?
![Page 31: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/31.jpg)
31
4. Validación de resultados
Probar con los datos/algoritmos de la aplicación de tu interés
![Page 32: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/32.jpg)
32
Actividades 1
1.Selecciona atributos usando CfsSubsetEval y búsqueda GreedyStepwise. Evalúa con 'use full training set' y con 'cross-validation'.
2.Interpreta los resultados: ¿son los mismos atributos significativos?¿Por qué?
3.Selecciona atributos usando Relief.
4.Interpreta los resultados. ¿Cuál es la diferencia en la salida con respecto a CfsSubsetEval?
Aplica la selección de atributos usando CfsSubsetEval. Datos: car, adult y mushroom
![Page 33: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/33.jpg)
33
Actividades 2
1.Selecciona atributos con WrapperSubsetEval, J48 y GreedyStepwise. Evalúa con el conjunto completo y cross-validation.
2.Interpreta los resultados. Compara con los resultados del ejercicio anterior.
3.Selecciona atributos con un filtro para atributos individuales, elimina los atributos. Corre un árbol J48 con el archivo resultante.
4.Repite pero ahora haz el proceso con J48. ¿Son los mismos atributos? ¿Con cuál conjunto es mejor la evaluación?
Aplica la selección de atributos usando WrapperSubsetEval Datos:
![Page 34: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/34.jpg)
34
Referencias
[Bouckaert et al., 2010] Bouckaert, R. R., Frank, E., Hall, M. A., Holmes, G., Pfahringer, B., Reutemann, P., andWitten, I. H. (2010). WEKA–experiences with a java open-source project. Journal of Machine Learning Research, 11:2533– 2541.
[Hall et al., 2009] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., and Witten, I. H. (2009). The WEKA data mining software: an update. SIGKDD Explorations Newsletter, 11:10–18.
[Witten et al., 2011] Witten, I., Frank, E., and Hall, M. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann series in data management systems. Elsevier Science & Technology
![Page 35: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/35.jpg)
35
Referencias
[Hall and Holmes, 2003] Hall, M. A. and Holmes, G. (2003). Benchmarking attribute selection techniques for discrete class data mining. IEEE Transactions on Knowledge and Data Engineering, 15(6):1437–1447.
[Liu and Yu, 2005] Liu, H. and Yu, L. (2005). Toward integrating feature selection algorithms for classification and clustering. IEEE Transactions on Knowledge and Data Engineering, 17:491–502
[Guyon and ElisseeU, 2003] Guyon, I. and ElisseeU, A. (2003). An introduction to variable and feature selection. Journal of Machine Learning Research, 3:1157– 1182..
![Page 36: Introducción a selección de atributos usando WEKAblancavg.com/rpatrones/selatrib-weka.pdf · del problema y los ... Selección de atributos: cuatro pasos Generación de sub-conjuntos](https://reader034.fdocument.pub/reader034/viewer/2022051522/5a70c5d97f8b9aa2538c58b4/html5/thumbnails/36.jpg)
36
Mapa Nueva Zelandahttp://www.flickr.com/photos/duncan/478984969/in/photostream/Wekashttp://www.flickr.com/photos/61897811@N00/367600536/Acumuladohttp://www.flickr.com/photos/99796131@N00/347158515/Botellashttp://www.flickr.com/photos/96547648@N00/237795761/Expertoshttp://www.flickr.com/photos/35034348187@N01/35555985/Carrerahttp://www.flickr.com/photos/97449017@N00/289473278/Ollashttp://www.flickr.com/photos/12519225@N03/2263693205/
Imágenes