Clasi caci on Jer arquica Multidimensional · 2017-10-27 · Agradecimientos En general quisiera...
Transcript of Clasi caci on Jer arquica Multidimensional · 2017-10-27 · Agradecimientos En general quisiera...
.
Clasificacion Jerarquica Multidimensional
Por
Julio Noe Hernandez Torres
Supervisada por:
Dr. Eduardo Morales Manzanares
Investigador del INAOE
Tesis sometida como requisito parcial para obtener el grado de
MAESTRO EN CIENCIAS EN LA ESPECIALIDAD
DE CIENCIAS COMPUTACIONALES
en el
Instituto Nacional de Astrofısica, Optica y Electronica
Tonantzintla, Puebla
c©INAOE 2012Derechos reservados
El autor otorga al INAOE el permiso dereproducir y distribuir copias de esta tesis
en su totalidad o en partes
Agradecimientos
En general quisiera agradecer a todas aquellas personas que me brindaron su apoyo
para alcanzar esta importante meta en mi vida.
Quisiera agradecer muy especialmente a los Doctores Eduardo Morales Manzana-
res y Luis Enrique Sucar Succar por todo el apoyo brindado a lo largo de este
trabajo de tesis ası como los consejos, la paciencia, los animos y los comentarios
brindados que me sirvieron de guıa para completar este camino que me ha dejado
gratas ensenanzas.
Tambien quisiera agradecer al comite que reviso este trabajo, conformado por los
Doctores: Luis Villasenor Pineda, Rene Armando Cumplido Parra y Jose Enrique
Munoz de Cote Flores Luna, por el tiempo prestado para la revision del presente
trabajo y cuyos comentarios me ayudaron a fortalecer algunos de los puntos de
esta tesis.
Igualmente quisiera agradecer a mis padres, Jaime Hernandez Hernandez y Olga
Torres Gonzalez, por su infinito apoyo y a mis hermanos, Adan y Paul, por haber
creıdo en mi. A mi novia Maribel Marin porque siempre conto con las palabras
adecuadas en los momentos precisos para hacerme ver lo que mi mente nublaba.
A mis amigos: Octavio y Armando Ortega, Alejandro Torres, Juan M. Cabrera,
Alejandro Rosales, Lucas Pacheco, Fabricio Otoniel Perez, Shender Avila, Dulce
J. Navarrete, Adrian Leal, Aaron Rocha, por todos los momentos compartidos y
ademas por los animos que siempre me brindaban con sus comentarios. Igualmente,
a Marisol Flores Garrido por el apoyo brindado a la treceava generacion de la
maestrıa en Ciencias Computacionales durante todo el primer cuatrimestre pero
especialmente en el curso de “Algoritmos”.
Al Instituto Nacional de Astrofısica Optica y Electronica (INAOE) por todas las
facilidades brindadas durante mis estudios de maestrıa.
Al Consejo Nacional de Ciencia y Tecnologıa (CONACYT) por el apoyo brindado
mediante la beca 364409 para realizar mis estudios de maestrıa.
Finalmente, quiero agradecer a Dios por proporcionarme salud durante todo este
tiempo y por darme la oportunidad de vivir tan gratas experiencias.
ii
“A mis padres, Jaime y Olga, por su infinito apoyo y porque han sido uno de los
pilares mas importantes que me han mantenido en pie durante los momentos mas
difıciles.”
Resumen
La clasificacion jerarquica es una variante de la clasificacion multidimensional en
donde las clases estan organizadas en una jerarquıa y el objetivo es predecir una
clase, o un conjunto de ellas, de acuerdo a una taxonomıa prestablecida. Se han
propuesto diferentes alternativas para resolver problemas de tipo jerarquico, de las
cuales las mas destacadas son las aproximaciones locales y globales. El problema
principal de los metodos locales es el de inconsistencia, este se presenta cuando se
produce un error de clasificacion en un cierto nodo siendo propagado a todos sus
descendientes. Los clasificadores jerarquicos globales tienen el problema de produ-
cir modelos complejos y, por lo general, tienden a ser dependientes al clasificador
elegido. El objetivo de este trabajo de tesis es desarrollar un nuevo metodo de
clasificacion jerarquico que tome en consideracion todos los posibles caminos (ra-
mas) en la jerarquıa al momento de realizar una prediccion. El metodo propuesto
es una alternativa inspirada en la clasificacion multidimensional. El metodo cons-
truye un clasificador multi-clase para cada nodo padre de la jerarquıa. Durante
la fase de clasificacion, todos los clasificadores locales son aplicados simultanea-
mente a cada instancia, dando como resultado la clase mas probable para cada
clasificador. Posteriormente, se aplica uno de los tres metodos propuestos para
obtener un conjunto de clases consistentes con alguna de las ramas de la jerarquıa.
Se desarrollaron dos extensiones al metodo base: La primera considera la depen-
dencia entre los clasificadores locales aplicando el metodo de encadenamiento, y
la segunda para clasificar a diferentes niveles de la jerarquıa basados en ganan-
cia de informacion. El metodo propuesto fue probado en tres diferentes conjuntos
de datos y fue comparado con los metodos del estado del arte, resultando en un
desempeno predictivo similar o superior a las demas aproximaciones en todas las
bases de datos.
Abstract
Hierarchical classification is a variant of multidimensional classification where the
classes are arranged in a hierarchy and the objective is to predict a class, or a set of
classes, according to a pre-established taxonomy. Different alternatives have been
proposed for hierarchical classification, from which the most important are the
local and global approaches. Local approaches suffer from the inconsistency error
problem, it occurs when a classification error in a certain node is propagated to
all its descendants. The global approaches produce more complex models and, in
general, tend to be dependent to the selected classifier. In this thesis is presented a
new hierarchical classifier method that takes into account all the possible paths in
the hierarchy at the moment of realize a prediction. The proposed method is an al-
ternative approach inspired in multidimensional classification. The method builds
a multi-class classifier per each parent node in the hierarchy. In the classification
phase all the local classifiers are applied simultaneously to each instance resulting
in a most probable class for each classifier. Then, one of three proposed methods
is applied to obtain a set of classes, consistent with a branch of the hierarchy.
We also developed two extensions: the first consider the dependencies between the
local classifiers using a chain classifier, and the second to classify at different le-
vels in the hierarchy based on information gain. The proposed method was tested
on three different hierarchical classification data sets and was compared against
state-of-the-art systems, resulting in superior or similar predictive performance to
the other approaches in all the datasets.
Indice general
Agradecimientos II
Resumen IV
Abstract V
Indice de Figuras IX
Indice de Tablas XI
1. Introduccion 1
1.1. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Problematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Vision General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.5. Principales Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . 7
1.6. Organizacion del Documento . . . . . . . . . . . . . . . . . . . . . . 7
2. Clasificacion 9
2.1. Clasificacion Supervisada . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1.1. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1.1. Random Forest . . . . . . . . . . . . . . . . . . . . 11
2.1.1.2. Naive Bayes . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2. Clasificacion Multidimensional . . . . . . . . . . . . . . . . . 13
2.1.3. Metodo de Encadenamiento . . . . . . . . . . . . . . . . . . 14
2.1.4. Validacion cruzada de K-pliegues . . . . . . . . . . . . . . . 16
2.1.5. Medidas de Evaluacion . . . . . . . . . . . . . . . . . . . . . 17
2.2. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
3. Clasificacion Jerarquica 19
3.1. Metodos de Clasificacion Jerarquicos . . . . . . . . . . . . . . . . . 20
3.2. Clasificacion Jerarquica Plana . . . . . . . . . . . . . . . . . . . . . 21
vii
3.3. Clasificacion Jerarquica Local . . . . . . . . . . . . . . . . . . . . . 22
3.3.1. Clasificador Local por Nodo . . . . . . . . . . . . . . . . . . 23
3.3.2. Clasificador Local por Nodo Padre . . . . . . . . . . . . . . 26
3.3.3. Clasificador Local por Nivel . . . . . . . . . . . . . . . . . . 32
3.4. Clasificacion Jerarquica Global . . . . . . . . . . . . . . . . . . . . 33
3.5. Medidas de Evaluacion Jerarquicas . . . . . . . . . . . . . . . . . . 36
3.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4. Clasificador Jerarquico Multidimensional 41
4.1. Clasificador Jerarquico Multidimensional . . . . . . . . . . . . . . . 42
4.1.1. Metodo Basado en el Producto de Probabilidades . . . . . . 44
4.1.2. Metodo Basado en la Suma de Probabilidades . . . . . . . . 45
4.1.3. Metodo Basado en el Ordenamiento Descendente de Proba-bilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1.4. Ganancia de Informacion . . . . . . . . . . . . . . . . . . . . 48
4.2. Clasificador Jerarquico Encadenado . . . . . . . . . . . . . . . . . . 51
4.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5. Experimentos y Resultados 55
5.1. Bases de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2. Casos Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.3. Construccion de los Clasificadores Base de la Jerarquıa . . . . . . . 57
5.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.4.1. Clasificador Jerarquico con y sin Encadenamiento . . . . . . 58
5.4.2. Clasificador Jerarquico Top-Down con y sin Encadenamiento 60
5.4.3. Clasificador Jerarquico Multidimensional y Ganancia de In-formacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.4.4. Tiempos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.5. Analisis y Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6. Conclusiones y Trabajo a Futuro 69
6.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
6.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
6.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.4. Trabajo a Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
Bibliografıa 73
A. Conjuntos de Datos 79
A.1. Funcat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
A.2. Reuters-21578 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.3. IAPR-TC12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Indice de figuras
3.1. Clasificacion jerarquica plana. . . . . . . . . . . . . . . . . . . . . . 22
3.2. Clasificacion jerarquica local por nodo. . . . . . . . . . . . . . . . . 23
3.3. Clasificacion jerarquica local por nodo padre. . . . . . . . . . . . . . 26
3.4. Clasificacion jerarquica local por nivel. . . . . . . . . . . . . . . . . 32
3.5. Clasificacion jerarquica global. . . . . . . . . . . . . . . . . . . . . . 34
3.6. Grafo a cıclico dirigido. . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.1. Clasificador jerarquico local. . . . . . . . . . . . . . . . . . . . . . . 42
4.2. Ejemplo de la polıtica Siblings. . . . . . . . . . . . . . . . . . . . . 43
4.3. Metodo basado en el Producto de Probabilidades. . . . . . . . . . . 45
4.4. Diferencia entre el metodo Top-Down y el producto de probabilidades. 46
4.5. Metodo basado en la Suma de Probabilidades. . . . . . . . . . . . . 47
4.6. Diferencia entre el metodo Top-Down y la suma de probabilidades. . 48
4.7. Metodo basado en el Ordenamiento Descendente de Probabilidades. 50
4.8. Diferencia entre el metodo Top-Down y el ordenamiento descenden-te de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 51
4.9. Clasificador jerarquico encadenado . . . . . . . . . . . . . . . . . . 53
5.1. Construccion de los clasificadores base de la jerarquıa. . . . . . . . . 58
5.2. Clasificador local por nodo padre. . . . . . . . . . . . . . . . . . . . 62
A.1. Proceso de re-etiquetado del conjunto de ejemplos de la Base deDatos FunCat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
A.2. Jerarquıa de la Base de Datos CellCycle. . . . . . . . . . . . . . . 81
A.3. Jerarquıa de la Base de Datos Reuters. . . . . . . . . . . . . . . . 83
A.4. Jerarquıa de la Base de Datos IAPR-TC12. . . . . . . . . . . . . . 84
ix
Indice de Tablas
1.1. Tabla comparativa de los tres metodos de clasificacion jerarquicosde acuerdo con el trabajo de [Silla and Freitas, 2011]. . . . . . . . . 3
2.1. Algoritmo de aprendizaje de Random Forest. . . . . . . . . . . . . . 12
2.2. Algoritmo de entrenamiento del metodo de encadenamiento. . . . . 15
2.3. Proceso de clasificacion del metodo de encadenamiento. . . . . . . . 15
2.4. Matrız de confusion para un problema de tipo binario. . . . . . . . 18
3.1. Tabla comparativa de los tres metodos de clasificacion jerarquicoslocales (por Nodo, Nodo Padre y Nivel). . . . . . . . . . . . . . . . 33
3.2. Tabla comparativa entre los tres metodos de clasificacion jerarquicos(Plano, Local y Global). . . . . . . . . . . . . . . . . . . . . . . . . 36
4.1. Algoritmo de ordenamiento descendente de probabilidades. . . . . . 49
5.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.2. Experimentos realizados con el clasificador jerarquico encadenadopara la base de datos IAPR-TC12 . . . . . . . . . . . . . . . . . . . 59
5.3. Experimentos realizados con el clasificador jerarquico encadenadopara la base de datos Funcat . . . . . . . . . . . . . . . . . . . . . . 59
5.4. Experimentos realizados con el clasificador jerarquico encadenadopara la base de datos REUTERS . . . . . . . . . . . . . . . . . . . 60
5.5. Experimentos realizados con el metodo Top-Down aplicando enca-denamiento para las bases de datos IAPR-TC12, Funcat y REUTERS 61
5.6. Resultados experimentales para la base de datos FUNCAT. . . . . 63
5.7. Resultados experimentales para la base de datos REUTERS. . . . 63
5.8. Resultados experimentales para la base de datos IAPR-TC12. . . 64
5.9. Tiempos de entrenamiento y clasificacion (en segundos) para cadaclasificador de la jerarquıa. . . . . . . . . . . . . . . . . . . . . . . . 65
A.1. Resumen de los 12 conjuntos de datos pertenecientes a la base dedatos FunCat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
xi
Capıtulo 1
Introduccion
Clasificar es la actividad de dividir un conjunto de objetos en un conjunto pe-
queno de clases de tal forma que los objetos en una misma clase sean similares
entre si y disimilares entre objetos de otras clases. En principio todo objeto se
puede describir por un numero finito de caracterısticas, tales como la forma, color,
altura, textura, etc. Estas caracterısticas son utilizadas para diferenciar objetos
que pueden pertenecer a una u otra clase. De esta forma, los atributos son la parte
medular de todo proceso de clasificacion debido a que a traves de estos se lleva a
cabo dicho proceso.
Los procesos de clasificacion ordenan un conjunto de objetos de acuerdo a las cla-
ses disponibles. Sin embargo y dependiendo el problema a tratar, algunas clases
pueden dividirse en sub-clases, por ejemplo los lentes se pueden dividir en: gra-
duados, de sol, de contacto, etc. De acuerdo con lo anterior, facilmente podemos
formar una relacion de tipo jerarquica entre los diferentes tipos de lentes, toman-
do como raız a la clase lentes. Ası como en el ejemplo anterior, nuestro entorno
esta repleto de situaciones en las que se encuentra involucrada la palabra jerarquıa.
Una jerarquıa es la organizacion o clasificacion de categorıas, siguiendo un orden
de importancia que parte de una raız y termina en una hoja.
El proceso de clasificacion tradicional o plano unicamente considera clases que se
encuentran en un mismo nivel, esto es, todas la clases involucradas son candidatas
para ser elegidas como la clase para un objeto dado. Sin embargo, existen mu-
chos problemas que no necesariamente tienen esta forma. Algunos problemas se
componen de clases que estan sub-divididas en otras clases que proporcionan in-
formacion cada vez mas detallada del objeto; dicha sub-division puede presentarse
1
Capıtulo 1: Introduccion 2
en varios niveles que definen la jerarquıa que compone al problema. Por ejemplo,
una jerarquıa formada por los diferentes animales de este planeta. La informacion
proporcionada por esta jerarquıa puede recorrerse de lo general a lo especıfico, esto
es, conforme se va descendiendo en la jerarquıa se va obteniendo informacion cada
vez mas especıfica de cada especie que existe en el planeta.
Cuando hablamos de jerarquıas tambien debemos considerar la relacion que existe
entre las diferentes clases. De acuerdo a esta el tipo de jerarquıa puede ser: un
arbol o un grafo acıclico dirigido (GAD). En una relacion jerarquica de tipo arbol
cada clase nodo tiene cero o a lo mas una clase padre. Y en una relacion jerarquica
de tipo GAD cada clase nodo tiene cero, uno o mas padres. La identificacion del
tipo de relacion jerarquica entre las clases determinara la forma en como debera de
abordarse cualquier problema de naturaleza jerarquica.
Tomando en consideracion lo antes expuesto, existen muchos dominios de aplica-
cion que se benefician con la clasificacion jerarquica, algunos de ellos son: Clasifi-
cacion de Textos ([Sun and Lim, 2001], [Godbole and Sarawagi, 2004],
[Dumais and Chen, 2000]), Bioinformatica ([Kiritchenko et al., 2005],
[Eisner et al., 2005], [Clare and King, 2003], [Valentini, 2009]), Clasificacion de
Imagenes ([Dimitrovski et al., 2011], [Barutcuoglu and DeCoro, 2006]), Clasifica-
cion de Generos Musicales ([Burred and Lerch, 2003], [Barbedo and Lopes, 2007],
[Silla and Freitas, 2009]), etc.
En las siguientes secciones se abordara la motivacion por la cual se llevo a cabo
este proyecto de tesis, ası como tambien los diferentes problemas existentes en el
area de la clasificacion jerarquica. Finalmente, se expondran tanto los objetivos
generales y especıficos de la presente tesis, ası como la aportacion realizada con
este trabajo.
1.1. Motivacion
Comunmente los algoritmos de clasificacion estan centrados en resolver problemas
de clasificacion plana. En este tipo de clasificacion, a los algoritmos se les provee
de un conjunto de objetos de entrenamiento, descritos por un conjunto de carac-
terısticas que incluyen la clase a la cual pertenece dicho objeto, teniendo como
tarea predecir aquellos objetos cuya clase se desconoce. En este tipo de clasifica-
cion, el clasificador predice unicamente una clase para cada ejemplo de prueba.
Capıtulo 1: Introduccion 3
Tabla 1.1: Tabla comparativa de los tres metodos de clasificacion jerarquicosde acuerdo con el trabajo de [Silla and Freitas, 2011].
Aproximacion Jerarquica Ventajas DesventajasClasificador Jerarquico *Simplicidad *Ignora completamente laPlano jerarquıa de clases.Clasificador Jerarquico *Considera la jerarquıa de *Pueden sufrir el problemaLocal clases durante las pruebas y del bloqueo.
durante la creacion de los *Dependiendo del problema aconjuntos de entrenamiento. manejar, pueden crear un*Generalmente pueden ser conjunto muy complejo deusados con cualquier clasificadores en cascada, loclasificador base. cual genera un modelo de
clasificacion complejo.*Una clasificacion erroneaen un cierto nodo espropagada hacia todas susclases descendientes.
Clasificador Jerarquico *Considera la jerarquıa de *Clasificador especıficoGlobal clases durante el proceso de *La complejidad del
entrenamiento y de prueba. modelo es proporcional*Un modelo unico de decision al tamano de la jerarquıa.(aunque complejo)
Sin embargo, existen problemas que son de naturaleza jerarquica, los cuales invo-
lucran la prediccion de clases de acuerdo a un orden pre-establecido. Por ejemplo,
en el trabajo de [Silla and Freitas, 2011] se menciona que para la categorizacion
de textos por topicos el uso de clasificadores planos es una opcion poco viable,
debido a que los topicos pueden ser muy grandes y como consecuencia habra un
incremento de almacenamiento.
Los metodos de clasificacion jerarquica, de acuerdo con [Silla and Freitas, 2011],
se dividen en tres principales grupos: planos, locales y globales. Los metodos de
clasificacion jerarquica plana (CJP) crean un unico clasificador, encargado de dis-
cernir entre las diversas clases que componen los nodos hoja de la jerarquıa. Este
tipo de clasificacion es la forma mas sencilla de abordar un problema de naturaleza
jerarquica. La clasificacion jerarquica local (CJL) considera la informacion de cada
nodo de forma independiente, esto es, cada nodo funciona como un problema de
clasificacion plana diferente, sin embargo, los resultados de cada nodo son utiliza-
dos de forma diversa para llevar a cabo la prediccion del metodo. Finalmente, la
clasificacion jerarquica global (CJG), considera toda la jerarquıa como un unico
problema. Para la CJG, regularmente se modifica un algoritmo de clasificacion de
tal forma que este considere a toda la jerarquıa en una sola corrida. La tabla 1.1
presenta la comparacion entre los diferentes enfoques de clasificacion jerarquicos.
Capıtulo 1: Introduccion 4
1.2. Problematica
De los diferentes enfoques de clasificacion jerarquica existentes, el mas difundido
es el de clasificacion jerarquica local. De este destacan los metodos Top-Down y
Top-Down con seleccion de clasificadores. Ambos toman en consideracion la infor-
macion local de cada nodo para construir los clasificadores en la jerarquıa. Pero
el primer metodo utiliza el mismo clasificador en toda la jerarquıa, mientras que
el segundo elige al mejor clasificador, a partir de una preseleccion de clasificado-
res, para cada nodo de la jerarquıa. Durante el proceso de clasificacion, en ambos
metodos, la informacion predicha por cada clasificador se considera independiente
de las demas. Cada prediccion decide la direccion que debe tomar el objeto que se
esta clasificando y si tal prediccion es erronea se heredara tal error. Estos meto-
dos trabajan con informacion enteramente local, esto es, cada clasificador realiza
su labor de manera individual e independiente; no hay informacion adicional que
provenga de los nodos superiores. En este trabajo de tesis se aprovecha la relacion
padre-hijo que existe entre lo nodos al utilizar las probabilidades predichas por
cada clasificador para realizar la prediccion de un nuevo objeto.
Los principales problemas que presentan los clasificadores jerarquicos locales son:
la inconsistencia y el problema del bloqueo. La inconsistencia es el efecto de
una clasificacion erronea en un cierto nodo de la jerarquıa, la cual es propagada
hacia todos sus nodos o clases descendientes y se presenta en clasificaciones cuya
prediccion final se centra unicamente en las hojas de la jerarquıa. En esta tesis se
busca reducir este problema al considerar todos los posibles caminos que un objeto
puede llegar a tomar a lo largo de la taxonomıa, lo anterior es realizado en funcion
de las probabilidades predichas por cada uno de los clasificadores de la taxonomıa.
El problema del bloqueo, definido por [Sun et al., 2004], surge cuando se trata de
evitar la propagacion de errores a niveles inferiores, a expensas de proporcionar
al usuario predicciones menos especıficas, en clasificaciones cuyo resultado puede
estar en uno de los nodos internos de la jerarquıa tomando como base la definicion
de umbrales en cada nivel. De acuerdo a lo anterior, un ejemplo es pasado al nivel
inferior inmediato solo si la confianza en la prediccion en el nivel actual es mayor
que un umbral. Un metodo automatico para calcular el umbral fue propuesto por
[Ceci and Malerba, 2007]. En este trabajo de tesis se propone un nuevo sistema
de paro basado en ganancia de informacion para reducir el problema del bloqueo
utilizando un enfoque diferente a la definicion de umbrales.
Capıtulo 1: Introduccion 5
En este trabajo de tesis se proponen dos esquemas de clasificacion jerarquico basa-
dos en las ideas de clasificacion plana multidimensional y de encadenamiento con
el objetivo de minimizar el problema de la inconsistencia. El metodo de clasifica-
cion multidimensional considera a todas las clases involucradas en un problema
como candidatas para un nuevo ejemplo a clasificar, siendo la prediccion final,
para dicho ejemplo, un subconjunto de esas clases. De acuerdo con lo anterior,
en este trabajo se propone un algoritmo de clasificacion jerarquico basado en la
clasificacion multidimensional; el clasificador jerarquico multidimensional (CJM).
Este clasificador tiene como objetivo reducir el problema de inconsistencia al for-
talecer la relacion existente entre las clases de la jerarquıa. Tambien, y como una
extension del CJM, se propone un nuevo sistema de paro, basado en ganancia de
informacion, que permite realizar predicciones a cualquier nivel de la jerarquıa.
El metodo de encadenamiento es aplicado a problemas de clasificacion de tipo
binario. En este metodo todos los clasificadores involucrados son ligados a lo largo
de una cadena. Lo singular del encadenamiento es que el espacio de caracterısticas
en cada enlace de la cadena es extendido con la prediccion binaria asociada a cada
uno de los enlaces previos. En este trabajo de tesis se propone, adicionalmente
al clasificador jerarquico multidimensional, el metodo de clasificacion jerarquico
encadenado, que al igual que el CJM, fortalece la relacion existente entre las clases
al incorporar dependencia entre ellas aplicando el metodo de encadenamiento.
1.3. Objetivos
En esta seccion se exponen los objetivos trazados para el presente trabajo de tesis.
1.3.1. Objetivo General
Disenar e implementar un algoritmo de clasificacion jerarquico multidimensional
que reduzca el problema de inconsistencia y que sea competitivo con los metodos
de clasificacion jerarquicos existentes.
Capıtulo 1: Introduccion 6
1.3.2. Objetivos Especıficos
Disenar e implementar un algoritmo de clasificacion jerarquico multidimen-
sional que tomen en cuenta todas las probabilidades de los clasificadores
locales de cada rama.
Disenar e implementar un metodo de paro basado en ganancia de informa-
cion.
Disenar e implementar un metodo de clasificacion jerarquico basado en el
metodo de encadenamiento.
Probar el metodo propuesto en diferentes bases de datos jerarquicas y com-
parar este mismo con los enfoques de clasificacion, incluyendo Top-Down y
Top-Down con seleccion de clasificadores.
1.4. Vision General
En este trabajo de tesis se presenta el clasificador jerarquico multidimensional
(CJM). Este clasificador realiza una prediccion global tomando en consideracion
la prediccion de cada uno de los clasificadores de la jerarquıa. Dichas predicciones
son procesadas a traves de tres diferentes metodos, obteniendose como resulta-
do un conjunto de clases consistentes con la jerarquıa. Tales metodos son: Suma
de Probabilidades, Producto de Probabilidades y Ordenamiento Descendente de
Probabilidades. Igualmente, en este trabajo se propone un nuevo sistema de paro
basado en ganancia de informacion que permite la prediccion a cualquier nivel de
la jerarquıa. Este sistema es una extension del CJM. Finalmente, se propone el cla-
sificador jerarquico encadenado (CJE) con el proposito de incorporar dependencia
entre las clases a traves de encadenamiento.
El metodo propuesto fue comparado con el metodo Top-Down y Top-Down con
seleccion de clasificadores en tres diferentes conjuntos de datos. Los resultados
obtenidos en los experimentos demuestran que el clasificador jerarquico multidi-
mensional es competitivo con el clasificador jerarquico Top-Down con seleccion de
clasificadores y es superior al metodo Top-Down en los tres conjuntos de datos.
El sistema de paro basado en ganancia de informacion mejora consistentemen-
te los resultados de clasificacion al ser aplicado a los metodos de clasificacion
Capıtulo 1: Introduccion 7
jerarquico multidimensional y jerarquico encadenado. Finalmente, los resultados
del clasificador jerarquico encadenado no demostraron una mejora significativa en
comparacion con el metodo sin encadenamiento.
1.5. Principales Aportaciones
Un nuevo algoritmo de clasificacion jerarquico multidimensional que reduzca
el problema de inconsistencia.
Un nuevo sistema de paro basado en ganancia de informacion que permita
realizar predicciones a cualquier nivel de la jerarquıa.
Incorporacion de dependencia entre clases mediante encadenamiento.
1.6. Organizacion del Documento
El presente documento esta dividido en seis capıtulos a traves de las cuales se ex-
pondran los diferentes temas relacionados con el trabajo de tesis. El capıtulo dos,
Clasificacion, toca el tema raız de este trabajo e introduce al lector en los temas
basicos de la clasificacion. En este capıtulo se aborda el tema de clasificacion mul-
tidimensional. Igualmente, se presenta al lector los diferentes tipos de clasificacion,
ası como los algoritmos utilizados a lo largo de esta tesis, finalizando el capıtulo
con el tema de Encadenamiento. Este ultimo lleva a cabo el proceso de clasificacion
de una manera diferente al relacionar las clases a traves de las predicciones reali-
zadas por clasificadores internos. El capıtulo tres, Clasificacion Jerarquica, aborda
el tema central de esta tesis. En dicho capıtulo se introduce al lector sobre el te-
ma de clasificacion jerarquica, ası como los diferentes metodos relacionados con
este tema. El capıtulo cuatro, Clasificador Jerarquico Multidimensional, describe
el metodo propuesto en esta tesis ası como tambien la descripcion de un nuevo
sistema de paro basado en ganancia de informacion. El capıtulo cinco, Experimen-
tos y Resultados, expone los resultados obtenidos en los experimentos realizados
con el metodo propuesto comparandolo con otros metodos del estado del arte.
Finalmente, el capıtulo seis, Conclusiones, presenta las conclusiones a las cuales
se llegaron una vez finalizado el trabajo de tesis, igualmente, se expone el trabajo
a futuro que se deriva de este trabajo.
Capıtulo 2
Clasificacion
El proceso de clasificacion se puede describir como la actividad de dividir un
conjunto de objetos en un numero menor de clases de tal forma que los objetos
en una misma clase sean similares entre si y disimilares a objetos en otras clases
[Gordon, 1987]. Todos estos objetos estan descritos por un conjunto de atributos
o espacio de caracterısticas. Sin embargo, la sola existencia de estos atributos
no permite, de manera directa, diferenciar los distintos objetos que pertenecen
a las diferentes clases. Debido a lo anterior es que es necesario utilizar algunas
tecnicas que permitan procesar las caracterısticas de cada objeto y que a partir
de dicho procesamiento se pueda conocer la clase a la cual pertenece cada objeto,
estas tecnicas son los algoritmos de clasificacion. Dichos algoritmos se encargan de
procesar los atributos de cada objeto y, de acuerdo con las reglas establecidas en
el algoritmo, decidir a que clase pertenece cada objeto.
Los procesos de clasificacion, y a su vez los algoritmos de clasificacion, se pueden
dividir en dos grupos: clasificacion supervisada y clasificacion no supervisada o
clustering. El primer grupo crea un modelo de clasificacion, a partir de un conjunto
de objetos cuya clase se conoce a priori, y a partir de el clasifica todo nuevo
objeto cuya clase se desconoce. El segundo grupo, clasificacion no supervisada,
realiza agrupamientos de objetos basado en las similitudes existentes entre las
caracterısticas de cada uno de los objetos. La gran diferencia entre ambos grupos
radica en que el primero crea un modelo a partir de clases conocidas y el segundo
crea agrupamientos de objetos a partir de similitudes en sus caracterısticas. El
presente trabajo de tesis esta enfocado en la clasificacion de tipo supervisada.
9
Capıtulo 2: Clasificacion 10
Las siguientes secciones abordan los temas relacionados con la clasificacion super-
visada, de entre los cuales podemos destacar los metodos de clasificacion multidi-
mensional y los metodos basados en encadenamiento. Igualmente se exponen los
clasificadores que se utilizaron en este proyecto de tesis. Finalmente, este capıtulo
finaliza con el tema relacionado con las medidas de evaluacion, un tema importante
porque a traves de estas medidas podemos saber que tan bueno es un clasificador
en su tarea.
2.1. Clasificacion Supervisada
La clasificacion supervisada, y por ende tambien los algoritmos de clasificacion
supervisados, requieren de un conjunto de objetos definidos por un vector de ca-
racterısticas que, ademas, contiene la clase a la cual pertenece cada objeto. Al
conjunto anterior se le denomina conjunto de entrenamiento. Es a partir de este
conjunto de entrenamiento que se crea el modelo de clasificacion. Este modelo es
diferente para cada algoritmo de clasificacion debido a que cada algoritmo se basa
en diferentes enfoques, por ejemplo, el algoritmo de clasificacion Naive Bayes esta
basado en la regla de Bayes. Todos aquellos objetos cuya clase se desconoce, y
sobre los cuales sera probado el modelo, pertenecen al conjunto de prueba. Este
conjunto es utilizado para, precisamente como su nombre lo indica, probar al mo-
delo de clasificacion. Las metricas de precision, recuerdo y medida F son algunas
de las medidas basicas para evaluar a los diferentes modelos de clasificacion.
Los algoritmos de clasificacion generan un modelo a partir de ciertas reglas que
dependen del algoritmo utilizado. El modelo creado es usado para descubrir la
clase a la cual pertenece un nuevo ejemplo, del cual solo se conoce su vector de
caracterısticas. Sin embargo, de acuerdo a la naturaleza del problema el proceso
de clasificacion puede ser binario o multi-clase. La clasificacion binaria se basa en
decidir si un objeto pertenece o no a una clase dada. Mientras que la clasificacion
multi-clase discierne entre dos o mas clases al mismo tiempo.
Los algoritmos de clasificacion tradicional estan basados en una unica clase; sin
embargo, existen problemas en que un objeto puede pertenecer a mas de una clase.
La clasificacion multidimensional lleva a cabo la tarea antes mencionada y de la
cual se hablara mas adelante.
Capıtulo 2: Clasificacion 11
2.1.1. Clasificadores
A continuacion se presentan los algoritmos de clasificacion Random Forest
[Breiman, 2001] y Naive Bayes [Michie et al., 1994] sobre los cuales esta basada la
presente tesis.
2.1.1.1. Random Forest
El algoritmo de clasificacion Random Forest [Breiman, 2001] es un tipo de cla-
sificador basado en ensambles de arboles de decision sin poda donde cada arbol
depende de los valores de un vector aleatorio de atributos muestreado indepen-
dientemente y con la misma distribucion para todos los arboles. Para clasificar
una nueva instancia, los arboles de decision son construidos utilizando una mues-
tra aleatoria de datos. Despues, cada arbol realiza la clasificacion del vector de
entrada y predice la clase mas popular de acuerdo a su clasificacion. La prediccion
de cada arbol se toma como un voto para la clase predicha. A traves de un sistema
de votos se decide la clase con el mayor numero de ellos. El algoritmo de Random
Forest se muestra en la tabla 2.1.
De acuerdo con [Rokach, 2010], en el algoritmo de Random Forest, IDT (Induction
of Decision Trees) representa cualquier algoritmo de tipo top-down para la induc-
cion de arboles de decision con las siguientes caracterısticas: el arbol de decision
no se poda y en cada nodo, en vez de seleccionar la mejor division entre todos los
atributos, muestrea de manera aleatoria N atributos y de ellos selecciona la mejor
division.
Algunas de las caracterısticas mas importantes de Random Forest son: su rapidez,
su facilidad para manejar, facilmente, un gran numero de atributos de entrada y
los buenos resultados para datos desbalanceados.
2.1.1.2. Naive Bayes
El clasificador Naive Bayes, o Bayesiano simple, esta basado en la regla de Ba-
yes. A pesar de lo simple del modelo su rendimiento es comparable con algo-
ritmos mas sofisticados como lo son las redes neuronales o arboles de decision
[Michie et al., 1994]. La regla de Bayes se puede apreciar en la ecuacion 2.1.
Capıtulo 2: Clasificacion 12
Tabla 2.1: Algoritmo de aprendizaje de Random Forest.
Algoritmo de Random ForestRequiere : IDT(un inductor de arbol de decision),
T(el numero de iteraciones o arboles),S(el conjunto de entrenamiento),µ(el tamano de la sub-muestra),N(numero de atributos seleccionados aleatoriamente
usados en cada nodo)Asegurar: Mt con t = 1, 2, ..., T
Ct(X) con X = x1, ..., xµ conjunto de clases predichas paralas instancias X del arbol t
C(X) con X = x1, ..., xµ prediccion final para las instancias Xpara las clases
para t← 1 hasta T hacerSt ← muestra con µ instancias de S con remplazoConstruir el clasificador Mt usando IDT(N) en StCt(X) ← clasificar(Mt) obteniendo las clases predichas para
el arbol tfin para. proceso de votaje
C(x ∈ X)← argmaxy∈Y∑T
t:Ct(x)=y1 .la clase y con mayor
numero de votos para cada ejemplo x ∈ X.
P (Ci|E) = P (Ci)P (E|Ci)/P (E) (2.1)
Donde P (Ci) es la probabilidad a priori de cada clase, P (E) es la probabilidad
de los atributos y P (E|Ci) es la probabilidad condicional de los atributos dada la
clase.
El algoritmo de clasificacion Naive Bayes se basa en la suposicion de que todos los
atributos, de un ejemplo dado, son independientes entre si dada la clase. Por lo
anterior, la probabilidad se puede obtener por el producto de las probabilidades
condicionales individuales de cada atributo dado el nodo clase, la ecuacion 2.2
ilustra lo anterior.
P (Ci|E) = P (Ci)P (E1|Ci)P (E2|Ci)...P (En|Ci)/P (E) (2.2)
Donde n indica el numero de atributos. Sin embargo, para determinar la clase mas
probable el denominador de la ecuacion 2.2 no se requiere debido a que no depende
Capıtulo 2: Clasificacion 13
de la clase y por tanto se mantiene constante.
El proceso de aprendizaje, para este clasificador, requiere de aprender unicamente
los parametros: P (C) y P (Ei|C). Estos parametros se pueden estimar, a partir de
los datos, en base a frecuencias. A pesar de que el clasificador bayesiano simple
funciona muy bien en muchos dominios, en ocasiones su rendimiento tiende a
decrecer debido a que los atributos no son condicionalmente independientes como
se asume desde un inicio.
2.1.2. Clasificacion Multidimensional
A diferencia de los problemas de clasificacion tradicional, donde el proceso de
clasificacion consiste en asociar a cada nuevo ejemplo x con una sola clase l de
un conjunto finito de clases L, los problemas de clasificacion multidimensional
involucran la asociacion de un nuevo ejemplo x con un conjunto de clases S ⊆ L.
Los problemas de clasificacion multidimensional, [Zaragoza et al., 2011], consisten
en encontrar una funcion h que asigna a cada nuevo ejemplo, representada por
un vector de m caracterısticas, x = (x1, x2, ..., xm) un vector de d clases c =
(c1, c2, ..., cd)
h : (x1, ..., xm) 7→ (c1, ..., cd) (2.3)
En esta tesis se asume que ci y xj, para todo i = 1, ..., d y para todo j = 1, ...,m,
son variables discretas.
Los problemas de multi-etiquetado son un subconjunto de problemas de clasifica-
cion multidimensional e involucran la prediccion de mas de una etiqueta para un
mismo espacio de caracterısticas utilizando clasificadores binarios.
El metodo de relevancia binaria ([Godbole and Sarawagi, 2004],
[Tsoumakas and Katakis, 2007]) transforma un problema de multi-etiquetado en
uno de etiquetado simple. Lo anterior lo lleva a cabo al considerar cada etiqueta
como un problema binario independiente. Este metodo entrena |L| clasificadores
binarios, donde cada clasificador es responsable de predecir la asociacion binaria
(0 o 1) para cada una de las etiquetas li ∈ L. Sin embargo, este metodo ignora
Capıtulo 2: Clasificacion 14
la correlacion existente entre las clases, por lo cual puede asociar muchas o pocas
etiquetas que nunca podrıan co-ocurrir. De acuerdo con [Read et al., 2009], en la
literatura el hecho de ignorar la correlacion entre las clases es una de sus mas cri-
ticables desventajas y por esta misma razon es que habıa dejado de ser un metodo
de interes. Sin embargo, una de sus ventajas es su bajo costo computacional.
2.1.3. Metodo de Encadenamiento
El metodo de encadenamiento fue propuesto por [Read et al., 2009], involucra a
n clasificadores binarios ligados a lo largo de una cadena y, donde cada uno de
ellos, definen la relevancia binaria existente entre cada una de las etiquetas. La
prediccion de cada clasificador en la cadena consiste en decidir si un ejemplo per-
tenece o no a una determinada etiqueta (clase). El metodo de encadenamiento es
utilizado en conjunto con el metodo de relevancia binaria para resolver problemas
de multi-etiquetado. Una caracterıstica que define al metodo de encadenamiento
es que el espacio de caracterısticas en cada enlace de la cadena es extendido con
la etiqueta asociada a todos los enlaces previos, esta etiqueta corresponde a la
prediccion binaria del clasificador anterior. Con lo anterior se establece una de-
pendencia entre las etiquetas del problema, permitiendo que la prediccion de un
clasificador sea considerada por los clasificadores posteriores. Los resultados obte-
nidos en [Read et al., 2009] y [Zaragoza et al., 2011] demuestran la eficacia de este
metodo. Los metodos de clasificacion jerarquicos no contemplan una dependencia
entre clases como lo hace el metodo de encadenamiento, por ello es que se busca
implementar este metodo en problemas de tipo jerarquico.
El algoritmo de entrenamiento del metodo de encadenamiento, tabla 2.2, transfor-
ma un problema de multi-etiquetado a etiquetado simple para despues predecir la
relevancia binaria entre las etiquetas. Para este algoritmo L es un conjunto finito
de etiquetas simples, x es el vector de caracterısticas del objeto, S es un subcon-
junto de L (S ⊆ L) representado por el vector de caracterısticas (l1, l2, ..., l|L|) ∈{0, 1}|L| y D es el conjunto de datos de multi-etiqueta compuesto de n ejemplos
(x1, S1),(x2, S2),...,(xn, Sn). Finalmente, Cj representa los clasificadores binarios.
El proceso de entrenamiento genera una cadena de clasificadores binarios C1, ..., C|L|.
Durante este proceso, el problema de multi-etiquetado es convertido en un pro-
blema que involucra a una sola etiqueta, de esta forma se genera un clasificador
binario por cada una de las etiquetas en el espacio de etiquetas L. Una vez hecho
Capıtulo 2: Clasificacion 15
Tabla 2.2: Algoritmo de entrenamiento del metodo de encadenamiento.
Entrenamiento (D = {(x1, S1),...,(xn, Sn})para j ∈ 1 hasta |L|
hacer . transformacion del problema aetiquetado simple y entrenamiento
D′ ← {}para (x, S) ∈ D
hacer D′ ← D′∪ ((x, l1, l2, ..., lj−1),lj). se entrena Cj para predecir la relevancia binaria de ljCj : D′ → lj ∈ {0, 1}
Tabla 2.3: Proceso de clasificacion del metodo de encadenamiento.
Clasifica (x)Y ← {}
para j ← 1 hasta |L|hacer Y ← Y ∪ (lj ← Cj:(x, l1, ..., lj−1))
regresa (x, Y ) . Regresa el ejemplo clasificado
lo anterior, para cada espacio de caracterısticas se comprueba la pertenencia de
este con cada una de las etiquetas en L, recordando que la prediccion, 0 o 1, del
clasificador anterior es anadida como una caracterıstica adicional al espacio de
caracterısticas del ejemplo. El proceso de prueba inicia en el clasificador C1 y se
propaga a traves de la cadena, de tal forma que C1 determina Pr(l1|x) y los sub-
siguientes clasificadores, C2, ..., C|L|, determinan Pr(lj|xi, l1, ..., lj−1). Este proceso
se muestra en la tabla 2.3.
Sin embargo, la disposicion de las clases a lo largo de la cadena influye en la pre-
cision de la clasificacion, por lo anterior, en el trabajo de [Read et al., 2009] se
propone un metodo basado en ensambles. Dichos ensambles entrenan m clasifica-
dores encadenados tomando en cuenta lo siguiente:
Un orden de encadenamiento aleatorio.
Un subconjunto de entrenamiento aleatorio.
Con lo anterior cada modelo generado es unico, o por lo menos eso se espera, y es
capaz de producir diferentes predicciones de multi-etiquetado. Estas predicciones
son sumadas por etiqueta de tal forma que cada etiqueta recibe un numero de
Capıtulo 2: Clasificacion 16
votos. Se utiliza un umbral para seleccionar las etiquetas mas populares, mismas
que conformaran el conjunto de etiquetas que sera la prediccion final.
Otro trabajo relacionado con el metodo de encadenamiento es el de
[Zaragoza et al., 2011]. Este trabajo propone la combinacion de los metodos de en-
cadenamiento y redes bayesianas en el ambito de los problemas de multi-etiquetado.
Este metodo esta dividido en dos fases: la primera fase consiste en obtener la es-
tructura de dependencias entre las clases, esto a traves de una red Bayesiana creada
a partir de los datos, y la segunda fase consiste en construir los clasificadores en
cadena basados en la estructura de dependencia, de la primera fase, de tal forma
que se incluyan como atributos adicionales las clases predichas a la estructura de
la red bayesiana. El clasificador que se utiliza en este trabajo es el de Naive Bayes.
Los anteriores son algunos de los trabajos relacionados con el tema de clasificadores
encadenados. Ambos demuestran la efectividad de la combinacion del metodo de
relevancia binaria y el de encadenamiento, permitiendo mantener las ventajas del
primero y subsanando el problema de no tomar en cuenta la correlacion existente
entre las clases a traves del metodo de encadenamiento. Sin embargo, el metodo
de encadenamiento no ha sido probado en problemas de ındole jerarquico y es esto
mismo lo que se pretende probar en este trabajo de tesis.
2.1.4. Validacion cruzada de K-pliegues
En la validacion cruzada de K-pliegues, el conjunto de ejemplos original es dividido,
de manera aleatoria, en K subconjuntos del mismo tamano. De estos subconjuntos
de ejemplos, uno de ellos es utilizado como conjunto de validacion para probar el
modelo, mientras que los restas K-1 subconjuntos son utilizados para entrenar al
modelo. El proceso de validacion cruzada se repite K veces, con cada uno de los K
subconjuntos de ejemplos usados, exactamente, una vez como datos de validacion.
Finalmente, los K resultados son promediados con el fin de obtener un resultado
final.
Capıtulo 2: Clasificacion 17
2.1.5. Medidas de Evaluacion
Las medidas de evaluacion nos sirven para medir la capacidad de prediccion que
tiene el algoritmo de clasificacion sobre las nuevas instancias que tenga que clasi-
ficar en un futuro. La tasa de error (ecuacion 2.4) es la forma mas habitual que se
utiliza para evaluar un clasificador.
Tasa de error = numero de errores / numero total de casos (2.4)
Otra medida de evaluacion mas ampliamente utilizada es la exactitud (accuracy),
ecuacion 2.5. La exactitud se define como el numero de decisiones correctas reali-
zadas por el clasificador entre el numero total de casos presentados al clasificador.
Exactitud = 1− Tasa de error (2.5)
Sin embargo, las medidas de exactitud y tasa de error no siempre aportan la
informacion necesaria con respecto al desempeno del clasificador para cada una de
las clases.
Por lo general los resultados de una clasificacion son presentados en una matriz de
confusion. Esta matriz nos permite ver, mediante una tabla de contingencia, los
errores y aciertos cometidos por un clasificador a lo largo de las distintas clases
del problema. En la tabla de contingencia se cruza la prediccion derivada de la
clasificacion con la variable que guarda la verdadera clasificacion. Una matriz de
confusion para dos clases tiene la forma que se puede apreciar en la tabla 2.4.
De una matriz de confusion se puede extraer la siguiente informacion:
Precision = V PV P+FP
. Mide cuantos ejemplos clasificados como positivos son
verdaderamente positivos.
Sensibilidad o Recuerdo = V PV P+FN
, proporcion de verdaderos positivos. Evalua
que tan bien puede el clasificador reconocer ejemplos positivos.
Especifidad = V NFP+V N
, proporcion de verdaderos negativos.
Proporcion de falsos positivos = FPFP+V N
.
Proporcion de falsos negativo = FNFN+V P
.
Capıtulo 2: Clasificacion 18
Tabla 2.4: Matrız de confusion para un problema de tipo binario. VP son losverdaderos positivos, FP son los falsos positivos, VN son los verdaderosnegativos y FN son los falsos negativos
Clase verdaderaClase predicha 0(+) 1(-)
0(+) VP FP1(-) FN VN
Por lo general, existe un compromiso entre las medidas de precision y recuerdo.
Mejorar alguna de las dos medidas resulta en el deterioro de la medida restante.
Una manera de combinar ambas medidas es mediante la medida F (F-Measure) la
cual resulta ser la media armonica de las dos medidas, y se define como sigue:
medidaF =2 ∗ Precision ∗RecuerdoPrecision+Recuerdo
=2 ∗ V P
FP + FN + 2 ∗ V P(2.6)
2.2. Resumen
En este capıtulo se abordo el tema de clasificacion junto con los diversos temas que
lo conforman. Como hemos visto en este capıtulo clasificar es un proceso que orde-
na un conjunto de objetos, descritos por un vector de caracterısticas, de acuerdo
con las clases con las que se dispone. De los dos tipos de clasificacion, supervisada
y no supervisada, este trabajo esta basado en la clasificacion supervisada. De los
metodos existentes que se agrupan en este conjunto nos centramos en los metodos
de clasificacion multidimensional y en los metodos de encadenamiento. Para los
experimentos de este trabajo de tesis se utilizaron unicamente los clasificadores:
Naive Bayes y Random Forest. Sin embargo, tanto el metodo propuesto como
los diferentes metodos utilizados para los experimentos no estan restringidos uni-
camente a estos dos clasificadores pudiendose utilizar cualquier otro clasificador.
Finalmente, se presentaron algunas medidas de evaluacion referentes a los metodos
de clasificacion supervisados.
En el siguiente capıtulo se abordara el tema de clasificacion jerarquica. Se pre-
sentaran las diferentes tecnicas de clasificacion jerarquica, ası como tambien las
medidas de evaluacion para este tipo de clasificadores.
Capıtulo 3
Clasificacion Jerarquica
De acuerdo con el trabajo de [Silla and Freitas, 2011] un gran numero de investiga-
ciones en minerıa de datos, aprendizaje automatico, reconocimiento de patrones y
comunidades de investigacion relacionadas se han enfocado en problemas de clasifi-
cacion planos. El termino “problemas de clasificacion planos” se refiere a problemas
de clasificacion estandar binaria o multi-clase. Sin embargo, muchos problemas de
clasificacion en la vida real son problemas de clasificacion jerarquica, donde las cla-
ses a ser predichas estan organizadas en clases jerarquicas - tıpicamente un arbol
o un GAD. La clasificacion jerarquica es un tipo de clasificacion que hace uso de
una taxonomıa para llevar a cabo la clasificacion de diversos objetos. De acuerdo
con el trabajo de [Wu et al., 2005], una taxonomıa se define como un arbol o un
GAD de estructura jerarquica definido a traves de un conjunto de orden parcial
(C, <). Donde C es un conjunto finito que enumera todas las clases del dominio
de aplicacion y < representa la relacion IS-A existente entre dichas clases. En el
trabajo de [Silla and Freitas, 2011] se define la relacion IS-A como una relacion
asimetrica, anti-reflexiva y transitiva.
Los metodos de clasificacion jerarquica se dividen en dos principales grupos: super-
visados o Hierarchical Classification y no supervisados o Hierarchical Clustering.
En el primer grupo las clases del problema estan divididas de acuerdo a una ta-
xonomıa pre-establecida. De acuerdo a dicha taxonomıa se definira la relacion
existente entre las diferentes clases que comprenden al problema. El tipo de clasi-
ficacion no supervisada tiene la caracterıstica de no hacer uso de una taxonomıa
pre-establecida si no que durante el proceso de entrenamiento va descubriendo la
taxonomıa, correspondiente al problema, agrupando clases que son similares unas a
19
Capıtulo 3: Clasificacion Jerarquica 20
otras en meta-clases, [Li et al., 2007],[Hao et al., 2007]. La taxonomıa descubierta
es la que se utilizara durante el proceso de clasificacion.
La clasificacion jerarquica supervisada, de aquı en adelante clasificacion jerarqui-
ca, converge con la definicion de clasificacion supervisada en el sentido de que los
ejemplos o clases se conocen a priori y ademas estan descritos por un vector de
caracterısticas junto con la clase a la que pertenece cada objeto; sin embargo, difie-
ren en el hecho de que la primera, la clasificacion jerarquica supervisada, hace uso
de una taxonomıa y la segunda no. Igualmente, la clasificacion jerarquica tambien
puede encontrarse bajo el nombre clasificacion estructurada (Structure Classifica-
tion). Este tipo de clasificacion contempla problemas que no solo son meramente
de ındole jerarquico, aunque contempla el uso de una estructura (jerarquica o no)
entre las clases. Por lo anterior, la clasificacion jerarquica puede ser vista como un
tipo particular de problemas de clasificacion estructurada.
El presente trabajo de tesis esta enfocado en los metodos de clasificacion jerarqui-
cos supervisados y sobre los cuales se hablara en las siguientes secciones de este
capıtulo. La siguiente seccion presenta un panorama general de las diferentes tecni-
cas de clasificacion jerarquica existentes. Finalmente, el capıtulo termina con las
diferentes metricas existentes para evaluar los metodos jerarquicos.
3.1. Metodos de Clasificacion Jerarquicos
De acuerdo a los trabajos de [Freitas and de Carvalho, 2007] y
[Sun and Lim, 2001] los metodos de clasificacion jerarquicos difieren en tres aspec-
tos fundamentales:
1. El tipo de estructura a utilizar. Tıpicamente es un arbol o un grafo
acıclico dirigido (GAD).
2. La profundidad de la clasificacion jerarquica. Este punto se refiere a
la condicion de paro del proceso de clasificacion, mismo que se divide en
dos formas. La primera consiste en que el metodo de clasificacion jerarqui-
co implementado clasifique unicamente a nivel de hojas, esto es, el proceso
de clasificacion termina forzosamente en una de las hojas del arbol de la
Capıtulo 3: Clasificacion Jerarquica 21
taxonomıa. El segundo consiste en que el proceso de clasificacion puede fi-
nalizar en cualquier nodo de la jerarquıa, ya sea una hoja o un nodo interno,
exceptuando a la raız debido a que todo ejemplo pertenece a esta misma.
3. La forma de explorar la estructura. Debido a que el proceso de clasifi-
cacion jerarquico esta basado en una taxonomıa, misma que tiene la forma
de un arbol o un GAD, puede haber mas de una forma de llevar a cabo la
exploracion de la misma para completar la tarea de clasificacion. Para este
ultimo aspecto existen tres diferentes enfoques de clasificacion jerarquica, a
saber: clasificacion jerarquica plana, clasificacion jerarquica global
y clasificacion jerarquica local.
Los trabajos sobre los cuales se hablara en las siguientes secciones tienen la carac-
terıstica de que el tipo de estructura que utilizan es de tipo arbol. Lo anterior se
debe a que dicha estructura es la mas sencilla. Con respecto a la profundidad de
la clasificacion jerarquica, la que utilizan es la clasificacion a nivel de hojas. Final-
mente, la forma en como exploran la estructura jerarquica estara dada por cada
una de las diferentes secciones. Cabe destacar que se hara un analisis mas profundo
de aquellos trabajos pertenecientes a los metodos de clasificacion jerarquico local
debido a que son los que estan mas relacionados con el tema principal de esta tesis.
3.2. Clasificacion Jerarquica Plana
Este enfoque ignora por completo la jerarquıa durante los procesos de entrena-
miento y clasificacion. Por lo anterior, es una solucion indirecta para resolver el
problema de clasificacion jerarquica debido a que se comporta como los algorit-
mos de clasificacion tradicionales. Tıpicamente, se encarga de clasificar los nodos
hoja de la jerarquıa y cuando un ejemplo es asignado a una de las hojas se puede
considerar que tambien es asignado a todos sus ancestros. Todo el proceso de cla-
sificacion es llevado acabo utilizando un unico clasificador multi-clase, mismo que
tiene que discernir entre todas las clases de tipo hoja. La principal desventaja de
este metodo es que no explora la informacion contenida en la relacion padre-hijo
de la jerarquıa. Una de sus principales ventajas es la simplicidad de su implemen-
tacion debido a que solo utiliza un clasificador multi-clase, sin embargo, el numero
de clases entre las que tiene que discernir puede ser muy extenso. El clasificador
jerarquico plano se ilustra en la figura 3.1.
Capıtulo 3: Clasificacion Jerarquica 22
Figura 3.1: Clasificacion jerarquica plana. Utiliza algoritmos de clasificacionmilti-clase para predecir unicamente a los nodos hoja. (A) Los cırculosdenotan las clases de la jerarquıa mientras que el recuadro punteado representaal clasificador multi-clase. (B) La prediccion del clasificador consiste en unsolo nodo, color rojo, asumiendose la pertenencia con todos sus ancestros.
3.3. Clasificacion Jerarquica Local
En el trabajo de [Koller and Sahami, 1997] se propone por primera vez el enfo-
que de clasificacion jerarquico local (CJL) o Top-Down. A partir de este trabajo
muchos autores han extendido esa primera version para dar solucion a multiples
problemas de naturaleza jerarquica en diferentes areas del conocimiento.
De acuerdo con los trabajos de [Freitas and de Carvalho, 2007] y
[Sun and Lim, 2001] el enfoque de clasificacion jerarquico local o Top-Down es uno
de los mas utilizados en la literatura. Este metodo toma en consideracion la infor-
macion local de cada nodo en la jerarquıa, entrenando a cada clasificador con dicha
informacion. El tipo de clasificador que se puede utilizar en este tipo de esquema
puede ser un clasificador multi-clase o un clasificador binario. El comportamiento
durante la fase de entrenamiento es identico que en el enfoque de clasificacion tra-
dicional, pero es durante la fase de clasificacion en donde existen diferencias entre
ambos enfoques. En esta fase, para cada nuevo ejemplo de prueba el clasificador
jerarquico local primero predice la clase del primer nivel (la mas general), despues
utiliza la clase predicha para limitar la seleccion de clases a predecir en el segundo
nivel (el unico candidato valido de las clases del segundo nivel es el hijo de la clase
predicha en el primer nivel) y ası sucesivamente de forma recursiva. El metodo
finaliza cuando se haya realizado la prediccion mas especıfica, esto es, hasta llegar
a una de las hojas de la jerarquıa. El proceso de clasificacion puede finalizar en
un nodo interno de la jerarquıa; para realizar lo anterior deben definirse las reglas
necesarias que establezcan la finalizacion del proceso.
Capıtulo 3: Clasificacion Jerarquica 23
De acuerdo a como se construyan los clasificadores en cada uno de los nodos
de la jerarquıa, el enfoque de clasificacion jerarquico local se pueden dividir en:
clasificador local por nodo (CLN), clasificador local por nodo padre (CLNP) y
clasificador local por nivel (CLNiv), que se detallan en las siguientes secciones.
3.3.1. Clasificador Local por Nodo
Este metodo consiste en entrenar un clasificador binario por cada nodo de la
jerarquıa, exceptuando al nodo raız. La figura 3.2 ilustra este metodo. Durante la
fase de clasificacion, la prediccion de cada clasificador binario indica si el ejemplo
de prueba pertenece o no a la clase predicha por el clasificador. Una ventaja de este
metodo es que puede utilizarse directamente para problemas de multi-etiquetado
debido a que es posible predecir multiples etiquetas (clases) por cada nivel. Lo
anterior se logra utilizando algoritmos de clasificacion convencionales, mismos que
solo predicen una etiqueta a la vez, evitando las complicaciones asociadas con el
diseno de algoritmos de clasificacion para multi-etiquetado. Una de sus desventajas
es que es propenso al problema de inconsistencia y al problema de bloqueo, este
ultimo sucede siempre y cuando el problema a resolver no requiera que la prediccion
final sea estrictamente un nodo de tipo hoja.
Figura 3.2: Clasificacion jerarquica local por nodo. (A) Los cırculosrepresentan las clases y los recuadros punteados representan a losclasificadores binarios. (B) La prediccion del clasificador, nodos color rojo,consiste en la ruta indicada por el clasificador binario en cada nivel.
Durante el proceso de entrenamiento se debe definir la polıtica para elegir los
ejemplos positivos y negativos para entrenar los clasificadores binarios. El trabajo
de
[Eisner et al., 2005] se exploran cuatro diferentes polıticas para elegir los ejem-
plos positivos y negativos: Exclusive, Less exclusive, Less inclusive e Inclusive. En
Capıtulo 3: Clasificacion Jerarquica 24
la polıtica Exclusive los ejemplos positivos son los ejemplos pertenecientes unica-
mente al nodo del clasificador y los ejemplos negativos son los ejemplos de los
nodos restantes. La polıtica Less exclusive define los ejemplos positivos como los
pertenecientes al nodo del clasificador, mientras que los ejemplos negativos son
los ejemplos de los nodos restantes exceptuando a los nodos descendientes del
nodo del clasificador. La polıtica Less inclusive selecciona los ejemplos del nodo
del clasificador y los de sus descendientes como ejemplos positivos y los ejemplos
negativos son todos los ejemplos de los nodos restantes. Finalmente, la polıtica
Inclusive toma como ejemplos positivos el mismo conjunto que la polıtica anterior
y como ejemplos negativos todos los ejemplos de los nodos restantes exceptuan-
do los nodos pertenecientes a la rama del nodo del clasificador. De acuerdo a los
experimentos realizados, los clasificadores binarios obtiene mejores resultados con
las polıticas Inclusive y Less inclusive.
El trabajo de [Fagni and Sebastiani, 2007] compara dos diferentes polıticas para
elegir ejemplos positivos y negativos: Siblings y Less Inclusive. La polıtica siblings
selecciona los ejemplos del nodo del clasificador y de sus nodos descendientes como
ejemplos positivos, y los ejemplos negativos son los ejemplos pertenecientes a los
nodos hermanos junto con los descendientes de dichos nodos. De acuerdo con
los experimentos realizados no hay un claro ganador entre ambas polıticas, sin
embargo, la polıtica Siblings hace uso de muy pocos ejemplos en comparacion con
la polıtica Less Inclusive.
Uno de los problemas fundamentales de este tipo de metodos es el de la inconsis-
tencia. De acuerdo a lo anterior, los trabajos relacionados con este tipo de enfoque
buscan minimizar este problema. Los trabajos que a continuacion se mencionan sa-
len del esquema tradicional de clasificacion Top-Down, buscando otras alternativas
para llevar acabo el proceso de clasificacion jerarquica.
[Dumais and Chen, 2000] utiliza las probabilidades predichas por cada uno de los
clasificadores binarios junto con la definicion de un umbral para cada nivel de la
jerarquıa para realizar la prediccion de un ejemplo de prueba. Cabe mencionar que
la jerarquıa, utilizada en este trabajo es de dos niveles. Se proponen dos metodos:
el primero esta basado en una regla de decision booleana y el segundo esta basado
en una regla de decision multiplicativa. El primer metodo propone un umbral para
cada nivel, si la probabilidad predicha por el clasificador del primer nivel rebasa
el umbral establecido para tal nivel entonces se verifica la probabilidad predicha
Capıtulo 3: Clasificacion Jerarquica 25
por el clasificador del segundo nivel con su respectivo umbral. Aquellos ejemplos
que rebasen este ultimo umbral seran la prediccion final del metodo.
El segundo metodo que se propone esta basado en el producto de las probabilidades
predichas por los clasificadores de cada nivel. Como en el metodo anterior, se define
un umbral y de acuerdo a este se decide si el ejemplo pertenece o no a cada una
de las ramas de la jerarquıa. La base de datos que utilizada es la LookSmart.
Originalmente la jerarquıa de esta base de datos cuenta con siete niveles, sin
embargo, en el citado trabajo se centran unicamente en los dos primeros niveles.
El primer nivel cuenta con 13 clases diferentes y el segundo nivel cuenta con 150
clases diferentes. De acuerdo con sus resultados, el metodo propuesto tiene un
buen desempeno, llegando a superar por un margen de cuatro por ciento a los
metodos con los cuales se compara.
Los metodos propuestos en el trabajo de [Dumais and Chen, 2000] toman en cuen-
ta la relacion existente entre las clases, una relacion que va mas alla de la simple
disposicion de las clases en la jerarquıa. Igualmente, se considera la probabilidad
predicha por cada clasificador binario aumentando con ello la interaccion entre las
clases. Sin embargo, son metodos basados en la definicion de umbrales, debido a
esto, estan sujetos a la correcta definicion de los mismos, si estos no son adecua-
dos los resultados se veran afectados. Otro punto importante es que es un metodo
binario, esto implica que se deben construir un gran numero de clasificadores, uno
por cada nodo exceptuando a la raız.
El trabajo de [Valentini, 2009], al igual que el trabajo anterior, toma en cuenta la
relacion entre las clases de la jerarquıa mas alla de la posicion que los relaciona.
Esta basado en el concepto de true path rule de la Gene Ontology. Esta regla
establece lo siguiente: Si el termino del hijo describe al producto genetico, entonces
todos los terminos de sus padres deben aplicar a dicho producto genetico.
El metodo que proponen esta basado en el consenso de dos procesos. El primer
proceso consiste en la revision de las predicciones de los clasificadores que va de lo
mas general a lo mas especıfico, esto es, la revision se realiza desde el primer nivel
de la jerarquıa hasta llegar al nivel de las hojas. El segundo proceso consiste en el
recorrido inverso. El primer proceso verifica la prediccion del clasificador de uno
de los nodos del primer nivel, si esta resulta ser cero entonces, y de acuerdo con la
regla antes mencionada, los descendientes de este nodo tendran como prediccion
cero, pero si la prediccion es uno entonces continua su verificacion hasta llegar a
Capıtulo 3: Clasificacion Jerarquica 26
las hojas. El segundo metodo empieza desde las hojas y verifica si la prediccion del
clasificador del nodo es uno entonces sube un nivel y realiza la misma verificacion
hasta llegar al primer nivel de la jerarquıa.
Este metodo se compara con dos esquemas de clasificacion jerarquica: clasificacion
jerarquica local y clasificacion jerarquica plana. Los resultados en los experimentos
demuestran que el metodo de [Valentini, 2009] es competitivo con el esquema de
clasificacion jerarquico local y superior al metodo de clasificacion jerarquico plano.
3.3.2. Clasificador Local por Nodo Padre
Este metodo entrena un clasificador multi-clase en cada nodo padre de la taxo-
nomıa, mismo que se encarga de distinguir entre los nodos hijo de este. La figura
3.3 ilustra este metodo. Una ventaja, en comparacion con el metodo de clasifica-
cion local por nodo, es que utiliza un numero menor de clasificadores, sin embargo,
comparten el mismo modelo de clasificacion: Top-Down.
Figura 3.3: Clasificacion jerarquica local por nodo padre. (A) Los cırculosrepresentan las clases y los recuadros punteados representan a losclasificadores multi-clase, mismos que predicen a sus clases hijo. (B) Laprediccion del clasificador, nodos color rojo, consiste en la ruta indicada por elclasificador multi-clase en cada nivel.
La fase de entrenamiento consiste en entrenar cada clasificador base de la jerarquıa
de acuerdo a la polıtica de seleccion de ejemplos que se haya elegido. De las polıticas
presentadas en la seccion anterior las mas adecuadas para este tipo de clasificador
jerarquico son: Siblings y Exclusive Siblings. Cabe mencionar que el clasificador
base corresponde a un unico clasificador multi-clase para toda la jerarquıa, por
ejemplo, si se elige el clasificador Random Forest, este se utilizara en cada nodo
padre de la jerarquıa. Durante la fase de clasificacion, regularmente, se elige la
Capıtulo 3: Clasificacion Jerarquica 27
forma Top-Down. De acuerdo a esta forma el proceso de clasificacion empieza
desde el nodo raız, la clase predicha por este clasificador sera el camino marcado
que seguira el ejemplo de prueba. Lo anterior se repite hasta llegar a un nodo hoja
o, si el problema ası lo permite, la prediccion puede terminar en cualquier nodo
de la jerarquıa.
Los trabajos relacionados con el metodo de CLNP buscan minimizar el problema
de inconsistencia, un problema muy comun en este tipo de clasificadores. Algunos
de los metodos buscan resolver el problema de inconsistencia dejando a un lado el
metodo tradicional de clasificacion que es el Top-Down; sin embargo, este metodo
sigue presentando los mejores resultados con respecto a metodos que se han com-
parado con este mismo. A continuacion se presentan algunos trabajos relacionados
con este metodo de clasificacion.
El trabajo de [Secker et al., 2007] se enfoca en el problema de la prediccion de
proteınas de acuerdo a su funcion utilizando para ello la base de datos GPCR
(G-Protein Coupled Receptors). El tipo de estructura jerarquica que se utiliza
en este trabajo es la de tipo arbol, el tipo de clasificacion jerarquica utilizada
es la de tipo nodo padre y la profundidad de prediccion es unicamente la de
nodos hoja. Su principal aportacion es la introduccion de la premisa de que la
combinacion de clasificadores en el arbol mejora la precision de clasificacion. Una
segunda aportacion de este trabajo es la comparacion de 10 diferentes algoritmos
de clasificacion para la prediccion jerarquica de la base de datos GPCR donde
cada algoritmo de clasificacion es aplicado utilizando el esquema Top-Down.
La seleccion de clasificadores para cada nodo en la jerarquıa se lleva a cabo de la
siguiente manera. El conjunto de entrenamiento para cada clasificador es dividido
en dos subconjuntos no traslapados, uno es utilizado para entrenar al algoritmo
de clasificacion (el cual comprende el 80 %) y el otro conjunto es utilizado para
realizar la validacion (el cual comprende el 20 %). Para cada clasificador en el arbol
son entrenados multiples algoritmos de clasificacion usando el conjunto de entre-
namiento. La precision de cada algoritmo de clasificacion es medida utilizando el
conjunto de validacion. El mejor algoritmo de clasificacion es escogido de acuerdo
con la precision del conjunto de validacion. Este proceso se repetido para cada
clasificador de nodo. Al proceso antes mencionado los autores le denominan apro-
ximacion selectiva, la cual produce un sistema hıbrido de clasificacion jerarquica.
Finalmente los subconjuntos de entrenamiento y validacion son fusionados para
Capıtulo 3: Clasificacion Jerarquica 28
producir el conjunto de entrenamiento original y los clasificadores seleccionados
son re-entrenados con este nuevo conjunto.
La seleccion de clasificadores es realizada de una forma avida con la intencion
maximizar la precision de clasificacion. Para el trabajo citado los siguientes clasi-
ficadores fueron utilizados.
1. Naive Bayes.
2. Redes Bayesianas.
3. SMO (support vector machine).
4. 3 vecinos mas cercanos (utilizando distancia Euclidiana).
5. PART.
6. J48 (una implementacion de C4.5).
7. Naive Bayes Tree (Un arbol de decision con clasificadores Naive Bayes en
cada nodo).
8. Multi-layer neural network.
9. AIRS2 (un clasificador basado en el paradigma de los sistemas inmunes ar-
tificiales).
10. Conjuntive rule learner.
De acuerdo a los resultados obtenidos el metodo selectivo obtuvo una mayor pre-
cision en su prediccion en comparacion con los metodos Top-Down estandar que
consideran a un solo clasificador para toda la jerarquıa. Sin embargo, el metodo
propuesto requiere de muchos pasos adicionales para conseguir su meta en com-
paracion con el metodo Top-Down tradicional.
El trabajo de [Holden and Freitas, 2008] propone utilizar un algoritmo inteligente
basado en enjambres para seleccionar el tipo de algoritmo de clasificacion que
mejor se amolde a cada nodo padre, para ser mas precisos, en este trabajo se
utiliza el algoritmo (PSO/ACO). El tipo de estructura jerarquica que se utiliza en
este trabajo es de tipo arbol, el tipo de clasificacion jerarquica utilizada es de tipo
nodo padre y la profundidad de prediccion es unicamente de nodos hoja. La base
Capıtulo 3: Clasificacion Jerarquica 29
de datos que se utiliza es la GPCR. Se realiza la seleccion de clasificadores para
cada nodo de tal forma que se tome en cuenta la interaccion entre los clasificadores.
Dicha interaccion se refiere al hecho de que combinacion de clasificadores en todo el
arbol produce una mayor precision en la prediccion. Con lo anterior no solo se busca
el mejor clasificador para cada nodo sino tambien la mejor combinacion de dichos
clasificadores. El algoritmo de PSO/ACO es adaptado para ser usado como un
selector de clasificadores, donde en lugar de encontrar una buena combinacion de
atributo-valores para una regla, encuentre buenas combinaciones de clasificadores
para todos los nodos en el arbol de clasificacion.
Los experimentos realizados utilizaron los clasificadores: HyperPipes, Naive Bayes,
J48, ConjuctiveRule y Bayes Net. Por cada algoritmo de clasificacion se construyo
el esquema de clasificacion jerarquico basado en el enfoque Top-Down tradicional.
Finalmente el metodo propuesto en el trabajo citado se compara con el metodo
propuesto en el trabajo de [Secker et al., 2007].
Los resultados obtenidos demuestran que el metodo propuesto es competitivo con
el metodo de seleccion de clasificadores. Sin embargo, este nuevo metodo impli-
ca una mayor complejidad para la seleccion de los clasificadores, debido a que
no considera la precision en cada uno de los nodos sino que tambien toma en
cuenta la precision del conjunto de clasificadores seleccionados. Una desventaja
de este metodo radica en el hecho de que el numero de posibles combinaciones se
incrementa de acuerdo al numero de algoritmos de clasificacion disponibles.
En el trabajo de [Silla and Freitas, 2009] se presenta una nueva mejora al metodo
propuesto en [Secker et al., 2007] aplicada en el area de clasificacion de generos
musicales. En este trabajo no solo se realiza una seleccion de clasificadores para el
arbol de clasificacion, sino que tambien se realiza una seleccion de atributos para
cada nodo padre de la jerarquıa. El tipo de estructura jerarquica que se utiliza en
este trabajo es la de tipo arbol, el tipo de clasificacion jerarquica utilizada es de
tipo nodo padre y la profundidad de prediccion es unicamente la de nodos hoja.
Las bases de datos que se utilizan en este trabajo son dos: Latin Music Database
(LDM) y un subconjunto de la Magnatune Database. La motivacion que los autores
tuvieron radica en el hecho de analizar si las caracterısticas usadas para distinguir
diferentes clases tienen la misma importancia en diferentes niveles de la jerarquıa.
El primer metodo propuesto en el citado trabajo es la seleccion representativa de
caracterısticas. Dicho metodo sigue la misma idea de seleccion de clasificadores
Capıtulo 3: Clasificacion Jerarquica 30
que en el trabajo de [Secker et al., 2007] pero en lugar de seleccionar al mejor
clasificador en cada nodo padre selecciona la mejor representacion de caracterısti-
cas en cada nodo padre de la clase jerarquica. El segundo metodo propuesto es
la combinacion del metodo de seleccion de clasificadores ([Secker et al., 2007]) y
el metodo de seleccion representativa de caracterısticas. Sin embargo, uno de los
inconvenientes de esta aproximacion es la explosion combinatoria que se puede lle-
gar a generar. Lo anterior se debe a que si el numero de caracterısticas candidatas
y/o el numero de clasificadores es incrementado de manera significativa para cada
nodo, el sistema sera entrenado con todos los clasificadores disponibles conside-
rando a todas las representaciones de caracterısticas diferentes. Los clasificadores
utilizados en este trabajo se listan a continuacion:
1. K vecinos mas cercanos (K-NN) con K=3.
2. Naive Bayes (NB).
3. Multi-layer Neural Network (MLP) con el algoritmo de back propagation
momentum algorithm.
4. Support Vector Machine (SVM).
En el citado trabajo usaron la precision de clasificacion estandar para clasificadores
planos adaptada de manera sencilla al problema de clasificacion jerarquica, midien-
do la precision de clasificacion a nivel de hojas de la clase jerarquica. Para realizar
la seleccion del mejor clasificador, la mejor representacion de caracterısticas o su
combinacion, dividieron el conjunto de entrenamiento en dos subconjuntos: de en-
trenamiento (80 %) y de validacion (20 %). Para ambos subconjuntos se hace una
seleccion de ejemplos aleatorios sin traslape. Para la extraccion de caracterısticas
de los segmentos de musica, usaron cuatro tipos de representaciones de caracterısti-
cas que son el estado del arte en la clasificacion de genero musical: The Inset-Onset
Interval Histogram Coefficient (IOIHC) [Gouyon et al., 2004] (40 caracterısticas);
Rhythm Histogram (RH) [Lidy and Rauber, 2005] (60 caracterısticas); Statistical
Spectrum Descriptor (SSD) [Lidy and Rauber, 2005] (168 caracterısticas); y el
framework MARSYAS [Tzanetakis and Cook, 2002] (30 caracterısticas).
Los resultados de este trabajo muestran que la combinacion de un metodo de selec-
cion de caracterısticas y un metodo de seleccion de clasificadores tiende a mejorar
los porcentajes de clasificacion. Sin embargo, la explosion combinatoria, resultado
Capıtulo 3: Clasificacion Jerarquica 31
de las posibles combinaciones entre clasificadores y metodos de seleccion de carac-
terısticas, lo vuelven un metodo poco viable para una jerarquıa con un numero de
nodos considerable. Ademas sigue heredando del trabajo de [Secker et al., 2007]
lo avido del metodo.
Finalmente el ultimo trabajo relacionado con la clasificacion por nodo padre es
el de [Secker et al., 2010] Este trabajo enfatiza que su objetivo no es mejorar la
precision en el proceso de clasificacion, siguiendo el esquema de seleccion de clasi-
ficadores, sino que pretende mejorar los tiempos de entrenamiento/validacion sin
sacrificar significativamente los porcentajes de clasificacion. Este trabajo es una
extension de [Secker et al., 2007], mismo que propone la seleccion de clasificadores
como una forma de minimizar el problema de inconsistencia presente en este tipo
de clasificadores.
Debido a que este trabajo esta enfocado en mejorar los tiempos de entrenamien-
to/validacion, no busca el mejor clasificador sino que busca la mejor forma de
seleccionar atributos, dicha seleccion busca ser independiente para cada nodo. Pa-
ra llevar a cabo esta tarea se utiliza el AttributeSelectedClassifier, incluido en el
software WEKA. Sigue el siguiente procedimiento: primero selecciona los mejores
atributos, a traves de alguno de los selectores incluido dentro de sus opciones; y
despues, utiliza esta informacion para realizar la clasificacion, de acuerdo con el
clasificador seleccionado dentro de sus opciones. La comparacion realizada entre
los diferentes selectores de atributos concluyeron que el mejor selector es CfsSub-
setEval.
El metodo es probado con la misma base de datos GPCR y con la misma lista
de clasificadores que se utilizo en el trabajo de [Secker et al., 2007], comparado
contra el esquema de clasificacion con seleccion de clasificadores utilizando un
enfoque Top-Down. Los resultados demuestran que la combinacion de seleccion de
atributos y seleccion de clasificadores reduce el tiempo necesario para realizar las
pruebas de entrenamiento/validacion. Sin embargo, los porcentajes de clasificacion
no decaen drasticamente, de hecho son muy parecidos a los del metodo de seleccion
de clasificadores. A pesar de reducir los tiempos en la seleccion de clasificadores el
metodo propuesto sigue siendo avido.
Para concluir con estos trabajos, el metodo Top-Down con seleccion de clasifica-
dores ha demostrado ser eficiente ante el problema de inconsistencia, propio de
los clasificadores jerarquicos locales. Sin embargo, es un metodo voraz que implica
Capıtulo 3: Clasificacion Jerarquica 32
una serie de pruebas sucesivas por cada nodo padre de la jerarquıa. La mejora en
los porcentajes de clasificacion es innegable pero todo el proceso que debe seguirse
hace que sean metodos computacionalmente complejos para bases de datos de gran
tamano.
Finalmente, la siguiente seccion aborda el metodo de clasificador local por nivel.
Este clasificador es uno de los menos utilizados, sin embargo, es el que menos
clasificadores utiliza en la jerarquıa.
3.3.3. Clasificador Local por Nivel
Consiste en entrenar un clasificador multi-clase para cada nivel de la jerarquıa.
Cuando se presenta un nuevo ejemplo, se toma la salida de todos los clasificadores
(un clasificador por nivel) y se usa esta informacion como la clasificacion final.
La figura 3.4 ilustra este metodo. Una de las ventajas de este metodo es que
utiliza muy pocos clasificadores base, sin embargo, es mas propenso al problema
de inconsistencia en comparacion con los metodos de clasificacion local por nodo
y clasificacion local por nodo padre.
Figura 3.4: Clasificacion jerarquica local por nivel. (A) Los cırculosrepresentan las clases y los rectangulos punteados representan las clasespredichas por los clasificadores multi-clase. (B) La prediccion del clasificador,nodos color rojo, consiste en la ruta indicada por el clasificador multi-clase decada nivel.
La fase de entrenamiento sigue el mismo esquema que los dos metodos de clasifi-
cacion local. Cada clasificador es entrenado con la informacion local de los nodos
de cada nivel. Esta diferencia es la que lo vuelve mas propenso a sufrir por el
problema de inconsistencia. La polıtica de seleccion de ejemplos de entrenamiento
puede ser la misma que en el metodo de clasificacion local por nodo padre. La fase
de clasificacion consiste en combinar las salidas de los diferentes clasificadores.
Capıtulo 3: Clasificacion Jerarquica 33
Tabla 3.1: Tabla comparativa de los tres metodos de clasificacion jerarquicoslocales (por Nodo, Nodo Padre y Nivel).
Aproximacion Jerarquica Ventajas DesventajasClasificador Local por *Simplicidad *Puede sufrir del problemaNodo *Manejo de multi-etiquetado. de bloqueo.
*Puede sufrir del problemade inconsistencia.*Emplea un gran numero declasificadores.
Clasificador Local por *Simplicidad. *Puede sufrir del problemaNodo Padre *Emplea menos clasificadores del bloqueo.
que el clasificador local *Puede sufrir del problemapor nodo. de inconsistencia.
Clasificador Local por *Simplicidad. *Propenso a inconsistencias.Nivel *Emplea menos clasificadores *Ignora la relacion
que el clasificador local padre-hijo de las clasespor nodo padre. durante el entrenamiento.
Una forma de contrarrestar el problema de inconsistencia es seguir la aproxima-
cion Top-Down. Esta forma funciona de la misma manera que en el metodo de
clasificacion local por nodo padre. De acuerdo a la prediccion del clasificador del
primer nivel la prediccion del clasificador del siguiente nivel unicamente conside-
rara las clases que son descendientes de la clase predicha por el clasificador del
nivel superior.
El clasificador por nivel se menciona como una posible aproximacion en el tra-
bajo de [Freitas and de Carvalho, 2007]. Sin embargo, en [Clare and King, 2003]
y en [Costa et al., 2007] se ha utilizado solo como un baseline. Para finalizar la
seccion correspondiente a los metodos de clasificacion jerarquicos locales, la tabla
3.1 muestra las ventajas y desventajas de cada metodo presentado.
3.4. Clasificacion Jerarquica Global
El enfoque de clasificacion jerarquico global, tambien denominado global o big
bang, consiste en construir un unico modelo de clasificacion a partir del conjunto
de entrenamiento. Este modelo se construye tomando en consideracion a todas
las clases de la jerarquıa durante la ejecucion del algoritmo. Durante la fase de
prueba los ejemplos son clasificados de acuerdo al modelo inducido. La figura
3.5 ilustra este metodo de clasificacion. Este modelo no adolece de los problemas
Capıtulo 3: Clasificacion Jerarquica 34
de inconsistencia ni de bloqueo que son propios de los metodos de clasificacion
jerarquico local; sin embargo, el modelo de clasificacion tiende a ser mas complejo.
Figura 3.5: Clasificacion jerarquica global o big bang. Utiliza un algoritmo declasificacion que aprende un modelo de clasificacion global tomando en cuentaa todas las clases de la jerarquıa.
Este enfoque de clasificacion nace como una estrategia para evitar el problema
de inconsistencia utilizando metodos de clasificacion jerarquicos locales. Origi-
nalmente en el trabajo de [Sun and Lim, 2001] se establece que solo existen dos
aproximaciones para la clasificacion jerarquica: Top-Down y Global. Despues de
este trabajo muchos otros trabajos siguieron esta afirmacion ([Costa et al., 2007],
[Secker et al., 2007], [Alves et al., 2008]).
Los metodos de clasificacion jerarquicos globales tienen dos principales caracterısti-
cas: (i) Consideran toda la jerarquıa de una sola vez y (ii) la fase de entrenamiento
no es modular como en los clasificadores jerarquicos locales. La principal diferencia
entre un clasificador jerarquico global y uno local se encuentra en la fase de en-
trenamiento, ya que el clasificador global puede utilizar una aproximacion de tipo
Top-Down en la fase de clasificacion siempre y cuando durante la fase de entrena-
miento cumpla con las caracterısticas mencionadas al principio de este parrafo.
Un tipo de clasificacion jerarquica global esta basada en el clasificador Rocchio
[Salton, 1971], metodo basado en el agrupamiento de clases, donde un nuevo ejem-
plo es asignado a la clase mas cercana de acuerdo a la distancia entre el nuevo
ejemplo y cada clase.
Otro tipo de clasificacion global esta basada en la modificacion de un algoritmo de
clasificacion existente de tal forma que contemple toda la jerarquıa durante las fases
de entrenamiento y clasificacion. Este tipo de clasificacion tiene el inconveniente de
que es especıfico a un algoritmo de clasificacion. Lo anterior es una desventaja en
Capıtulo 3: Clasificacion Jerarquica 35
comparacion con el modelo de clasificacion jerarquica local, el cual no es especıfico
al uso de un unico algoritmo de clasificacion. Sin embargo, para un usuario es
mucho mas facil interpretar el tipo de clasificacion global basado en la modificacion
de un algoritmo de clasificacion que la interpretacion de un metodo de clasificacion
local. Lo anterior es debido a que el modelo de clasificacion del metodo global
tiende a ser considerablemente mas pequeno que la suma de todos los modelos del
metodo local, tomando en consideracion que ambos utilizan el mismo clasificador.
Diversos trabajos llevan a cabo la modificacion de un algoritmo de clasificacion
especıfico con el objetivo de considerar a toda la jerarquıa en una sola corrida.
[Wang et al., 2001] realizan una modificacion al algoritmo de rule mining con el
objetivo de manejar la categorizacion jerarquica de documentos. En el trabajo de
[Clare and King, 2003] modifican el algoritmo de clasificacion C4.5 para manejar
clases jerarquicas, HC4.5. El cambio consiste en modificar la formula para el
calculo de la entropıa para considerar una forma de pesado en la jerarquıa.
La tabla 3.2 presenta una comparacion, de acuerdo con el trabajo de
[Silla and Freitas, 2011], de los diferentes metodos de clasificacion jerarquica. De
acuerdo con dicha tabla, los clasificadores locales son los mas flexibles a pesar
de los problemas de los cuales adolecen. La modularizacion del problema es una
ventaja debido a que cada nodo es tratado por separado. Los clasificadores planos
a pesar de su simplicidad no son la mejor opcion para resolver un problema de tipo
jerarquico debido a que no considera la relacion entre las clases. Los metodos de
clasificacion globales, por lo general, dependen de la modificacion de un algoritmo
de clasificacion y aunque el modelo generado es considerablemente mas pequeno
que el modelo generado por un metodo de clasificacion local, la complejidad de
este es proporcional al tamano de la jerarquıa. En esta tesis el modelo generado
es como el de los clasificadores locales, pero la prediccion de un nuevo ejemplo se
hace de forma global reduciendo el problema de inconsistencia.
Los metodos de clasificacion jerarquicos regularmente son evaluados siguiendo al-
guna medida de evaluacion estandar; sin embargo, la naturaleza del problema es
diferente. Por lo anterior es que en la siguiente seccion se abordan las diferentes
metricas para la evaluacion de los metodos de clasificacion jerarquicos.
Capıtulo 3: Clasificacion Jerarquica 36
Tabla 3.2: Tabla comparativa entre los tres metodos de clasificacion jerarquicos(Plano, Local y Global).
Aproximacion Jerarquica Ventajas DesventajasClasificador Jerarquico *Simplicidad *Ignora completamente laPlano jerarquıa de clases.Clasificador Jerarquico *Considera la jerarquıa de *Pueden sufrir el problemaLocal clases durante las pruebas y del bloqueo.
durante la creacion de los *Dependiendo del problema aconjuntos de entrenamiento. manejar, pueden crear un*Generalmente pueden ser conjunto muy complejo deusados con cualquier clasificadores en cascada, loclasificador base. cual genera un modelo de
clasificacion complejo.*Una clasificacion erroneaen un cierto nodo espropagada hacia todas susclases descendientes.
Clasificador Jerarquico *Considera la jerarquıa de *Clasificador especıficoGlobal clases durante el proceso de *La complejidad del
entrenamiento y de prueba. modelo es proporcional*Un modelo unico de decision al tamano de la(aunque complejo) jerarquıa.
3.5. Medidas de Evaluacion Jerarquicas
Las medidas de clasificacion jerarquica tienen las siguientes propiedades,
[Kiritchenko et al., 2005]:
1. Cada ejemplo no solo pertenece a su clase, sino que tambien a todos los
ancestros de la clase, excepto la raız (todos los ejemplos pertenecen a la
raız).
2. La medida otorga credito a clasificaciones parcialmente correctas. Por ejem-
plo, en la figura 3.6 la clase real de un ejemplo x es G, sin embargo, se
predice como la clase I. Este error sera menos penalizado en comparacion
con una prediccion erronea en D. Lo anterior se debe a que I esta en el mismo
subgrafo que G, mientras que D no.
3. La medida penaliza los errores de distancia mas severamente. Por ejemplo,
en la figura 3.6 la clase real de un ejemplo x es G, sin embargo, se predice
como la clase F. Dado que G y F comparten unicamente al nodo C como
ancestro entonces la penalizacion sera mas severa.
4. La medida castiga los errores en los niveles mas altos de la jerarquıa con
mayor severidad. Por ejemplo, en la figura 3.6 la clase real de un ejemplo x
Capıtulo 3: Clasificacion Jerarquica 37
es G, sin embargo, se predice como la clase I. Este error es menos penalizado
en comparacion a un error en el primer nivel, esto es, que x sea clasificado
como la clase C cuando en realidad pertenece a la clase A.
Figura 3.6: Grafo a cıclico dirigido. Los cırculos denotan a las clases y lasflechas indican la relacion entre las clases. El cırculo de color rojo indica laclase de un ejemplo x.
Para cualquier instancia (di, Ci) clasificada en el subconjunto C ′i extendemos el
conjunto Ci y C ′i con las etiquetas de los ancestros correspondientes:
Ci = {⋃ck∈Ci
Ancestros(ck)}, C ′i = {⋃ck∈C′
iAncestros(ck)}. Donde Ci es el con-
junto que consiste de las clases predichas y de todas sus clases ascendientes. C ′i es
el conjunto que consiste de las clases correctas y de todas sus clases ascendientes.
Despues se calculan las medidas jerarquicas como sigue:
Hierarchical precision o hP.
hP =
∑i |Ci ∩ C ′i||C ′i|
(3.1)
Hierarchical recall o hR.
hR =
∑i |Ci ∩ C ′i||Ci|
(3.2)
Hierarchical F-measure o hF.
Capıtulo 3: Clasificacion Jerarquica 38
hF =2 ∗ hP ∗ hRhP + hR
(3.3)
En esta tesis nos enfocamos en la medida de clasificacion jerarquica hP (Hierarchi-
cal Precision) para realizar la evaluacion tanto del metodo propuesto como de los
metodos utilizados para su comparacion. Sin embargo, tambien se evaluara utili-
zando la medida de precision estandar.
3.6. Resumen
Muchos de los diferentes problemas que se abordan en las diferentes areas del
conocimiento requieren tomar en consideracion la relacion que existe entre las
diferentes clases, en lugar de considerar a cada una por separado. Ası surgen los
metodos de clasificacion jerarquicos.
Como hemos visto en este capıtulo, los metodos de clasificacion jerarquica son
diversos y cada uno de ellos presenta sus ventajas y desventajas. Sin embargo, uno
de los metodos mas difundidos a lo largo de la literatura es el metodo de clasifica-
cion jerarquico local. De este se derivan tres diferentes metodos que se diferencian
principalmente en la forma en como llevan a cabo la fase de clasificacion. De los
tres metodos jerarquicos locales el clasificador local por nivel es el menos popular.
De las dos metodos restantes el mas utilizado es el metodo de clasificacion local
por nodo padre debido a que utiliza menos clasificadores que el metodo restante: el
clasificador local por nodo. Sin embargo, cualquiera de los tres adolece del proble-
ma de inconsistencia, que como hemos visto en este capıtulo, se presenta cuando
surge una clasificacion erronea en un cierto nodo y esta es propagada a todos sus
nodos descendientes.
Los metodos de clasificacion jerarquicos locales se caracterizan por seguir un esque-
ma de tipo Top-Down. De acuerdo con este esquema, los nuevos ejemplos exploran
un unico camino, el cual esta senalado por la prediccion del clasificador correspon-
diente en cada nivel. El metodo propuesto en esta tesis esta basado en un enfoque
de clasificacion jerarquico local; sin embargo, en lugar de seguir un proceso de
tipo Top-Down durante la fase de clasificacion, se opto por un metodo inspirado
en la clasificacion multidimensional. El metodo explora todos los posibles caminos
Capıtulo 3: Clasificacion Jerarquica 39
que un ejemplo de prueba pueda tomar en la jerarquıa al combinar la informacion
proveniente de los clasificadores de cada nodo con el fin de mejorar los porcentajes
de prediccion y minimizar el problema de inconsistencia. Este metodo explora una
nueva forma de llevar a cabo la clasificacion jerarquica bajo un entorno local. Los
metodos de clasificacion jerarquicos que no realizan una prediccion de solo hojas
tienden a definir umbrales para detener el proceso de clasificacion. En esta tesis
se propone un nuevo sistema de paro basado en ganancia de informacion.
En el siguiente capıtulo se presenta el metodo de clasificacion jerarquico multidi-
mensional, el sistema de paro basado en ganancia de informacion y el metodo de
clasificacion jerarquico encadenado.
Capıtulo 4
Clasificador Jerarquico
Multidimensional
El metodo que se propone en la presente tesis realiza una prediccion global al tomar
en consideracion la probabilidad predicha por cada clasificador en la jerarquıa, aun
cuando los clasificadores estan construidos con la informacion local de cada nodo.
La prediccion final del metodo, para cada ejemplo de prueba, corresponde a un
subconjunto de clases que corresponden a una de las ramas de la jerarquıa. Cabe
mencionar que la diferencia que existe entre el metodo propuesto en esta tesis y
el metodo tradicional Top-Down se encuentra en la fase de clasificacion, debido a
que la fase de entrenamiento es similar para ambos metodos.
Adicionalmente, se propone el clasificador jerarquico encadenado. Este considera la
dependencia entre las clases al tomar en cuenta las predicciones realizadas por cada
clasificador en la jerarquıa mediante la tecnica de encadenamiento entre clases.
Los procesos de clasificacion jerarquica cuya prediccion es, o bien un nodo interno o
un nodo hoja definen un sistema de paro basado en la definicion de un umbral para
cada nivel de la jerarquıa. Estos umbrales son, generalmente, definidos y ajustados
de manera manual. Debido a lo anterior en este trabajo de tesis se plantea, como
una extension al clasificador jerarquico multidimensional, un nuevo sistema de paro
basado en ganancia de informacion que permita realizar una prediccion a diferentes
niveles de la jerarquıa al medir la confianza en la prediccion del clasificador, sin la
necesidad de definir un umbral para cada nivel de la jerarquıa.
41
Capıtulo 4: Clasificador Jerarquico Multidimensional 42
4.1. Clasificador Jerarquico Multidimensional
En el metodo de clasificacion jerarquico local estandar (Top-Down), figura 4.1, un
ejemplo de prueba sigue una unica ruta marcada por la prediccion del clasificador
en cada nivel de la jerarquıa hasta llegar a un nodo hoja. Por ejemplo, en la figura
4.1 si la prediccion del clasificador del nodo raız R para un ejemplo de prueba es
1, entonces el ejemplo es pasado al clasificador de ese nodo siendo la prediccion de
este la clase asignada al ejemplo de prueba. Sin embargo, este procedimiento trunca
a las demas ramas de la jerarquıa, la ramas de los nodos 2 y 3 en la figura antes
mencionada, como candidatas para el ejemplo de prueba. Debido a lo anterior,
se corre el riesgo de que una mala prediccion, en cualquier clasificador a lo largo
del camino, conduzca a un resultado erroneo. Por ello, la solucion que se propone
es tomar en consideracion la probabilidad predicha por cada nodo de cada rama
de la jerarquıa y con ello considerar a todas las ramas como posibles caminos del
ejemplo de prueba.
Figura 4.1: Clasificador jerarquico local. Los cırculos denotan las clases en lajerarquıa mientras que los cuadrados punteados denotan los clasificadores en lamisma.
Los clasificadores del clasificador jerarquico multidimensional son entrenados si-
guiendo la polıtica Siblings descrita en [Silla and Freitas, 2011]. Para clasificacio-
nes cuya prediccion no es de solo nodos hoja, figura 4.2 (A), dicha polıtica consiste
en entrenar a cada clasificador utilizando los ejemplos que pertenecen al nodo del
clasificador y los ejemplos de todos los nodos descendientes de dicho nodo. Por
ejemplo, en la figura 4.2 (A) el nodo 3 del clasificador es entrenado con los ejem-
plos del propio nodo 3 y con los ejemplos de sus nodos descendiente 3.1,3.2 y 3.3.
Para clasificaciones cuya prediccion es de solo nodos hoja, figura 4.2 (B), tal polıti-
ca consiste en entrenar a cada clasificador utilizando los ejemplos pertenecientes
a todos los nodos descendientes de este mismo. Por ejemplo, en la figura 4.2 (B)
el nodo 3 del clasificador es entrenado con los ejemplos de sus nodos descendiente
Capıtulo 4: Clasificador Jerarquico Multidimensional 43
3.1,3.2 y 3.3. De esta manera, el clasificador toma en consideracion unicamente
los ejemplos de la rama del nodo al que pertenece dejando a un lado los ejemplos
de las demas ramas.
Figura 4.2: Ejemplo de la polıtica Siblings. Los cırculos denotan las clases enla jerarquıa mientras que los cuadrados punteados denotan los clasificadores.(A) Clasificacion cuya prediccion no es de solo nodos hoja. La prediccion deeste clasificador puede terminar en cualquier nodo, ya sea un nodo hoja o unnodo interno. (B) Clasificacion cuya prediccion es de solo nodos hoja. Laprediccion de este clasificador debe terminar en un nodo hoja.
La fase de entrenamiento del clasificador jerarquico multidimensional sigue los
mismos pasos que el metodo tradicional de clasificacion jerarquico, Top-Down. La
diferencia entre ambos metodos radica en la fase de prueba.
El algoritmo que se sigue durante la fase de entrenamiento es el siguiente:
1. Se eligen los ejemplos de entrenamiento para cada nodo padre de la jerarquıa
siguiendo la polıtica Siblings.
2. De acuerdo con los ejemplos elegidos en cada nodo padre se construye el
modelo de clasificacion con el algoritmo de clasificacion elegido.
El clasificador jerarquico multidimensional, en la fase de clasificacion, toma en con-
sideracion la probabilidad predicha por cada clasificador para realizar la prediccion
de un nuevo ejemplo. Para la fase de clasificacion definimos a X = {x1, x2, ..., xn}como el conjunto de todos los ejemplos de prueba y a C = {c1, c2, ..., cl} como el
conjunto de todos los clasificadores en la jerarquıa. Cada ejemplo de prueba xi es
clasificado por cada uno de los cj clasificadores en la jerarquıa, de tal forma que
cada uno de esos clasificadores predice la probabilidad de que ese ejemplo perte-
nezca a una de las clases de su nodo correspondiente. En esta fase el clasificador
puede utilizar uno de tres posibles metodos para seleccionar la “mejor” rama de la
jerarquıa, todos ellos basados en las probabilidades predichas por cada clasificador
de nodo padre, estos metodos son:
Capıtulo 4: Clasificador Jerarquico Multidimensional 44
1. Metodo basado en el producto de probabilidades.
2. Metodo basado en la suma de probabilidades.
3. Metodo basado en el ordenamiento descendente de probabilidades.
La fase de clasificacion finaliza con la prediccion de uno de los nodos hoja de la
jerarquıa. Sin embargo, la prediccion final del metodo tambien puede ser un nodo
interno. Para conseguir esto aplicamos el sistema de paro basado en ganancia de
informacion.
A continuacion se describen las tres alternativas para la etapa de clasificacion.
Tambien se detalla el metodo de ganancia de informacion mismo que lleva a cabo
la prediccion final del clasificador
4.1.1. Metodo Basado en el Producto de Probabilidades
El metodo basado en el producto de probabilidades lleva a cabo el producto de las
probabilidades predichas de los clasificadores de cada rama de la jerarquıa durante
la fase de clasificacion. El producto de probabilidades se realiza en cada rama de
la jerarquıa, siendo la prediccion final de este metodo la rama cuyo producto haya
sido el mayor. La ecuacion 4.1 describe el producto de probabilidades para las
y ramas del arbol, donde: Pi es la probabilidad de la clase i de la rama j. Sin
embargo, los resultados obtenidos deben ser normalizados con el fin de no tener
preferencias por las ramas mas cortas. La normalizacion de los resultados se realiza
utilizando la ecuacion 4.2, donde y es el numero de ramas y R es el conjunto de
resultados obtenidos de la ecuacion 4.1. Finalmente se elige la rama cuyo resultado
haya sido el mayor. En la figura 4.3 se muestra un ejemplo de este metodo. En (A)
se muestran las clases de la jerarquıa. El primer paso consiste en que el ejemplo de
prueba sea tomado como entrada por cada clasificador en la jerarquıa. El resultado
del primer paso son las probabilidades predichas por cada clasificador para cada
una de las clases asociadas al mismo. El segundo paso consiste en multiplicar las
probabilidades de cada clase en cada una de las ramas de la jerarquıa. Finalmente,
del resultado de las operaciones anteriores se elegira la rama cuyo resultado haya
sido el mayor, para el caso particular de la figura 4.3 la primera rama resulta ser
la eleccion para el ejemplo x.
Capıtulo 4: Clasificador Jerarquico Multidimensional 45
Rj =n∏i=1
Pi donde n son los nodos de la rama j (4.1)
Rj =Rj∑yi=1Ri
(4.2)
Figura 4.3: Metodo basado en el Producto de Probabilidades. Los cırculos dela parte (A) denotan las clases en la jerarquıa mientras que los cuadradospunteados denotan los clasificadores en la misma. Los cırculos de la parte (B),exceptuando a la raız, representan las probabilidades predichas por losclasificadores. El primer paso clasifica el ejemplo x en cada clasificador.Finalmente, el paso 2 multiplica las probabilidades predichas por losclasificadores para cada clase. La rama en cırculos rojos es la de mejorprobabilidad, por lo que x se clasifica con las clases 1 y 1.1.
La figura 4.4 ilustra la diferencia entre el metodo basado en el producto de pro-
babilidades del clasificador jerarquico multidimensional y el metodo Top-Down.
En dicha figura se ilustra como durante el proceso de clasificacion el metodo Top-
Down explora una sola rama de la jerarquıa mientras que el metodo basado en el
producto de probabilidades explora todas las ramas de la jerarquıa.
4.1.2. Metodo Basado en la Suma de Probabilidades
Este segundo metodo, basado en la suma de probabilidades, toma en consideracion
todas las probabilidades predichas en cada rama de la jerarquıa durante la fase de
clasificacion, lo anterior al sumar la probabilidad predicha por cada nodo de cada
rama. La ecuacion 4.3 describe la suma de probabilidades para las y ramas de la
jerarquıa, donde: Pi es la probabilidad de la clase i en la rama j. Tal como sucede
Capıtulo 4: Clasificador Jerarquico Multidimensional 46
Figura 4.4: Diferencia entre el metodo Top-Down y el producto deprobabilidades. (A) clasificador jerarquico local. Los cırculos denotan lasclases en la jerarquıa mientras que los cuadrados punteados denotan losclasificadores en la misma. (B) Resultado, nodos color rojo, al aplicar elmetodo Top-Down a la parte (A). (C) Resultado, nodos color rojo, trasaplicar el producto de probabilidades a la parte (A). Los cırculos, exceptuandoa la raız, representan las probabilidades predichas por los clasificadores.
con el metodo anterior, se deben normalizar las predicciones obtenidas con el fin
de no favorecer a las ramas mas extensas. La normalizacion de cada subarbol se
realiza utilizando la ecuacion 4.4, donde y es el numero de ramas y R es el conjunto
de resultados obtenidos de la ecuacion 4.3. La rama cuya suma haya sido la mayor
sera la prediccion final de este metodo. La figura 4.5 ilustra este metodo.
Rj =n∑i=1
Pi donde n son los nodos de la rama j (4.3)
Rj =Rj∑yi=1Ri
(4.4)
La figura 4.6 ilustra la diferencia entre el metodo basado en la suma de proba-
bilidades del clasificador jerarquico multidimensional y el metodo Top-Down. En
Capıtulo 4: Clasificador Jerarquico Multidimensional 47
Figura 4.5: Metodo basado en la suma de Probabilidades. Los cırculos de laparte (A) denotan las clases en la jerarquıa mientras que los cuadradospunteados denotan los clasificadores en la misma. Los cırculos de la parte (B),exceptuando a la raız, representan las probabilidades predichas por losclasificadores. Primero se clasifica el ejemplo de prueba x en todos losclasificadores de la jerarquıa, y luego se suman las probabilidades predichas encada rama, resultando la rama de mejor probabilidad.
dicha figura se ilustra como durante el proceso de clasificacion el metodo Top-
Down explora una sola rama de la jerarquıa mientras que el metodo basado en el
producto de probabilidades explora todas las ramas de la jerarquıa.
4.1.3. Metodo Basado en el Ordenamiento Descendente de
Probabilidades
Este metodo ordena en una lista descendente los nodos de la jerarquıa de acuer-
do a las probabilidades predichas por cada uno de los clasificadores de la misma
durante la fase de clasificacion. De acuerdo a este ordenamiento el metodo se en-
cargara de verificar cada nodo de la lista en busca de la ocurrencia de todos los
nodos de cualquiera de las ramas de la jerarquıa. La prediccion final sera aquella
rama que ocurra primero durante la busqueda realizada por el metodo. La figura
4.7 ilustra este metodo. La tabla 4.1 muestra el algoritmo de este metodo. Des-
pues de que un ejemplo x haya sido clasificado por todos los clasificadores de la
jerarquıa, las probabilidades predichas por estos son utilizadas para ordenar to-
dos los nodos de una forma descendente. Como ultimo paso el metodo buscara la
ocurrencia de cualquiera de las ramas de la jerarquıa, de tal forma que el metodo
finalizara cuando todos los nodos de una rama hayan sido encontrados.
Capıtulo 4: Clasificador Jerarquico Multidimensional 48
Figura 4.6: Diferencia entre el metodo Top-Down y la suma deprobabilidades. (A) clasificador jerarquico local. Los cırculos denotan lasclases en la jerarquıa mientras que los cuadrados punteados denotan losclasificadores en la misma. (B) Resultado, nodos color rojo, al aplicar elmetodo Top-Down a la parte (A). (C) Resultado, nodos color rojo, trasaplicar la suma de probabilidades a la parte (A). Los cırculos, exceptuando ala raız, representan las probabilidades predichas por los clasificadores.
La figura 4.8 ilustra la diferencia entre el metodo basado en el ordenamiento des-
cendente de probabilidades del clasificador jerarquico multidimensional y el meto-
do Top-Down. En dicha figura se ilustra como durante el proceso de clasificacion el
metodo Top-Down explora una sola rama de la jerarquıa mientras que el metodo
basado en el producto de probabilidades explora todas las ramas de la jerarquıa.
4.1.4. Ganancia de Informacion
El metodo de ganancia de informacion es aplicado a la prediccion final realizada
por cualquiera de los metodos del clasificador jerarquico multidimensional y mide
el grado de confianza que existe en tal prediccion. El metodo sigue una verificacion
de tipo Bottom-up. Lo anterior significa que el metodo es aplicado a las predicciones
de los clasificadores que se encuentran en el nivel inferior del arbol, de tal forma
que si existe mucha incertidumbre en la prediccion del nodo entonces el metodo
sube un nivel y aplica el mismo metodo a las predicciones del clasificador de ese
Capıtulo 4: Clasificador Jerarquico Multidimensional 49
Tabla 4.1: Algoritmo de ordenamiento descendente de probabilidades.
Algoritmo de ordenamiento descendente de probabilidadesRequiere :
P(conjunto ordenado descendentemente de clases)de acuerdo con las probabilidades predichas)
TP(tamano del conjunto P)Nr(numero de clases por rama)
Asegurar:C prediccion finalContador1, ..., Contadorr ← 0 . inicializacion de los contadores
para las clases de cada ramapara i← 1 hasta TP hacer
clase ← P(i)rama ← bucarRama(clase) Se busca la rama de la claseContadorrama ← Contadorrama +1 . se aumenta
el contador de la ramasi Nrama = Contadorrama
terminar el ciclofin para
C ← clases de la rama
nivel. La verificacion se realiza de manera recursiva hasta llegar a un nodo con
poca incertidumbre o hasta llegar al primer nivel de la jerarquıa. El metodo de
ganancia de informacion (GI) esta basado en la ecuacion (4.5)
GI = Ent(ParentC(i))−∑j=1
wChildj(i) ∗ Ent(Childj(i)) (4.5)
Ent = −∑i=1
pilog2(pi) (4.6)
Ent representa a la entropıa, ParentC(i) es el clasificador padre del nodo i, Childj(i)
son los j hijos del clasificador del nodo i y w es el peso de cada clase en i. El peso
de cada clase corresponde al numero de ejemplos de dicha clase dividido entre el
numero total de ejemplos del nodo i.
En la ecuacion (4.6), pi denota la probabilidad predicha por el clasificador para la
clase i. Hay que tomar en consideracion que la entropıa es calculada en cada clasi-
ficador de nodo padre (Ent(ParentC(i))) y en cada uno de sus correspondientes
clasificadores de los nodos hijo (Ent(Childj(i)).
Capıtulo 4: Clasificador Jerarquico Multidimensional 50
Figura 4.7: Metodo basado en el Ordenamiento Descendente deProbabilidades. Los cırculos de la parte (A) denotan las clases en la jerarquıamientras que los cuadrados punteados denotan los clasificadores en la misma.Los cırculos de la parte (B), exceptuando a la raız, representan lasprobabilidades predichas por los clasificadores. La parte (C) muestra las clasesordenadas de acuerdo a la probabilidad predicha en la parte (B), los cırculosrojos, en (c) representan las clases de la rama seleccionada del ejemplo deprueba.
Si la GI es menor a 0, la prediccion del ejemplo no resultarıa ser tan confiable,
en otras palabras, existirıa mucha incertidumbre en el clasificador. La formula es
aplicada de manera iterativa hasta que ocurra una de dos posibles situaciones:
se alcanza el primer nivel de la jerarquıa o el resultado de la ecuacion (4.5) es
mayor que cero. La peor situacion que se podrıa manifestar serıa la de alcanzar el
primer nivel de la jerarquıa, lo cual significarıa que ninguno de los clasificadores
obtuvo la confianza suficiente en el resultado de su prediccion. Por ejemplo en la
figura 4.5, La prediccion del clasificador jerarquico multidimensional aplicando el
metodo de suma de probabilidades es el nodo hoja 1.1. En esta fase se aplica el
sistema de paro y si el resultado de la ecuacion 4.5 es mayor que cero entonces la
prediccion final del clasificador jerarquico multidimensional aplicando el sistema
de paro sera el nodo 1.1. Sin embargo, si el resultado de la ecuacion 4.5 es menor
a cero entonces se aplica la misma ecuacion al nodo padre del nodo 1.1, en este
caso, el nodo 1 pero el nodo 1 es el nodo padre de la rama por tanto la prediccion
del clasificador jerarquico multidimensional aplicando el sistema de paro sera este
nodo.
Capıtulo 4: Clasificador Jerarquico Multidimensional 51
Figura 4.8: Diferencia entre el metodo Top-Down y el ordenamientodescendente de probabilidades. (A) clasificador jerarquico local. Los cırculosdenotan las clases en la jerarquıa mientras que los cuadrados punteadosdenotan los clasificadores en la misma. (B) Resultado, nodos color rojo, alaplicar el metodo Top-Down a la parte (A). (C) Resultado, nodos color rojo,tras aplicar el ordenamiento descendente de probabilidades a la parte (A). Loscırculos, exceptuando a la raız, representan las probabilidades predichas porlos clasificadores.
4.2. Clasificador Jerarquico Encadenado
El clasificador jerarquico encadenado incorpora dependencia entre las clases de
la jerarquıa al anadir como un atributo adicional al espacio de caracterısticas del
ejemplo de prueba la probabilidad predicha por los clasificadores encadenados de
la rama de la jerarquıa. De acuerdo a lo anterior, los clasificadores en cada rama
son encadenados de tal forma que la raız es el clasificador que inicia la cadena en
cada rama. Recordemos que las clases de un problema de tipo jerarquico tienen
un orden preestablecido y por tanto el orden de los clasificadores en la cadena esta
igualmente definido.
El proceso de encadenamiento en este clasificador, tal como en los trabajos de
[Read et al., 2009] y [Zaragoza et al., 2011], consiste en anadir como un atributo
adicional al espacio de caracterısticas del ejemplo de prueba la probabilidad predi-
cha por cada clasificador de la rama del arbol. En el caso del clasificador jerarquico
Capıtulo 4: Clasificador Jerarquico Multidimensional 52
encadenado, se incorporan como caracterısticas adicionales las probabilidades de
los ascendientes del nodo en la jerarquıa.
El proceso de entrenamiento sigue el algoritmo propuesto originalmente en el tra-
bajo de [Read et al., 2009]. Sin embargo, la unica diferencia es que al espacio de
caracterısticas de cada ejemplo no le es anadida la clase sino que le es anadida la
probabilidad de que dicho ejemplo pertenezca a la clase en cuestion. Durante el
proceso de clasificacion primero se realiza la prediccion del clasificador del nodo
raız, anadiendo la probabilidad predicha por este a los ejemplos de entrenamiento,
despues se realiza la prediccion de los clasificadores del primer nivel y ası sucesi-
vamente hasta llegar al ultimo clasificador. La prediccion final para este metodo
sera la clase cuya probabilidad haya sido la mayor.
Para la fase de clasificacion definimos a X = x1, x2, ..., xj como el conjunto de
ejemplos de prueba y a Y = {y1, y2..., yi} como el conjunto de clases pertenecientes
al nodo. Un ejemplo de prueba xj recorrera cada una de las ramas de la jerarquıa
con el objetivo de contemplar todas los posibles caminos. Sin embargo, el proceso
de encadenamiento es independiente a cada rama. El proceso de encadenamiento
consiste en anadir, como un atributo adicional al espacio de caracterısticas de cada
ejemplo de prueba, la probabilidad de que xj pertenezca a la clase yi a lo largo
de todos los niveles de la jerarquıa. Por tanto, a cada ejemplo del conjunto de
prueba se le anaden tantos atributos como niveles tenga la rama correspondiente
de la jerarquıa. La figura 4.9 ilustra a este clasificador. Para esta figura el proceso
de encadenamiento inicia en el nodo raız (R). La probabilidad predicha por el
clasificador R de que cada ejemplo xj pertenezca a la clase 1 de la jerarquıa es
anadida como un atributo adicional a cada uno de estos ejemplos. Igualmente, la
probabilidad predicha por el clasificador R de que cada ejemplo xj pertenezca a la
clase 3 de la jerarquıa es anadida como un atributo adicional a cada uno de estos
ejemplos. Los clasificadores del siguiente nivel clasificaran los xj ejemplos.
4.3. Resumen
En este capıtulo se ha descrito el metodo propuesto de la presente tesis: el clasifica-
dor jerarquico multidimensional (CJM). Este metodo considera la informacion de
todas las ramas, a traves de las predicciones de los clasificadores, para realizar la
prediccion de un nuevo ejemplo. Para este clasificador jerarquico se han propuesto
Capıtulo 4: Clasificador Jerarquico Multidimensional 53
Figura 4.9: Clasificador jerarquico encadenado. Los cırculos denotan a lasclases mientras que los recuadros punteados representan a los clasificadores.Las flechas solidas representan la relacion entre las clases mientras que lasflechas punteadas representan el encadenamiento entre los clasificadores. Elrecuadro (A) representa los atributos de los ejemplos de la clase 1 (A1, ..., An)junto con el atributo adicional que es la probabilidad predicha por elclasificador R (PR1) de que el ejemplo x pertenezca a la clase 1. El recuadro(B) representa los atributos de los ejemplos de la clase 3 (A1, ..., An) junto conel atributo adicional que es la probabilidad predicha por el clasificador R(PR3) de que el ejemplo x pertenezca a la clase 3.
tres metodos que combinan las probabilidades predichas por cada clasificador para
generar una prediccion final. La combinacion de las probabilidades explora los re-
sultados de todas las ramas con el fin de tener una vision global y con ello elegir el
mejor camino para cada ejemplo de prueba. En contraste, los metodos Top-Down
y Top-down con seleccion de clasificadores siguen un unico camino, mismo que es
trazado por la prediccion del clasificador correspondiente en cada nivel. Ademas,
el metodo Top-Down con seleccion de clasificadores anade mayor complejidad al
seleccionar para cada nodo el mejor clasificador de una lista preestablecida.
Igualmente, en este capıtulo se presento un nuevo sistema de paro, basado en
ganancia de informacion, que mide la confianza que existe en la prediccion final
del CJM y, ademas, permite realizar predicciones en nodos internos de la jerarquıa.
Los metodos tradicionales de paro estan basados en umbrales y siguen un esquema
de tipo Top-Down.
Finalmente, se presento el clasificador jerarquico encadenado (CJE). Este metodo
Capıtulo 4: Clasificador Jerarquico Multidimensional 54
anade, como atributos adicionales, las probabilidades predichas por cada clasi-
ficador al espacio de caracterısticas de cada ejemplo. A diferencia del metodo
tradicional de clasificacion Top-Down, este nuevo enfoque permite establecer una
nueva relacion padre-hijo incorporando dependencia entre las clases a traves de la
probabilidad predicha por los clasificadores de cada rama en la jerarquıa.
El siguiente capıtulo presentan los experimentos realizados con lo metodos expues-
tos en este capıtulo comparandolos con los metodos tradicionales de clasificacion
jerarquica Top-Down y Top-Down con seleccion de clasificadores.
Capıtulo 5
Experimentos y Resultados
Este capıtulo esta enfocado en los experimentos realizados y en los resultados
obtenidos de los mismos. Los primeros experimentos comparan el modelo de cla-
sificacion jerarquico encadenado con el mismo modelo de clasificacion pero sin
encadenamiento. Despues, se prueba la misma idea de encadenamiento pero con
el clasificador jerarquico Top-Down. Los experimentos realizados con el clasifica-
dor jerarquico multidimensional aplican los tres metodos propuestos (producto de
probabilidades, suma de probabilidades y ordenamiento descendente de probabi-
lidades) con y sin el sistema de paro basado en ganancia de informacion. Igual-
mente, se aplicaron los tres metodos propuestos, con y sin el sistema de paro, al
clasificador jerarquico encadenado para comparar estos nuevos resultados con los
obtenidos con el clasificador jerarquico multidimensional. Los ultimos resultados
del clasificador jerarquico encadenado y los resultados del clasificador jerarquico
multidimensional son comparados con los casos base. Finalmente, para los expe-
rimentos se utilizaron las bases de datos IAPR-TC12, Reuters-21578 y FunCat de
las areas de imagenes, textos y bioinformatica respectivamente.
En la siguiente seccion se expondra un breve analisis de las bases de datos, de-
tallandose cada una de estas en el apendice A. Despues, se expondran los casos
base que se utilizaron como comparacion con el metodo propuesto y finalmente, se
presentan los experimentos y resultados obtenidos, ası como un analisis de estos
mismos.
55
Capıtulo 5: Experimentos y Resultados 56
Tabla 5.1: Conjuntos de datos utilizados en los experimentos.
Bases de datos Tipos de # de ejemplos Niveles #Atributos Tipo deBases de datos jerarquıa
IAPR-TC12* Imagenes 45347 2 23 Arbol
FunCat** Bioinformatica 1433 3 77 Arbol
Reuters-21578 Textos 6274 2 16145 Arbol* Se considera unicamente la rama Landscape de la jerarquıa original.** Se considera unicamente el conjunto de datos CellCycle de la B.D.
5.1. Bases de Datos
En el ambito de la clasificacion jerarquica no existe un repositorio donde adquirir,
de manera sencilla, bases de datos de esta naturaleza. Sin embargo, se busco ob-
tener diversas bases de datos con el fin de probar el metodo propuesto y con ello
comparar los resultados en bases de datos de diferente naturaleza. Las bases de
datos con las que se trabajo fueron las siguientes:
1. Base de Datos IAPR-TC12.
2. Base de Datos FunCat (Functional Catalogue).
3. Base de Datos Reuters-21578.
La tabla 5.1 muestra un cuadro con cada una de las bases de datos mencionadas
anteriormente. En el apendice A se detalla cada una de ellas.
5.2. Casos Base
Los casos base, con los que se compara el metodo propuesto, son los metodos de
clasificacion jerarquica mas difundidos y que de acuerdo al estado del arte son: el
metodo Top-Down y el metodo Top-Down con seleccion de clasificadores. Siendo
este ultimo uno de los metodos que presenta mejores resultados.
Capıtulo 5: Experimentos y Resultados 57
5.3. Construccion de los Clasificadores Base de
la Jerarquıa
La construccion de los clasificadores implica el agrupamiento ascendente de las cla-
ses. La figura 5.1 ilustra el proceso que se sigue para agrupar las clases de acuerdo
a la taxonomıa de la base de datos. De acuerdo con la figura antes mencionada los
subconjuntos (S1, ..., St), correspondientes a las clases hoja de cada rama de la je-
rarquıa, representadas en la figura con los cırculos de contorno azul, conforman los
ejemplos de entrenamiento para los clasificadores del nivel superior, representados
en la figura con los cırculos de color azul. A su vez, una copia de los ejemplos de
los nodos color azul son re-etiquetados con la clase correspondiente a la del nodo
color azul y fusionados en un unico nodo, el nodo raız, para conformar el conjunto
de entrenamiento del clasificador del nodo raız.
Los clasificadores de la jerarquıa fueron construidos siguiendo la polıtica Siblings.
De acuerdo con esta, para clasificaciones cuya prediccion no es de solo nodos hoja
los ejemplos de cada clasificador corresponden a los ejemplos del nodo donde se
encuentra sumado con los ejemplos de todos sus nodos descendientes. Para clasi-
ficaciones cuya prediccion es de solo nodos hoja los ejemplos de cada clasificador
corresponden a los ejemplos de todos los nodos descendientes al nodo del clasi-
ficador. Para el metodo Top-Down, el clasificador jerarquico multidimensional y
el clasificador jerarquico encadenado se opto por utilizar unicamente uno de dos
clasificadores: Random Forest o Naive Bayes. De esta forma, para cada uno se cons-
truyeron dos arboles por cada base de datos, uno por cada clasificador. Finalmente,
para el caso del metodo Top-Down con seleccion de clasificadores unicamente se
construyo un arbol que contempla diferentes tipos de clasificadores base.
La siguiente seccion presenta los experimentos realizados con los metodos propues-
tos y con los casos base para las tres bases de datos.
5.4. Experimentos
Los experimentos presentados en esta seccion corresponden a los metodos propues-
tos, clasificador jerarquico multidimensional y clasificador jerarquico encadenado,
y los metodos del estado del arte, Top-Down y Top-Down con seleccion de clasifi-
cadores, sobre los cuales se realizara la comparacion con el metodo propuesto.
Capıtulo 5: Experimentos y Resultados 58
Figura 5.1: Construccion de los clasificadores base de la jerarquıa. Loscırculos en la imagen representan las clases y los recuadros punteadosrepresentan a los clasificadores. (A) el conjunto de datos D es dividido en Stsubconjuntos. (B) cada subconjunto contiene ejemplos de las clases de tipohoja, representadas con los cırculos de contorno azul. (C) Los ejemplos de losnodos hoja son fusionados en un nuevo nodo, cırculo de color azul, paraconformar el conjunto de entrenamiento del clasificador del nodo. Finalmentetodos los ejemplos de los nodos de color azul son fusionados en un nuevo yunico nodo que representa la raız de la jerarquica, cırculo color negro, paraconformar el conjunto de entrenamiento del nodo raız.
5.4.1. Clasificador Jerarquico con y sin Encadenamiento
Los experimentos realizados en esta seccion son clasificaciones a nivel de hojas ba-
jo el esquema de 5 fold-cross validation utilizando los clasificadores Naive Bayes y
Random Forest. Los resultados fueron evaluados utilizando la medida de precision
estandar. Los primeros experimentos realizados con el clasificador jerarquico enca-
denado (CJE) comparan el desempeno de este contra el mismo esquema de clasifi-
cacion pero sin encadenamiento. El metodo de clasificacion jerarquico encadenado
realiza la clasificacion explorando todas las ramas de la jerarquıa comenzando des-
de la raız, mientras que el metodo de clasificacion sin encadenamiento realiza la
clasificacion solo en los ultimos clasificadores de cada rama. La prediccion final en
ambos esquemas sera la hoja cuya probabilidad haya resultado ser la mayor.
Capıtulo 5: Experimentos y Resultados 59
Tabla 5.2: Resultados de los experimentos realizados con el metodo declasificacion jerarquico encadenado y el esquema sin encadenamiento para labase de datos IAPR-TC12 evaluados con la medida de precision estandar.Los mejores resultados, para cada columna, se encuentran resaltados ennegrita.
Clasificador Tomando en Sin tomar en cuenta Sin repetidos utilizandocuenta repetidos repetidos probabilidad a priori
EncadenadoNaive Bayes 25.17 % 2.57 % 12.83 %Random Forest 25.77 % 8.02 % 21.48 %
Sin encadenamientoNaive Bayes 24.89 % 3.29 % 13.27 %Random Forest 22.97 % 9.14 % 22.12 %
Tabla 5.3: Resultados de los experimentos realizados con el metodo declasificacion jerarquico encadenado y el esquema sin encadenamiento para labase de datos FunCat evaluados con la medida de precision estandar. Losmejores resultados, para cada columna, se encuentran resaltados en negrita.
Clasificador Tomando en Sin tomar en cuenta Sin repetidos utilizandocuenta repetidos repetidos probabilidad a priori
EncadenadoNaive Bayes 23.02 % 3.17 % 11.27 %Random Forest 14.13 % 12.06 % 13.33 %
Sin encadenamientoNaive Bayes 32.02 % 0.63 % 12.06 %Random Forest 13.97 % 12.38 % 13.17 %
Uno de los principales problemas con los esquemas de clasificacion jerarquico en-
cadenado y sin encadenamiento es el tomar en consideracion unicamente a la hoja
cuya probabilidad haya sido la mas alta, debido a que dos o mas hojas pueden
llegar a tener una misma probabilidad. Por lo anterior los resultados en los experi-
mentos consideraron tres posibles escenarios: (i) tomando en cuenta repetidos, (ii)
sin tomar en cuenta repetidos y (iii) utilizar la probabilidad a priori de cada clase
hoja como metodo para evitar empates. El escenario (i) considera la prediccion co-
mo correcta siempre y cuando la clase real del ejemplo de prueba se encuentra en el
conjunto de clases de probabilidad mas alta y que hayan sido iguales. El escenario
(ii) toma como correcto un resultado si la clase predicha es la clase real del ejemplo
de prueba y ademas no se presenta el escenario (i). Finalmente, el escenario (iii)
utiliza la probabilidad a priori de cada clase hoja para evitar el problema del esce-
nario (i). Este ultimo escenario es un esquema intermedio entre los escenarios (i)
y (ii), dado que evita empates entre las clases predichas. Los resultados obtenidos
en estos experimentos se ilustran en las tablas 5.2,5.3 y 5.4 que corresponden a las
bases de datos IAPRTC-12, FunCat y Reuters, respectivamente.
Capıtulo 5: Experimentos y Resultados 60
Tabla 5.4: Resultados de los experimentos realizados con el metodo declasificacion jerarquico encadenado y el esquema sin encadenamiento para labase de datos Reuters evaluados con la medida de precision estandar. Losmejores resultados, para cada columna, se encuentran resaltados en negrita.
Clasificador Tomando en Sin tomar en cuenta Sin repetidos utilizandocuenta repetidos repetidos probabilidad a priori
EncadenadoNaive Bayes 78.81 % 0 % 68.75 %Random Forest 45.54 % 35.82 % 45.27 %
Sin encadenamientoNaive Bayes 78.89 % 0 % 68.79 %Random Forest 42 % 26.14 % 41.39 %
Los resultados obtenidos muestran que aplicar el metodo de encadenamiento pro-
puesto a un esquema de clasificacion jerarquico no tiene un impacto significativo
en el proceso de clasificacion ya que los resultados son similares y en muchos casos
menores al metodo sin encadenamiento. Lo anterior se debe a que la informacion
anadida al espacio de caracterısticas de los ejemplos de prueba no esta ayudando
al proceso de clasificacion.
5.4.2. Clasificador Jerarquico Top-Down con y sin Enca-
denamiento
Se llevaron a cabo experimentos con el metodo de clasificacion Top-Down aplicando
encadenamiento. Para los experimentos con el clasificador Top-Down se utilizaron
los clasificadores Random Forest y Naive Bayes. La clasificacion es a nivel de hojas
bajo el esquema de 5 fold-cross validation y evaluando los resultados utilizando
la medida de precision estandar. Estas nuevas pruebas siguen el proceso de en-
trenamiento del metodo de encadenamiento. Durante el proceso de clasificacion el
ejemplo de prueba no es clasificado en todas las ramas de la jerarquıa, como en el
clasificador jerarquico encadenado, sino que ahora sigue el esquema de clasificacion
Top-Down, esto es, el ejemplo de prueba sigue la trayectoria que cada clasificador
le va indicando hasta llegar a un nodo hoja. Los resultados de estas pruebas se
muestran en la tabla 5.5.
Los resultados obtenidos, al igual que los resultados de la seccion anterior, mues-
tran que aplicar el metodo de encadenamiento a un esquema de clasificacion
jerarquico de tipo Top-Dawn no tiene un impacto en el proceso de clasificacion
Capıtulo 5: Experimentos y Resultados 61
Tabla 5.5: Resultados de los experimentos realizados con el metodo deTop-Down bajo el concepto de encadenamiento para las bases de datosIAPR-TC12, FunCat y Reuters evaluados con la medida de precisionestandar. Los mejores resultados para cada base de datos se encuentranresaltados en negrita.
Clasificador Top-DownIAPR-TC12 FunCat ReutersEncadenado
Naive Bayes 41.88 % 13.65 % 69.97 %Random Forest 48.66 % 9.68 % 76.14 %
Sin encadenamientoNaive Bayes 41.72 % 16.35 % 70.01 %Random Forest 47.98 % 13.33 % 77.32 %
ya que los resultados son en casi todos los casos menores al metodo Top-Down sin
encadenamiento.
5.4.3. Clasificador Jerarquico Multidimensional y Ganan-
cia de Informacion
El clasificador jerarquico multidimensional contempla la participacion de todos los
clasificadores en la jerarquıa para realizar la prediccion de un nuevo ejemplo. La
prediccion final es el resultado de la combinacion de las probabilidades predichas
en cada rama por cada clasificador a traves de uno de los tres metodos propuestos
(producto de probabilidades, suma de probabilidades y ordenamiento descenden-
te de probabilidades) aplicando o no el sistema de paro basado en ganancia de
informacion.
Los experimentos en esta seccion contemplan:
La prediccion de solo nodos hoja con los casos base y con los clasificadores
jerarquico encadenado y multidimensional cuando no se aplica el sistema de
paro propuesto.
La prediccion de nodos internos solo con los clasificadores jerarquico enca-
denado y multidimensional cuando se aplica el sistema de paro.
Aplicar el esquema de clasificacion de 5 fold-cross validation.
Evaluar los experimentos utilizando la medida de precision estandar y la
medida de precision jerarquica.
Capıtulo 5: Experimentos y Resultados 62
Utilizar los algoritmos de clasificacion Naive Bayes y Random Forest. Ex-
cepto para el caso de clasificador Top-Down con seleccion de clasificadores.
Para este clasificador se utilizan los siguientes algoritmos de clasificacion,
adicionales a los ya mencionados: Redes Bayesianas, SVM, 3 vecinos mas
cercanos, AdaBoost, PART y J48.
• La seleccion de clasificadores se realizo utilizando el esquema propuesto
en [Secker et al., 2007]. De acuerdo a lo anterior los diferentes algorit-
mos son probados en cada nodo bajo el esquema de 10 fold-cross valida-
tion utilizando el conjunto de entrenamiento. El clasificador selecciona-
do para cada nodo esta determinado por el porcentaje de clasificacion
obtenido.
Particularmente para el caso de los resultados evaluados con la medida de precision
estandar aplicando el sistema de paro, si el sistema indica que la prediccion del
clasificador es un nodo interno, entonces, un ejemplo x es tomado como positivo si
y solo si el ejemplo real y es descendiente del ejemplo x. Lo anterior tomando en
cuenta que la clase de un nodo hoja esta ligada con todas sus clases ascendientes.
Por ejemplo, en la figura 5.2, el resultado para un ejemplo de prueba x, tras aplicar
el sistema de paro, es el nodo 3 y el ejemplo real y de dicho ejemplo es 3.1, entonces,
dado que 3.1 es descendiente de 3 el ejemplo es tomado como positivo. Por otro
lado, la medida de precision jerarquica contempla este tipo de escenario.
Figura 5.2: Clasificador Local por Nodo Padre. Los cırculos denotan lasclases en la jerarquıa mientras que los cuadrados punteados denotan losclasificadores en la misma.
En las tablas 5.6, 5.7 y 5.8 se compara el uso del sistema de paro basado en
ganancia de informacion en los metodos jerarquico encadenado y jerarquico mul-
tidimensional con los resultados obtenidos sin utilizar ganancia de informacion en
los mismos metodos. Igualmente, se comparan los resultados obtenidos con los
Capıtulo 5: Experimentos y Resultados 63
Tabla 5.6: Resultados experimentales para la base de datos FUNCAT.Donde ODP es el metodo de Ordenamiento Descendente de Probabilidades,PP es el metodo de Producto de Probabilidades, SP es el metodo de Suma deProbabilidades y G.I. hace referencia al metodo de ganancia de informacion.Los resultados en negrita indican el mejor resultado para la columna de cadamedida de precision.
ODP PP SP Top-DownClasificador con G.I. % sin G.I. % con G.I. % sin G.I. % con G.I. % sin G.I. % %
Precision JerarquicaNaive Bayes 28.81 28.10 29.49 28.78 28.83 28.15 28.10Random Forest 30.55∗ 28.73∗ 28.82∗ 27.72 30.14∗ 28.84∗ 26.93Naive Bayes Encadenado 27.46∗ 26.30∗ 26.91∗ 26.03∗ 27.35∗ 28.15∗ 19.05Random Forest Encadenado 30.38∗ 28.99∗ 31.44∗ 26.77∗ 28.60∗ 28.84∗ 20.90Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 31.11
Precision EstandarNaive Bayes 22.38∗† 16.35† 22.22∗† 16.67† 22.7∗† 17.14† 16.35Random Forest 26.35∗† 15.87∗ 26.51∗† 17.94∗† 26.35 ∗† 18.22 ∗† 13.33Naive Bayes Encadenado 19.37∗† 13.65 18.73∗† 13.33 18.73∗† 13.33 13.65Random Forest Encadenado 23.33∗† 16.19∗† 26.71∗† 18.41∗† 23.49∗† 17.14∗† 9.68Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 14.92
Tabla 5.7: Resultados experimentales para la base de datos REUTERS.Donde ODP es el metodo de Ordenamiento Descendente de Probabilidades,PP es el metodo de Producto de Probabilidades, SP es el metodo de Suma deProbabilidades y G.I. hace referencia al metodo de ganancia de informacion.Los resultados en negrita indican el mejor resultado para la columna de cadamedida de precision.
ODP PP SP Top-DownClasificador con G.I. % sin G.I. % con G.I. % sin G.I. % con G.I. % sin G.I. % %
Precision JerarquicaNaive Bayes 78.06∗ 76.64 78.15∗ 76.71 78.15∗ 76.71 76.11Random Forest 90.04∗ 84.53 90.04∗ 84.79 90.91∗ 85.29∗ 83.54Naive Bayes Encadenado 77.29 76.62 77.37 76.70 77.37 76.70 81.15Random Forest Encadenado 88.88∗ 82.95∗ 90.26∗ 84.22∗ 89.39∗ 83.71∗ 45.46Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 89.27
Precision EstandarNaive Bayes 75.69∗ 70.01 75.69∗ 70.01 75.69∗ 70.01 70.01Random Forest 90.51∗† 78.28 91.27∗† 79.04∗ 90.43∗† 78.96 77.32Naive Bayes Encadenado 72.45∗ 69.97 72.45∗ 69.97 72.45∗ 69.97 69.97Random Forest Encadenado 89.63∗ 76.18 90.97∗† 77.40 89.94∗† 77.40 76.14Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 85.40
metodos de clasificacion jerarquica Top-Down y Top-Down con seleccion de cla-
sificadores con los resultados obtenidos con los metodos jerarquico encadenado
y jerarquico multidimensional. Finalmente, se realizaron pruebas de significan-
cia estadıstica con los metodos propuestos, encadenado y multidimensional, y los
metodos Top-Down y Top-Down con seleccion de clasificadores. La significancia
estadıstica fue medida a traves de la prueba de t-test de dos colas con un nivel
de significancia de 0.05 y un intervalo de confidencia de 95 %. Cada celda tiene el
sımbolo “†” si el resultado reportado en la celda es estadısticamente superior al
metodo TopDown con seleccion de clasificadores y “∗” si el resultado reportado en
la celda es estadısticamente superior al metodo TopDown.
Capıtulo 5: Experimentos y Resultados 64
Tabla 5.8: Resultados experimentales para la base de datos IAPR-TC12.Donde ODP es el metodo de Ordenamiento Descendente de Probabilidades,PP es el metodo de Producto de Probabilidades, SP es el metodo de Suma deProbabilidades y G.I. hace referencia al metodo de ganancia de informacion.Los resultados en negrita indican el mejor resultado para la columna de cadamedida de precision.
ODP PP SP Top-DownClasificador con G.I. % sin G.I. % con G.I. % sin G.I. % con G.I. % sin G.I. % %
Precision JerarquicaNaive Bayes 51.55∗† 50.68∗† 51.81∗† 50.84∗† 51.72∗† 50.82∗† 37.71Random Forest 59.13∗† 58.78∗† 54.62∗† 55.35∗† 58.01∗† 57.90∗† 44.65Naive Bayes Encadenado 51.44∗† 50.70∗† 51.78∗† 50.94∗† 51.67∗† 50.84∗† 14.33Random Forest Encadenado 59.37∗† 59.30∗† 57.95∗† 58.08∗† 54.20∗† 55.29∗† 22.15Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 45.19
Precision EstandarNaive Bayes 55.35∗† 39.28 55.59∗† 39.52 55.83∗† 39.76 41.72Random Forest 60.36∗† 47.17 60.36∗† 47.45 58.88∗† 46.73 47.98Naive Bayes Encadenado 55.07∗† 39.32 55.43∗† 39.68 55.51∗† 39.76 41.88Random Forest Encadenado 60.28∗† 48.06 59.92∗† 48.06 58.44∗† 47.05 48.66Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 49.38
Las pruebas de significancia estadıstica para las bases de datos Reuter-21578 y Fun-
Cat evaluadas con la medida de precision jerarquica demuestran que el clasificador
jerarquico multidimensional (CJM) y el clasificador jerarquico encadenado (CJE)
son estadısticamente mejor que el metodo Top-Down. Para el caso de las prue-
bas evaluadas con la medida de precision estandar el CJM y el CJE demuestran
ser estadısticamente mejor que el metodo Top-Down y Top-Down con seleccion
de clasificadores, utilizando como clasificador base Random Forest y aplicando el
sistema de paro basado en ganancia de informacion. Para el caso particular de
la base de datos IAPR-TC12 las pruebas de significancia estadıstica demuestran
que el CJM y el CJE son estadısticamente mejores que los metodos Top-Down
y Top-Down con seleccion de clasificadores para los resultados evaluados con las
medidas de precision jerarquica y estandar.
5.4.4. Tiempos
Otro experimento que se realizo fue el de medir los tiempos de entrenamiento y
clasificacion para los metodos mas destacados en las pruebas: jerarquico multidi-
mensional y seleccion de clasificadores. Para el caso del metodo de clasificacion
Top-Down con seleccion de clasificadores primero se tomo el tiempo de construc-
cion de cada modelo en cada uno de los nodos padre con cada uno de los cla-
sificadores utilizados. Una vez seleccionados los clasificadores se volvio a tomar
el tiempo de construccion del modelo en cada nodo padre tal como lo establece
Capıtulo 5: Experimentos y Resultados 65
Tabla 5.9: Tiempos de entrenamiento y clasificacion (en segundos) para cadaclasificador de la jerarquıa. Donde ODP hace referencia al metodo deOrdenamiento Descendente de Probabilidades, PP hace referencia almetodo Producto de Probabilidades y SP hace referencia al metodoSuma de Probabilidades. El resultado resaltado en negrita indica el tiempomas grande.
Classifier ODP PP SP Top-DownNaive Bayes 0.107 0.087 0.086 0.07Random Forest 0.808 0.779 0.778 0.67Naive Bayes Encadenado 0.131 0.108 0.107 0.09Random Forest Encadenado 0.798 0.769 0.768 0.66Seleccion de clasificadores N/A N/A N/A 3.07
el metodo. Despues se tomo el tiempo de clasificacion para finalmente sumar los
tiempos de entrenamiento y clasificacion. Para el caso del metodo de clasificacion
jerarquico multidimensional se tomo el tiempo de construccion del modelo en cada
uno de los nodos padre, despues se tomo el tiempo de clasificacion que incluye el
tiempo para cada metodo propuesto aplicando ganancia de informacion. Finalmen-
te se sumaron los tiempos de entrenamiento y clasificacion de dicho metodo. La
tabla 5.9 muestra los resultados globales de los modelos de clasificacion jerarquica
multidimensional y Top-Down con seleccion de clasificadores.
De la tabla anterior podemos concluir que el metodo de clasificacion Top-Down
con seleccion de clasificadores es aproximadamente 4 veces mas costoso en tiempo
en comparacion con el metodo mas costoso de los propuestos, que en este caso es
el de ordenamiento descendente de probabilidades utilizando Random Forest. Por
otro lado, en comparacion con el metodo menos costoso de los propuestos, suma
de probabilidades, este es aproximadamente 35 veces mas rapido que el metodo
Top-Down con seleccion de clasificadores. Finalmente, el clasificador jerarquico
multidimensional utilizando Naive Bayes y los metodos ODP, SP y PP es apro-
ximadamente 1.5, 1.2 y 1.2, respectivamente, veces mas costoso que el metodo
Top-Down utilizando el mismo clasificador. Los resultados son similares utilizando
el clasificador Naive Bayes encadenado. El clasificador jerarquico multidimensio-
nal utilizando Random Forest y los metodos ODP, SP y PP es aproximadamente
1.2, 1.1 y 1.1, respectivamente, veces mas costosos que el metodo Top-Down con el
mismo clasificador. Los resultados son similares utilizando el clasificador Random
Forest encadenado
Las caracterısticas del equipo con el que se realizaron los experimentos son: Proce-
sador Intel Core I5 a 2.53GHz con 6GB en RAM, utilizando el sistema operativo
Capıtulo 5: Experimentos y Resultados 66
Windows 7.
5.5. Analisis y Discusion
En este capıtulo se presentaron los experimentos y resultados del presente trabajo
de tesis. Para la mayorıa de los experimentos se utilizaron los clasificadores Naive
Bayes y Random Forest, excepto para los experimentos con el clasificador Top-
Down con seleccion de clasificadores para el cual se utilizaron los clasificadores
antes mencionados y otros 6 clasificadores adicionales. De acuerdo a los resultados
obtenidos podemos inferir lo siguiente:
El clasificador jerarquico multidimensional demuestra ser competitivo en dos
de las bases de datos en comparacion con el clasificador Top-Down con se-
leccion de clasificadores y estadısticamente mejor en la restante.
El clasificador jerarquico multidimensional es estadısticamente mejor, en
practicamente todos los resultados, que el clasificador jerarquico Top-Down.
Los tres metodos propuestos para el clasificador jerarquico multidimensional
(ODP, SP y PP) presentan resultados muy similares entre ellos.
Los resultados obtenidos al aplicar el nuevo sistema de paro, basado en
ganancia de informacion, a los metodos ODP, SP y PP son consistentemente
mejor que los resultados cuando no se aplico dicho sistema. Sin embargo, se
requieren realizar mas pruebas para poder validar este criterio, considerando
posiblemente otras medidas de evaluacion.
Las pruebas de tiempo indican que el clasificador jerarquico multidimensio-
nal es menos costoso que utilizar el clasificador Top-Down con seleccion de
clasificadores. El metodo Top-Down con seleccion de clasificadores es apro-
ximadamente 4 veces mas costoso que el metodo mas costoso del clasifica-
dor jerarquico multidimensional (ODP con Random Forest) y 35 veces mas
costoso que el metodo menos costoso del metodo propuesto (SP con Naive
Bayes). Mientras que las pruebas de tiempo entre el clasificador jerarqui-
co multidimensional y el clasificador jerarquico Top-Down muestran que el
metodo propuesto es ligeramente mas costoso que el clasificador jerarquico
Top-Down.
Capıtulo 5: Experimentos y Resultados 67
El clasificador jerarquico encadenado no produce una mejora significativa
debido a que en los experimentos se mantuvo igual o en muchos casos por
debajo de los diferentes metodos con los que fue comparado. Una hipotesis es
que el metodo original fue propuesto para clasificadores binarios y no multi-
clase. Se espera que en un trabajo a futuro se aplique este metodo utilizando
clasificadores binarios.
Capıtulo 6
Conclusiones y Trabajo a Futuro
6.1. Resumen
La tecnica de clasificacion jerarquica local considera a cada nodo como un pro-
blema de clasificacion plana independiente. Los metodos mas difundidos de esta
tecnica son el metodo Top-Down y el metodo Top-Down con seleccion de clasi-
ficadores, este ultimo es una extension del primero. Ambos metodos exploran un
unico camino en la jerarquıa; el clasificador de cada nivel marca el camino que
debe seguir cada ejemplo de prueba. Existen dos problemas principales con esta
tecnica: la inconsistencia y el problema del bloqueo. La inconsistencia se presen-
ta cuando una clasificacion erronea es propagada a todos los descendientes del
nodo en cuestion. El problema del bloqueo se presenta en problemas donde la
profundidad de clasificacion contempla a los nodos internos de la jerarquıa. Surge
cuando se trata de evitar la propagacion de errores a niveles inferiores, a expensas
de proporcionar al usuario predicciones menos especıficas tomando como base la
definicion de umbrales en cada nivel.
En este trabajo de tesis se propuso un nuevo metodo de clasificacion jerarquica
basado en la clasificacion multidimensional que busca minimizar el problema de in-
consistencia. Este metodo considera, para un mismo ejemplo de prueba, las proba-
bilidades predichas por cada clasificador en la jerarquıa. El clasificador jerarquico
multidimensional combina dichas probabilidades a traves de uno de los siguientes
metodos: ordenamiento descendente de probabilidades, suma de probabilidades y
producto de probabilidades. El primero ordena todas las probabilidades en una
lista descendente de tal forma que la ocurrencia de todos los nodos de una de las
69
Capıtulo 6:Conclusiones y Trabajo a Futuro 70
ramas en el ordenamiento marcara el fin del metodo. El segundo metodo suma las
probabilidades predichas por los clasificadores de una misma rama, esto se repi-
te para cada rama de la jerarquıa. El metodo elige el resultado cuya suma haya
sido la mas alta. El ultimo metodo multiplica la probabilidad predicha por cada
clasificador de una misma rama, esto se repite para cada rama de la jerarquıa.
El metodo elige el resultado cuyo producto haya sido el mas alto. Para estos dos
ultimos se deben de normalizar los resultados para evitar favorecer a las ramas
cortas, para el metodo de producto de probabilidades, o a las ramas largas, para
el metodo de suma de probabilidades. Igualmente, en este trabajo tambien se pro-
puso un nuevo sistema de paro basado en ganancia de informacion que permite
realizar una prediccion de nodos internos. Finalmente, se propuso el clasificador
jerarquico encadenado. Este metodo establece una dependencia entre los nodos de
cada rama de la jerarquıa al aplicar la tecnica de encadenamiento.
6.2. Conclusiones
Los experimentos realizados en este trabajo de tesis contemplaron el uso de tres
bases de datos de diferentes areas: AIPR-TC12 (imagenes), Reuters-21578 (tex-
tos) y FunCat (bioinformatica). De acuerdo con los resultados obtenidos, en gene-
ral, podemos concluir que los porcentajes de precision del metodo de clasificacion
jerarquico multidimensional son competitivos en comparacion con el metodo de
clasificacion jerarquico Top-Down con seleccion de clasificadores en dos de las bases
de datos (Reuters-21578 y FunCat) y estadısticamente superior en la base de datos
restante (IAPR-TC12). En comparacion con el metodo de clasificacion jerarquico
(Top-Down) los resultados obtenidos fueron estadısticamente superiores. Sin em-
bargo, existen diferencias entre el clasificador jerarquico multidimensional (CJM)
y el clasificador jerarquico Top-Down con seleccion de clasificadores (TDSC) que
vale la pena resaltar:
El CJM utiliza un unico algoritmo de clasificacion para todos los clasifica-
dores de los nodos padre en la jerarquıa mientras que el TDSC hace una
seleccion de entre varios algoritmos de una lista prestablecida.
El CJM considera todos los posibles caminos en la jerarquıa para realizar la
prediccion de un nuevo ejemplo mientras que el clasificador TDSC considera
un unico camino en la jerarquıa.
Capıtulo 6:Conclusiones y Trabajo a Futuro 71
Para cada nodo padre de la jerarquıa el TDSC requiere de un pre-proceso
para la seleccion del algoritmo de clasificacion. Este pre-proceso requiere la
sub-division del conjunto de entrenamiento en dos nuevos subconjuntos: de
validacion y de entrenamiento. El CJM no requiere de tal pre-proceso.
Los tiempos de entrenamiento y clasificacion del CJM son menores que los
del clasificador TDSC.
Igualmente, los resultados obtenidos con el sistema de paro, basado en ganancia
de informacion, fueron muy favorables. Para el caso de las pruebas con la medida
de evaluacion jerarquica, los porcentajes de clasificacion, al aplicar este sistema, se
incrementaron en practicamente todos los casos en comparacion con los obtenidos
al aplicar unicamente el metodo CJM. Sin embargo, aun cuando los resultados
de los experimentos evaluados con la medida de precision estandar resultaron
ser satisfactorios, es igualmente cierto que aun falta realizar mas pruebas para
fortalecer estos resultados.
En general, el CJM puede ser utilizado en cualquier problema de clasificacion
jerarquico cuya taxonomıa sea de tipo arbol y la clasificacion sea de solo nodos
hoja o, igualmente, en clasificaciones que involucren nodos hoja y nodos internos.
Para este ultimo caso se tendrıa que utilizar el sistema de paro propuesto junto
con el CJM. Finalmente, el CJM alcanza mejores porcentajes de precision cuando
utiliza el algoritmo de clasificacion Random Forest.
Para el caso del clasificador jerarquico encadenado (CJE), los experimentos rea-
lizados demostraron que este metodo no mejora ni disminuye, significativamente,
los porcentajes de precision durante la clasificacion. Sin embargo, cabe destacar
que el metodo propuesto utiliza clasificadores multi-clase en lugar de clasificadores
binarios, como fue propuesto originalmente. Lo anterior, figura como una hipotesis
del por que este metodo no obtuvo los resultados esperados.
6.3. Contribuciones
En este trabajo de tesis se desarrollo un novedoso algoritmo de clasificacion jerarqui-
co multidimensional, contrario a los metodos mas difundidos en el area de clasifica-
cion jerarquica, este metodo considera todos los posibles caminos que un ejemplo
Capıtulo 6:Conclusiones y Trabajo a Futuro 72
de prueba puede tomar en la jerarquıa. Dentro de las contribuciones que se hicieron
con este trabajo estan las siguientes:
Un nuevo algoritmo de clasificacion jerarquico multidimensional que toma
en consideracion todos los posibles caminos que un ejemplo de prueba puede
tomar en la jerarquıa y que ademas resulta ser competitivo con el metodo
Top-Down con seleccion de clasificadores.
Tres diferentes metodos para combinar la informacion de todos los posibles
caminos, que un ejemplo de prueba puede seguir en la jerarquıa, con el
objetivo de mejorar la prediccion.
Un nuevo sistema de paro basado en ganancia de informacion que permite
hacer predicciones en nodos internos. Este sistema es una variante a los
metodos tradicionales basados en umbrales.
Un nuevo algoritmo de clasificacion basado en el metodo de encadenamiento
utilizando clasificadores multi-clase.
6.4. Trabajo a Futuro
Como trabajo a futuro se encuentran los siguientes puntos:
Extender el clasificador jerarquico multidimensional de tal forma que pueda
resolver problemas que involucren una taxonomıa de tipo GAD.
Llevar a cabo una seleccion de clasificadores, en cada nodo de la jerarquıa,
junto con el clasificador jerarquico multidimensional.
Probar el metodo de encadenamiento en el area de clasificacion jerarquica
utilizando clasificadores binarios a lo largo de la jerarquıa.
Combinar lo realizado con algoritmos de clustering jerarquico.
Bibliografıa
[Alves et al., 2008] Alves, R. T., Delgado, M. R., and Freitas, A. A. (2008). Multi-
label hierarchical classification of protein functions with artificial immune sys-
tems. In Proceedings of the 3rd Brazilian symposium on Bioinformatics: Advan-
ces in Bioinformatics and Computational Biology, BSB ’08, pages 1–12, Berlin,
Heidelberg. Springer-Verlag.
[Barbedo and Lopes, 2007] Barbedo, J. G. A. and Lopes, A. (2007). Automa-
tic genre classification of musical signals. EURASIP J. Appl. Signal Process.,
2007(1):157–157.
[Barutcuoglu and DeCoro, 2006] Barutcuoglu, Z. and DeCoro, C. (2006). Hierar-
chical shape classification using bayesian aggregation. In Proceedings of the
IEEE International Conference on Shape Modeling and Applications 2006, SMI
’06, pages 44–, Washington, DC, USA. IEEE Computer Society.
[Barutcuoglu and DeCoro, 2006] Barutcuoglu, Z. and DeCoro, C. (2006). Hie-
rarchical shape classification using bayesian aggregation. In Shape Modeling
International, page 44. IEEE Computer Society.
[Breiman, 2001] Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–
32.
[Burred and Lerch, 2003] Burred, J. J. and Lerch, A. (2003). a hierarchical ap-
proach to automatic musical genre classification. 6th Int. conference on digital
audio effects (DAFx-03), London, UK, September 8-11, 2003.
[Ceci and Malerba, 2007] Ceci, M. and Malerba, D. (2007). Classifying web docu-
ments in a hierarchy of categories: a comprehensive study. J. Intell. Inf. Syst.,
28(1):37–78.
73
Bibliografıa 74
[Clare and King, 2003] Clare, A. and King, R. D. (2003). Predicting gene function
in saccharomyces cerevisiae. Bioinformatics, 19:42–49.
[Costa et al., 2007] Costa, E., Lorena, A., Carvalho, A., and Freitas, A. (2007). A
review of performance evaluation measures for hierarchical classifiers. In Drum-
mond, C., Elazmeh, W., Japkowicz, N., and Macskassy, S., editors, Evaluation
Methods for Machine Learning II: papers from the AAAI-2007 Workshop, AAAI
Technical Report WS-07-05, pages 1–6. AAAI Press.
[D’Alessio et al., 2000] D’Alessio, S., Murray, K., Schiaffino, R., and Kershen-
baum, A. (2000). The effect of using hierarchical classifiers in text categori-
zation. In Proceeding of RIAO-00, 6th International Conference “Recherche
d’Information Assistee par Ordinateur”, pages 302–313, Paris, FR.
[Dimitrovski et al., 2011] Dimitrovski, I., Kocev, D., Loskovska, S., and Dzeroski,
S. (2011). Hierarchical annotation of medical images. Pattern Recognition,
44(10-11):2436–2449.
[Dumais and Chen, 2000] Dumais S. and Chen, H. (2000). Hierarchical classi-
fication of web content. In Proceedings of the 23rd annual international ACM
SIGIR conference on Research and development in information retrieval, SIGIR
’00, pages 256–263, New York, NY, USA. ACM.
[Eisner et al., 2005] Eisner, R., Poulin, B., Szafron, D., Lu, P., and Greiner, R.
(2005). Improving protein function prediction using the hierarchical structure of
the gene ontology. In Proceedings of the 2005 IEEE Symposium on Computatio-
nal Intelligence in Bioinformatics and Computational Biology, CIBCB 2005,
Embassy Suites Hotel La Jolla, La Jolla, CA, USA, November 14 and 15, 2005,
pages 354–363. IEEE.
[Escalante et al., 2010] Escalante, H. J., Hernandez, C. A., Gonzalez, J. A., Lopez-
Lopez, A., y Gomez, M. M., Morales, E. F., Sucar, L. E., Pineda, L. V., and
Grubinger, M. (2010). The segmented and annotated iapr tc-12 benchmark.
Computer Vision and Image Understanding, 114(4):419–428.
[Fagni and Sebastiani, 2007] Fagni, T. and Sebastiani, F. (2007). On the selec-
tion of negative examples for hierarchical text categorization. Symposium A
Quarterly Journal In Modern Foreign Literatures, pages 24–28.
[Freitas and de Carvalho, 2007] Freitas, A. and de Carvalho, A. C. (2007). A Tuto-
rial on Hierarchical Classification with Applications in Bioinformatics., volume
Bibliografıa 75
Research and Trends in Data Mining Technologies and Applications, chapter
VII, pages 175–208. Idea Group.
[Godbole and Sarawagi, 2004] Godbole, S. and Sarawagi, S. (2004). Discriminati-
ve methods for multi-labeled classification. In Dai, H., Srikant, R., and Zhang,
C., editors, PAKDD, volume 3056 of Lecture Notes in Computer Science, pages
22–30. Springer.
[Gordon, 1987] Gordon, A. D. (1987). A review of hierarchical classification. Jour-
nal of the Royal Statistical Society (A), 150(2):119–137.
[Gouyon et al., 2004] Gouyon, F., Dixon, S., Pampalk, E., and Widmer, G. (2004).
Evaluating rhythmic descriptors for musical genre classification. In Proceedings
of 25th International AES Conference, London, UK.
[Hao et al., 2007] Hao, P.-Y., Chiang, J.-H., and Tu, Y.-K. (2007). Hierarchically
svm classification based on support vector clustering method and its application
to document categorization. Expert Syst. Appl., 33(3):627–635.
[Holden and Freitas, 2008] Holden, N. and Freitas, A. A. (2008). Improving the
performance of hierarchical classification with swarm intelligence. In EvoBIO,
pages 48–60.
[Kiritchenko et al., 2005] Kiritchenko, S., Matwin, S., and Famili, A. F. (2005).
Functional annotation of genes using hierarchical text categorization. In in
Proc. of the BioLINK SIG: Linking Literature, Information and Knowledge for
Biology (held at ISMB-05).
[Koller and Sahami, 1997] Koller, D. and Sahami, M. (1997). Hierarchically clas-
sifying documents using very few words. In Proc. 14th International Conference
on Machine Learning, pages 170–178. Morgan Kaufmann.
[Li et al., 2007] Li, T., Zhu, S., and Ogihara, M. (2007). Hierarchical document
classification using automatically generated hierarchy. J. Intell. Inf. Syst.,
29(2):211–230.
[Lidy and Rauber, 2005] Lidy, T. and Rauber, A. (2005). Evaluation of feature
extractors and psycho-acoustic transformations for music genre classification.
In ISMIR, pages 34–41.
Bibliografıa 76
[Michie et al., 1994] Michie, D., Spiegelhalter, D. J., Taylor, C. C., and Campbell,
J., editors (1994). Machine learning, neural and statistical classification. Ellis
Horwood, Upper Saddle River, NJ, USA.
[Read et al., 2009] Read, J., Pfahringer, B., Holmes, G., and Frank, E. (2009).
Classifier chains for multi-label classification. In Proceedings of the European
Conference on Machine Learning and Knowledge Discovery in Databases: Part
II, ECML PKDD ’09, pages 254–269, Berlin, Heidelberg. Springer-Verlag.
[Rokach, 2010] Rokach, L. (2010). Pattern Classification Using Ensemble Methods.
Series in Machine Perception and Artificial Intelligence. World Scientific.
[Salton, 1971] Salton, G. (1971). The SMART Retrieval System Experiments in
Automatic Document Processing. Prentice-Hall, Inc., Upper Saddle River, NJ,
USA.
[Secker et al., 2010] Secker, A., Davies, M. N., Freitas, A. A., Clark, E. B., Timmis,
J., and Flower, D. R. (2010). Hierarchical classification of g protein coupled
receptors with data driven selection of attributes and classifiers. Int. J. Data
Min. Bioinformatics, 4(2):191–210.
[Secker et al., 2007] Secker, A., Davies, M. N., Freitas, A. A., Timmis, J., Mendao,
M., and Flower, D. R. (2007). An experimental comparison of classification
algorithms for the hierarchical prediction of protein function. In Freitas, A. A.,
editor, 3rd UK Data mining and Knowledge Discovery Symposium (UKKDD
2007), pages 13–18.
[Silla and Freitas, 2009] Silla, C. N. and Freitas, A. A. (2009). Novel top-down ap-
proaches for hierarchical classification and their application to automatic music
genre classification. In Proceedings of the 2009 IEEE international conference
on Systems, Man and Cybernetics, SMC’09, pages 3499–3504, Piscataway, NJ,
USA. IEEE Press.
[Silla and Freitas, 2011] Silla, Jr., C. N. and Freitas, A. A. (2011). A survey of hie-
rarchical classification across different application domains. Data Min. Knowl.
Discov., 22(1-2):31–72.
[Sun and Lim, 2001] Sun, A. and Lim, E.-P. (2001). Hierarchical text classifica-
tion and evaluation. In Proceedings of the 2001 IEEE International Conference
on Data Mining, ICDM ’01, pages 521–528, Washington, DC, USA. IEEE Com-
puter Society.
Bibliografıa 77
[Sun et al., 2003] Sun, A., Lim, E.-P., and Ng, W. K. (2003). Performance mea-
surement framework for hierarchical text classification. JASIST, 54(11):1014–
1028.
[Sun et al., 2004] Sun, A., Lim, E.-P., Ng, W.-K., and Srivastava, J. (2004). Bloc-
king reduction strategies in hierarchical text classification. IEEE Trans. on
Knowl. and Data Eng., 16(10):1305–1308.
[Toutanova et al., 2001] Toutanova, K., Chen, F., Popat, K., and Hofmann, T.
(2001). Text classification in a hierarchical mixture model for small training
sets. In CIKM, pages 105–112. ACM.
[Tsoumakas and Katakis, 2007] Tsoumakas, G. and Katakis, I. (2007). Multi-
label classification: An overview. IJDWM, 3(3):1–13.
[Tzanetakis and Cook, 2002] Tzanetakis, G. and Cook, P. R. (2002). Musical gen-
re classification of audio signals. IEEE Transactions on Speech and Audio Pro-
cessing, 10(5):293–302.
[Valentini, 2009] Valentini, G. (2009). True path rule hierarchical ensembles. In
Proceedings of the 8th International Workshop on Multiple Classifier Systems,
MCS ’09, pages 232–241, Berlin, Heidelberg. Springer-Verlag.
[Vens et al., 2008] Vens, C., Struyf, J., Schietgat, L., Dzeroski, S., and Blockeel,
H. (2008). Decision trees for hierarchical multi-label classification. Machine
Learning, 73(2):185–214.
[Wang et al., 2001] Wang, Zhou, and He (2001). Hierarchical Classification of Real
Life Documents.
[Wu et al., 2005] Wu, F., Zhang, J., and Honavar, V. (2005). Learning classifiers
using hierarchically structured class taxonomies. In Proceedings of the 6th in-
ternational conference on Abstraction, Reformulation and Approximation, SA-
RA’05, pages 313–320, Berlin, Heidelberg. Springer-Verlag.
[Yang and Liu, 1999] Yang, Y. and Liu, X. (1999). A re-examination of text ca-
tegorization methods. In Proceedings of the 22nd annual international ACM
SIGIR conference on Research and development in information retrieval, SI-
GIR ’99, pages 42–49, New York, NY, USA. ACM.
Bibliografıa 78
[Zaragoza et al., 2011] Zaragoza, J. H., Sucar, L. E., Morales, E. F., Bielza, C.,
and Larranaga, P. (2011). Bayesian chain classifiers for multidimensional clas-
sification. In IJCAI, pages 2192–2197.
Apendice A
Conjuntos de Datos
En el area de clasificacion jerarquica, no existe un repositorio donde se pue-
da obtener una base de datos de tipo jerarquica. Los trabajos relacionados con
la clasificacion jerarquica estan esparcidos en diferentes areas del conocimien-
to y por lo regular las caracterısticas extraıdas de las bases de datos utilizadas
son obtenidas a partir de un preprocesamiento realizado por los mismos auto-
res [Secker et al., 2010, Valentini, 2009]. Otras veces generan sus propias bases de
datos y su propia taxonomıa [Silla and Freitas, 2009] exponiendo unicamente los
pasos seguidos para su obtencion. A continuacion se presentan los tres conjuntos
de datos utilizados en los experimentos de esta tesis.
A.1. Funcat
El area de bioinformatica es una de las mas explotadas en la clasificacion jerarquica
debido a la importancia que tiene el poder distinguir las funciones mas especıfi-
cas de las proteınas que componen la taxonomıa. Una de las bases de datos mas
utilizada en esta area es la Gene Ontology1, cuya estructura jerarquica es de tipo
GAD. Otra base de datos, igualmente importante pero de menor tamano, es la
FunCat2, cuya taxonomıa es de tipo arbol. Dichas bases de datos forman parte
de una ontologıa que permite la descripcion funcional de las proteınas de cual-
quier organismo, sin embargo, los datos de estas bases de datos estan basados en
anotaciones, que son los datos capturados acerca de un producto genetico.
1http://www.geneontology.org/2http://mips.helmholtz-muenchen.de/proj/funcatDB/
79
Apendice A. Conjunto de Datos 80
Tabla A.1: Resumen de los 12 conjuntos de datos pertenecientes a la base dedatos FunCat.
Dataset #Atributos Training TestCellCycle 77 1628 1281Church* 27 1630 1281Derisi 63 1608 1275Eisen 79 1058 837Expr 551 1639 1291Gash 1 173 1634 1284Gash 2 52 1639 1291Hom 16384 48708 48354Pheno* 69 656 584Seq* 478 1701 1339Spo* 80 1600 1266Struc 16384 1665 1313*Contiene atributos no numericos.
Los datos, utilizados en esta tesis, de la base de datos FunCat provienen del tra-
bajo de [Vens et al., 2008]3. La tabla A.1 resume el contenido de cada uno de los
conjuntos de datos disponibles. La base de datos esta disponible en formato arff
que es el utilizado por la herramienta Weka. Las clases de cada elemento pue-
den pertenecer a una o mas clases, sin embargo, el problema que se aborda en
este trabajo esta enfocado en un problema de simple etiquetado (single-label), por
tanto, para poder trabajar con los datos se realizo un preprocesamiento. Este con-
sistio en tomar la primera etiqueta, del conjunto de etiquetas, de cada uno de los
ejemplos como la clase de dicho ejemplo. Lo anterior se ilustra en la figura A.1.
De los diferentes conjuntos de datos, presentados en la Tabla A.1, se tomo en
consideracion el de CellCycle debido a que presenta caracterısticas adecuadas
para probar el metodo, algunas de estas son: El numero de atributos, el numero
de ejemplos de prueba y entrenamiento y ademas, todos sus atributos son de tipo
numerico. Finalmente, de los datos resultantes solo se consideraron las clases con
mayor numero de ejemplos. En la figura A.2 se ilustra la jerarquıa del conjunto de
datos CellCycle que se utilizo en los experimentos.
3disponibles en: http://dtai.cs.kuleuven.be/clus/hmcdatasets/
Apendice A. Conjunto de Datos 81
Figura A.1: Proceso de re-etiquetado del conjunto de ejemplos de la Basede Datos FunCat. El sımbolo @ es utilizado como separador de las diferentesclases a las cuales pertenece el ejemplo. Solo la primera clase es tomada como
la clase del ejemplo dado.
Figura A.2: Jerarquıa de la Base de Datos CellCycle. Las flechas indican larelacion existente entre las clases mientras que cada nivel de la jeraquıa esta
representado por un color diferente.
A.2. Reuters-21578
En el ambito de la clasificacion de textos la base de datos mas recurrentemente uti-
lizada es la Reuters-21578. Sin embargo, esta base de datos no es de tipo jerarquico
y sus clases no pertenecen a una taxonomıa de este tipo. Por lo anterior, los tra-
bajos que hacen uso de esta base de datos establecen una taxonomıa utilizando
diferentes criterios [Yang and Liu, 1999, D’Alessio et al., 2000, Sun et al., 2003].
Sin embargo, en el trabajo de [Toutanova et al., 2001] se propone una taxonomıa
de dos niveles y 90 categorias divididas en 4 principales ramas: {Commodities,
Financial, Metals y Energy}.
Apendice A. Conjunto de Datos 82
La base de datos Reuters-215784 no puede utilizarse de manera directa para un
proceso de clasificacion. Debido a lo anterior se opto por utilizar la misma base
de datos pero con los preprocesamientos necesarios para su uso en esta tesis. Esta
base de datos fue obtenida de la pagina: http://web.ist.utl.pt/acardoso/datasets/
y cuenta con los siguientes pre-procesamientos:
A todos los terminos de la base de datos les fueron aplicadas las siguientes
transformaciones.
• Substitucion de los caracteres tabulador, nueva lınea y retorno por es-
pacio.
• Mantener solo letras, esto es, convertir signos de puntuacion, numeros,
etc, en espacios.
• Convertir todas las letras en letras minusculas.
• Substituir multiples espacios por un solo espacio.
• El tıtulo/tema de cada documento es agregado al principio del docu-
mento.
Se removieron palabras menores a 3 caracteres.
Se removieron 524 SMART stopwords.
Finalmente, se aplico el algoritmo Porter’s Stemmer a las palabras restantes.
Para cada uno de los pasos descritos anteriormente se genero un archivo de salida,
mismo que funge como archivo de entrada para el paso subsecuente. Para poder
realizar el proceso de clasificacion se obtuvo la frecuencia de cada una de las
palabras que pertencen a la base de datos, esto es, el numero de veces que cada
una de estas aparece en cada uno de los diferentes documentos de la base de datos.
Finalmente, se tomaron en cuenta las clases con el mayor numero de ejemplos. La
figura A.3 muestra la jerarquıa de la base de datos Reuters, misma que se utiliza
en los experimentos.
4Disponible en http://www.daviddlewis.com/resources/testcollections/reuters21578/
Apendice A. Conjunto de Datos 83
Figura A.3: Jerarquıa de la Base de Datos Reuters.
A.3. IAPR-TC12
La clasificacion de imagenes esta enfocada en dos campos: la clasificacion de for-
mas [Barutcuoglu and DeCoro, 2006] y la clasificacion de imagenes segmentadas
[Dimitrovski et al., 2011],[Escalante et al., 2010]. Las bases de datos de imagenes
regularmente estan disponibles para su procesamiento y obtencion de atributos
a traves de diferentes tecnicas de procesamiento de imagenes, esto es, la dispo-
nibilidad de los atributos de cada imagen no estan disponibles sino unicamente
las imagenes. De las bases de datos disponibles, la base de datos IAPR-TC125
[Escalante et al., 2010], contiene no solo una vasta coleccion de imagenes sino que
tambien contiene los atributos de cada una de ellas, permitiendo con ello su im-
plementacion directa en cualquier tipo de proceso de clasificacion.
La base de datos IAPR-TC12 es una base de datos de imagenes enfocada en la
clasificacion automatica de imagenes segmentadas cuya jerarquıa esta basada en
una ontologıa. Cada imagen en la base de datos esta segmentada y etiquetada en
regiones de manera manual. Cuenta con cerca de 20,000 imagenes y con alrededor
de 99,000 regiones etiquetadas. La jerarquıa de esta base de datos esta dividida
en 6 principales categorıas: Animal, Man-Made, Landscape-Nature, Food, Humans
5Disponible en http://ccc.inaoep.mx/ tia/pmwiki.php?n=Main.Resources
Apendice A. Conjunto de Datos 84
y Other. Para este trabajo se considero solo la categorıa Landscape-Nature debido
a que es una de las ramas con mayor numero de ejemplos. La figura A.4 ilustra la
jerarquıa de la rama Landscape.
Figura A.4: Jerarquıa de la Base de Datos IAPR-TC12.
En resumen, las bases de datos que se utilizaron en el presente trabajo de tesis
provienen de tres diferentes areas del conocimiento: bioinformatica (FunCat),
clasificacion de textos (Reuters-21578) e imagenes (IAPR-TC12).