Clasi caci on Jer arquica Multidimensional · 2017-10-27 · Agradecimientos En general quisiera...

.

Clasificacion Jerarquica Multidimensional

Por

Julio Noe Hernandez Torres

Supervisada por:

Dr. Eduardo Morales Manzanares

Investigador del INAOE

Tesis sometida como requisito parcial para obtener el grado de

MAESTRO EN CIENCIAS EN LA ESPECIALIDAD

DE CIENCIAS COMPUTACIONALES

en el

Instituto Nacional de Astrofısica, Optica y Electronica

Tonantzintla, Puebla

c©INAOE 2012Derechos reservados

El autor otorga al INAOE el permiso dereproducir y distribuir copias de esta tesis

en su totalidad o en partes

Agradecimientos

En general quisiera agradecer a todas aquellas personas que me brindaron su apoyo

para alcanzar esta importante meta en mi vida.

Quisiera agradecer muy especialmente a los Doctores Eduardo Morales Manzana-

res y Luis Enrique Sucar Succar por todo el apoyo brindado a lo largo de este

trabajo de tesis ası como los consejos, la paciencia, los animos y los comentarios

brindados que me sirvieron de guıa para completar este camino que me ha dejado

gratas ensenanzas.

Tambien quisiera agradecer al comite que reviso este trabajo, conformado por los

Doctores: Luis Villasenor Pineda, Rene Armando Cumplido Parra y Jose Enrique

Munoz de Cote Flores Luna, por el tiempo prestado para la revision del presente

trabajo y cuyos comentarios me ayudaron a fortalecer algunos de los puntos de

esta tesis.

Igualmente quisiera agradecer a mis padres, Jaime Hernandez Hernandez y Olga

Torres Gonzalez, por su infinito apoyo y a mis hermanos, Adan y Paul, por haber

creıdo en mi. A mi novia Maribel Marin porque siempre conto con las palabras

adecuadas en los momentos precisos para hacerme ver lo que mi mente nublaba.

A mis amigos: Octavio y Armando Ortega, Alejandro Torres, Juan M. Cabrera,

Alejandro Rosales, Lucas Pacheco, Fabricio Otoniel Perez, Shender Avila, Dulce

J. Navarrete, Adrian Leal, Aaron Rocha, por todos los momentos compartidos y

ademas por los animos que siempre me brindaban con sus comentarios. Igualmente,

a Marisol Flores Garrido por el apoyo brindado a la treceava generacion de la

maestrıa en Ciencias Computacionales durante todo el primer cuatrimestre pero

especialmente en el curso de “Algoritmos”.

Al Instituto Nacional de Astrofısica Optica y Electronica (INAOE) por todas las

facilidades brindadas durante mis estudios de maestrıa.

Al Consejo Nacional de Ciencia y Tecnologıa (CONACYT) por el apoyo brindado

mediante la beca 364409 para realizar mis estudios de maestrıa.

Finalmente, quiero agradecer a Dios por proporcionarme salud durante todo este

tiempo y por darme la oportunidad de vivir tan gratas experiencias.

ii

“A mis padres, Jaime y Olga, por su infinito apoyo y porque han sido uno de los

pilares mas importantes que me han mantenido en pie durante los momentos mas

difıciles.”

Resumen

La clasificacion jerarquica es una variante de la clasificacion multidimensional en

donde las clases estan organizadas en una jerarquıa y el objetivo es predecir una

clase, o un conjunto de ellas, de acuerdo a una taxonomıa prestablecida. Se han

propuesto diferentes alternativas para resolver problemas de tipo jerarquico, de las

cuales las mas destacadas son las aproximaciones locales y globales. El problema

principal de los metodos locales es el de inconsistencia, este se presenta cuando se

produce un error de clasificacion en un cierto nodo siendo propagado a todos sus

descendientes. Los clasificadores jerarquicos globales tienen el problema de produ-

cir modelos complejos y, por lo general, tienden a ser dependientes al clasificador

elegido. El objetivo de este trabajo de tesis es desarrollar un nuevo metodo de

clasificacion jerarquico que tome en consideracion todos los posibles caminos (ra-

mas) en la jerarquıa al momento de realizar una prediccion. El metodo propuesto

es una alternativa inspirada en la clasificacion multidimensional. El metodo cons-

truye un clasificador multi-clase para cada nodo padre de la jerarquıa. Durante

la fase de clasificacion, todos los clasificadores locales son aplicados simultanea-

mente a cada instancia, dando como resultado la clase mas probable para cada

clasificador. Posteriormente, se aplica uno de los tres metodos propuestos para

obtener un conjunto de clases consistentes con alguna de las ramas de la jerarquıa.

Se desarrollaron dos extensiones al metodo base: La primera considera la depen-

dencia entre los clasificadores locales aplicando el metodo de encadenamiento, y

la segunda para clasificar a diferentes niveles de la jerarquıa basados en ganan-

cia de informacion. El metodo propuesto fue probado en tres diferentes conjuntos

de datos y fue comparado con los metodos del estado del arte, resultando en un

desempeno predictivo similar o superior a las demas aproximaciones en todas las

bases de datos.

Abstract

Hierarchical classification is a variant of multidimensional classification where the

classes are arranged in a hierarchy and the objective is to predict a class, or a set of

classes, according to a pre-established taxonomy. Different alternatives have been

proposed for hierarchical classification, from which the most important are the

local and global approaches. Local approaches suffer from the inconsistency error

problem, it occurs when a classification error in a certain node is propagated to

all its descendants. The global approaches produce more complex models and, in

general, tend to be dependent to the selected classifier. In this thesis is presented a

new hierarchical classifier method that takes into account all the possible paths in

the hierarchy at the moment of realize a prediction. The proposed method is an al-

ternative approach inspired in multidimensional classification. The method builds

a multi-class classifier per each parent node in the hierarchy. In the classification

phase all the local classifiers are applied simultaneously to each instance resulting

in a most probable class for each classifier. Then, one of three proposed methods

is applied to obtain a set of classes, consistent with a branch of the hierarchy.

We also developed two extensions: the first consider the dependencies between the

local classifiers using a chain classifier, and the second to classify at different le-

vels in the hierarchy based on information gain. The proposed method was tested

on three different hierarchical classification data sets and was compared against

state-of-the-art systems, resulting in superior or similar predictive performance to

the other approaches in all the datasets.

Indice general

Agradecimientos II

Resumen IV

Abstract V

Indice de Figuras IX

Indice de Tablas XI

1. Introduccion 1

1.1. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.2. Problematica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . 6

1.4. Vision General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.5. Principales Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . 7

1.6. Organizacion del Documento . . . . . . . . . . . . . . . . . . . . . . 7

2. Clasificacion 9

2.1. Clasificacion Supervisada . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1.1. Clasificadores . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.1.1. Random Forest . . . . . . . . . . . . . . . . . . . . 11

2.1.1.2. Naive Bayes . . . . . . . . . . . . . . . . . . . . . . 11

2.1.2. Clasificacion Multidimensional . . . . . . . . . . . . . . . . . 13

2.1.3. Metodo de Encadenamiento . . . . . . . . . . . . . . . . . . 14

2.1.4. Validacion cruzada de K-pliegues . . . . . . . . . . . . . . . 16

2.1.5. Medidas de Evaluacion . . . . . . . . . . . . . . . . . . . . . 17

2.2. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

3. Clasificacion Jerarquica 19

3.1. Metodos de Clasificacion Jerarquicos . . . . . . . . . . . . . . . . . 20

3.2. Clasificacion Jerarquica Plana . . . . . . . . . . . . . . . . . . . . . 21

vii

3.3. Clasificacion Jerarquica Local . . . . . . . . . . . . . . . . . . . . . 22

3.3.1. Clasificador Local por Nodo . . . . . . . . . . . . . . . . . . 23

3.3.2. Clasificador Local por Nodo Padre . . . . . . . . . . . . . . 26

3.3.3. Clasificador Local por Nivel . . . . . . . . . . . . . . . . . . 32

3.4. Clasificacion Jerarquica Global . . . . . . . . . . . . . . . . . . . . 33

3.5. Medidas de Evaluacion Jerarquicas . . . . . . . . . . . . . . . . . . 36

3.6. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4. Clasificador Jerarquico Multidimensional 41

4.1. Clasificador Jerarquico Multidimensional . . . . . . . . . . . . . . . 42

4.1.1. Metodo Basado en el Producto de Probabilidades . . . . . . 44

4.1.2. Metodo Basado en la Suma de Probabilidades . . . . . . . . 45

4.1.3. Metodo Basado en el Ordenamiento Descendente de Proba-bilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.1.4. Ganancia de Informacion . . . . . . . . . . . . . . . . . . . . 48

4.2. Clasificador Jerarquico Encadenado . . . . . . . . . . . . . . . . . . 51

4.3. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5. Experimentos y Resultados 55

5.1. Bases de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.2. Casos Base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.3. Construccion de los Clasificadores Base de la Jerarquıa . . . . . . . 57

5.4. Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5.4.1. Clasificador Jerarquico con y sin Encadenamiento . . . . . . 58

5.4.2. Clasificador Jerarquico Top-Down con y sin Encadenamiento 60

5.4.3. Clasificador Jerarquico Multidimensional y Ganancia de In-formacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61

5.4.4. Tiempos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.5. Analisis y Discusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

6. Conclusiones y Trabajo a Futuro 69

6.1. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

6.2. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.4. Trabajo a Futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

Bibliografıa 73

A. Conjuntos de Datos 79

A.1. Funcat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

A.2. Reuters-21578 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

A.3. IAPR-TC12 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

Indice de figuras

3.1. Clasificacion jerarquica plana. . . . . . . . . . . . . . . . . . . . . . 22

3.2. Clasificacion jerarquica local por nodo. . . . . . . . . . . . . . . . . 23

3.3. Clasificacion jerarquica local por nodo padre. . . . . . . . . . . . . . 26

3.4. Clasificacion jerarquica local por nivel. . . . . . . . . . . . . . . . . 32

3.5. Clasificacion jerarquica global. . . . . . . . . . . . . . . . . . . . . . 34

3.6. Grafo a cıclico dirigido. . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.1. Clasificador jerarquico local. . . . . . . . . . . . . . . . . . . . . . . 42

4.2. Ejemplo de la polıtica Siblings. . . . . . . . . . . . . . . . . . . . . 43

4.3. Metodo basado en el Producto de Probabilidades. . . . . . . . . . . 45

4.4. Diferencia entre el metodo Top-Down y el producto de probabilidades. 46

4.5. Metodo basado en la Suma de Probabilidades. . . . . . . . . . . . . 47

4.6. Diferencia entre el metodo Top-Down y la suma de probabilidades. . 48

4.7. Metodo basado en el Ordenamiento Descendente de Probabilidades. 50

4.8. Diferencia entre el metodo Top-Down y el ordenamiento descenden-te de probabilidades. . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.9. Clasificador jerarquico encadenado . . . . . . . . . . . . . . . . . . 53

5.1. Construccion de los clasificadores base de la jerarquıa. . . . . . . . . 58

5.2. Clasificador local por nodo padre. . . . . . . . . . . . . . . . . . . . 62

A.1. Proceso de re-etiquetado del conjunto de ejemplos de la Base deDatos FunCat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

A.2. Jerarquıa de la Base de Datos CellCycle. . . . . . . . . . . . . . . 81

A.3. Jerarquıa de la Base de Datos Reuters. . . . . . . . . . . . . . . . 83

A.4. Jerarquıa de la Base de Datos IAPR-TC12. . . . . . . . . . . . . . 84

ix

Indice de Tablas

1.1. Tabla comparativa de los tres metodos de clasificacion jerarquicosde acuerdo con el trabajo de [Silla and Freitas, 2011]. . . . . . . . . 3

2.1. Algoritmo de aprendizaje de Random Forest. . . . . . . . . . . . . . 12

2.2. Algoritmo de entrenamiento del metodo de encadenamiento. . . . . 15

2.3. Proceso de clasificacion del metodo de encadenamiento. . . . . . . . 15

2.4. Matrız de confusion para un problema de tipo binario. . . . . . . . 18

3.1. Tabla comparativa de los tres metodos de clasificacion jerarquicoslocales (por Nodo, Nodo Padre y Nivel). . . . . . . . . . . . . . . . 33

3.2. Tabla comparativa entre los tres metodos de clasificacion jerarquicos(Plano, Local y Global). . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1. Algoritmo de ordenamiento descendente de probabilidades. . . . . . 49

5.1. Conjuntos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5.2. Experimentos realizados con el clasificador jerarquico encadenadopara la base de datos IAPR-TC12 . . . . . . . . . . . . . . . . . . . 59

5.3. Experimentos realizados con el clasificador jerarquico encadenadopara la base de datos Funcat . . . . . . . . . . . . . . . . . . . . . . 59

5.4. Experimentos realizados con el clasificador jerarquico encadenadopara la base de datos REUTERS . . . . . . . . . . . . . . . . . . . 60

5.5. Experimentos realizados con el metodo Top-Down aplicando enca-denamiento para las bases de datos IAPR-TC12, Funcat y REUTERS 61

5.6. Resultados experimentales para la base de datos FUNCAT. . . . . 63

5.7. Resultados experimentales para la base de datos REUTERS. . . . 63

5.8. Resultados experimentales para la base de datos IAPR-TC12. . . 64

5.9. Tiempos de entrenamiento y clasificacion (en segundos) para cadaclasificador de la jerarquıa. . . . . . . . . . . . . . . . . . . . . . . . 65

A.1. Resumen de los 12 conjuntos de datos pertenecientes a la base dedatos FunCat. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

xi

Capıtulo 1

Introduccion

Clasificar es la actividad de dividir un conjunto de objetos en un conjunto pe-

queno de clases de tal forma que los objetos en una misma clase sean similares

entre si y disimilares entre objetos de otras clases. En principio todo objeto se

puede describir por un numero finito de caracterısticas, tales como la forma, color,

altura, textura, etc. Estas caracterısticas son utilizadas para diferenciar objetos

que pueden pertenecer a una u otra clase. De esta forma, los atributos son la parte

medular de todo proceso de clasificacion debido a que a traves de estos se lleva a

cabo dicho proceso.

Los procesos de clasificacion ordenan un conjunto de objetos de acuerdo a las cla-

ses disponibles. Sin embargo y dependiendo el problema a tratar, algunas clases

pueden dividirse en sub-clases, por ejemplo los lentes se pueden dividir en: gra-

duados, de sol, de contacto, etc. De acuerdo con lo anterior, facilmente podemos

formar una relacion de tipo jerarquica entre los diferentes tipos de lentes, toman-

do como raız a la clase lentes. Ası como en el ejemplo anterior, nuestro entorno

esta repleto de situaciones en las que se encuentra involucrada la palabra jerarquıa.

Una jerarquıa es la organizacion o clasificacion de categorıas, siguiendo un orden

de importancia que parte de una raız y termina en una hoja.

El proceso de clasificacion tradicional o plano unicamente considera clases que se

encuentran en un mismo nivel, esto es, todas la clases involucradas son candidatas

para ser elegidas como la clase para un objeto dado. Sin embargo, existen mu-

chos problemas que no necesariamente tienen esta forma. Algunos problemas se

componen de clases que estan sub-divididas en otras clases que proporcionan in-

formacion cada vez mas detallada del objeto; dicha sub-division puede presentarse

1

Capıtulo 1: Introduccion 2

en varios niveles que definen la jerarquıa que compone al problema. Por ejemplo,

una jerarquıa formada por los diferentes animales de este planeta. La informacion

proporcionada por esta jerarquıa puede recorrerse de lo general a lo especıfico, esto

es, conforme se va descendiendo en la jerarquıa se va obteniendo informacion cada

vez mas especıfica de cada especie que existe en el planeta.

Cuando hablamos de jerarquıas tambien debemos considerar la relacion que existe

entre las diferentes clases. De acuerdo a esta el tipo de jerarquıa puede ser: un

arbol o un grafo acıclico dirigido (GAD). En una relacion jerarquica de tipo arbol

cada clase nodo tiene cero o a lo mas una clase padre. Y en una relacion jerarquica

de tipo GAD cada clase nodo tiene cero, uno o mas padres. La identificacion del

tipo de relacion jerarquica entre las clases determinara la forma en como debera de

abordarse cualquier problema de naturaleza jerarquica.

Tomando en consideracion lo antes expuesto, existen muchos dominios de aplica-

cion que se benefician con la clasificacion jerarquica, algunos de ellos son: Clasifi-

cacion de Textos ([Sun and Lim, 2001], [Godbole and Sarawagi, 2004],

[Dumais and Chen, 2000]), Bioinformatica ([Kiritchenko et al., 2005],

[Eisner et al., 2005], [Clare and King, 2003], [Valentini, 2009]), Clasificacion de

Imagenes ([Dimitrovski et al., 2011], [Barutcuoglu and DeCoro, 2006]), Clasifica-

cion de Generos Musicales ([Burred and Lerch, 2003], [Barbedo and Lopes, 2007],

[Silla and Freitas, 2009]), etc.

En las siguientes secciones se abordara la motivacion por la cual se llevo a cabo

este proyecto de tesis, ası como tambien los diferentes problemas existentes en el

area de la clasificacion jerarquica. Finalmente, se expondran tanto los objetivos

generales y especıficos de la presente tesis, ası como la aportacion realizada con

este trabajo.

1.1. Motivacion

Comunmente los algoritmos de clasificacion estan centrados en resolver problemas

de clasificacion plana. En este tipo de clasificacion, a los algoritmos se les provee

de un conjunto de objetos de entrenamiento, descritos por un conjunto de carac-

terısticas que incluyen la clase a la cual pertenece dicho objeto, teniendo como

tarea predecir aquellos objetos cuya clase se desconoce. En este tipo de clasifica-

cion, el clasificador predice unicamente una clase para cada ejemplo de prueba.


Tabla 1.1: Tabla comparativa de los tres metodos de clasificacion jerarquicosde acuerdo con el trabajo de [Silla and Freitas, 2011].

Aproximacion Jerarquica Ventajas DesventajasClasificador Jerarquico *Simplicidad *Ignora completamente laPlano jerarquıa de clases.Clasificador Jerarquico *Considera la jerarquıa de *Pueden sufrir el problemaLocal clases durante las pruebas y del bloqueo.

durante la creacion de los *Dependiendo del problema aconjuntos de entrenamiento. manejar, pueden crear un*Generalmente pueden ser conjunto muy complejo deusados con cualquier clasificadores en cascada, loclasificador base. cual genera un modelo de

clasificacion complejo.*Una clasificacion erroneaen un cierto nodo espropagada hacia todas susclases descendientes.

Clasificador Jerarquico *Considera la jerarquıa de *Clasificador especıficoGlobal clases durante el proceso de *La complejidad del

entrenamiento y de prueba. modelo es proporcional*Un modelo unico de decision al tamano de la jerarquıa.(aunque complejo)

Sin embargo, existen problemas que son de naturaleza jerarquica, los cuales invo-

lucran la prediccion de clases de acuerdo a un orden pre-establecido. Por ejemplo,

en el trabajo de [Silla and Freitas, 2011] se menciona que para la categorizacion

de textos por topicos el uso de clasificadores planos es una opcion poco viable,

debido a que los topicos pueden ser muy grandes y como consecuencia habra un

incremento de almacenamiento.

Los metodos de clasificacion jerarquica, de acuerdo con [Silla and Freitas, 2011],

se dividen en tres principales grupos: planos, locales y globales. Los metodos de

clasificacion jerarquica plana (CJP) crean un unico clasificador, encargado de dis-

cernir entre las diversas clases que componen los nodos hoja de la jerarquıa. Este

tipo de clasificacion es la forma mas sencilla de abordar un problema de naturaleza

jerarquica. La clasificacion jerarquica local (CJL) considera la informacion de cada

nodo de forma independiente, esto es, cada nodo funciona como un problema de

clasificacion plana diferente, sin embargo, los resultados de cada nodo son utiliza-

dos de forma diversa para llevar a cabo la prediccion del metodo. Finalmente, la

clasificacion jerarquica global (CJG), considera toda la jerarquıa como un unico

problema. Para la CJG, regularmente se modifica un algoritmo de clasificacion de

tal forma que este considere a toda la jerarquıa en una sola corrida. La tabla 1.1

presenta la comparacion entre los diferentes enfoques de clasificacion jerarquicos.


1.2. Problematica

De los diferentes enfoques de clasificacion jerarquica existentes, el mas difundido

es el de clasificacion jerarquica local. De este destacan los metodos Top-Down y

Top-Down con seleccion de clasificadores. Ambos toman en consideracion la infor-

macion local de cada nodo para construir los clasificadores en la jerarquıa. Pero

el primer metodo utiliza el mismo clasificador en toda la jerarquıa, mientras que

el segundo elige al mejor clasificador, a partir de una preseleccion de clasificado-

res, para cada nodo de la jerarquıa. Durante el proceso de clasificacion, en ambos

metodos, la informacion predicha por cada clasificador se considera independiente

de las demas. Cada prediccion decide la direccion que debe tomar el objeto que se

esta clasificando y si tal prediccion es erronea se heredara tal error. Estos meto-

dos trabajan con informacion enteramente local, esto es, cada clasificador realiza

su labor de manera individual e independiente; no hay informacion adicional que

provenga de los nodos superiores. En este trabajo de tesis se aprovecha la relacion

padre-hijo que existe entre lo nodos al utilizar las probabilidades predichas por

cada clasificador para realizar la prediccion de un nuevo objeto.

Los principales problemas que presentan los clasificadores jerarquicos locales son:

la inconsistencia y el problema del bloqueo. La inconsistencia es el efecto de

una clasificacion erronea en un cierto nodo de la jerarquıa, la cual es propagada

hacia todos sus nodos o clases descendientes y se presenta en clasificaciones cuya

prediccion final se centra unicamente en las hojas de la jerarquıa. En esta tesis se

busca reducir este problema al considerar todos los posibles caminos que un objeto

puede llegar a tomar a lo largo de la taxonomıa, lo anterior es realizado en funcion

de las probabilidades predichas por cada uno de los clasificadores de la taxonomıa.

El problema del bloqueo, definido por [Sun et al., 2004], surge cuando se trata de

evitar la propagacion de errores a niveles inferiores, a expensas de proporcionar

al usuario predicciones menos especıficas, en clasificaciones cuyo resultado puede

estar en uno de los nodos internos de la jerarquıa tomando como base la definicion

de umbrales en cada nivel. De acuerdo a lo anterior, un ejemplo es pasado al nivel

inferior inmediato solo si la confianza en la prediccion en el nivel actual es mayor

que un umbral. Un metodo automatico para calcular el umbral fue propuesto por

[Ceci and Malerba, 2007]. En este trabajo de tesis se propone un nuevo sistema

de paro basado en ganancia de informacion para reducir el problema del bloqueo

utilizando un enfoque diferente a la definicion de umbrales.


En este trabajo de tesis se proponen dos esquemas de clasificacion jerarquico basa-

dos en las ideas de clasificacion plana multidimensional y de encadenamiento con

el objetivo de minimizar el problema de la inconsistencia. El metodo de clasifica-

cion multidimensional considera a todas las clases involucradas en un problema

como candidatas para un nuevo ejemplo a clasificar, siendo la prediccion final,

para dicho ejemplo, un subconjunto de esas clases. De acuerdo con lo anterior,

en este trabajo se propone un algoritmo de clasificacion jerarquico basado en la

clasificacion multidimensional; el clasificador jerarquico multidimensional (CJM).

Este clasificador tiene como objetivo reducir el problema de inconsistencia al for-

talecer la relacion existente entre las clases de la jerarquıa. Tambien, y como una

extension del CJM, se propone un nuevo sistema de paro, basado en ganancia de

informacion, que permite realizar predicciones a cualquier nivel de la jerarquıa.

El metodo de encadenamiento es aplicado a problemas de clasificacion de tipo

binario. En este metodo todos los clasificadores involucrados son ligados a lo largo

de una cadena. Lo singular del encadenamiento es que el espacio de caracterısticas

en cada enlace de la cadena es extendido con la prediccion binaria asociada a cada

uno de los enlaces previos. En este trabajo de tesis se propone, adicionalmente

al clasificador jerarquico multidimensional, el metodo de clasificacion jerarquico

encadenado, que al igual que el CJM, fortalece la relacion existente entre las clases

al incorporar dependencia entre ellas aplicando el metodo de encadenamiento.

1.3. Objetivos

En esta seccion se exponen los objetivos trazados para el presente trabajo de tesis.

1.3.1. Objetivo General

Disenar e implementar un algoritmo de clasificacion jerarquico multidimensional

que reduzca el problema de inconsistencia y que sea competitivo con los metodos

de clasificacion jerarquicos existentes.


1.3.2. Objetivos Especıficos

Disenar e implementar un algoritmo de clasificacion jerarquico multidimen-

sional que tomen en cuenta todas las probabilidades de los clasificadores

locales de cada rama.

Disenar e implementar un metodo de paro basado en ganancia de informa-

cion.

Disenar e implementar un metodo de clasificacion jerarquico basado en el

metodo de encadenamiento.

Probar el metodo propuesto en diferentes bases de datos jerarquicas y com-

parar este mismo con los enfoques de clasificacion, incluyendo Top-Down y

Top-Down con seleccion de clasificadores.

1.4. Vision General

En este trabajo de tesis se presenta el clasificador jerarquico multidimensional

(CJM). Este clasificador realiza una prediccion global tomando en consideracion

la prediccion de cada uno de los clasificadores de la jerarquıa. Dichas predicciones

son procesadas a traves de tres diferentes metodos, obteniendose como resulta-

do un conjunto de clases consistentes con la jerarquıa. Tales metodos son: Suma

de Probabilidades, Producto de Probabilidades y Ordenamiento Descendente de

Probabilidades. Igualmente, en este trabajo se propone un nuevo sistema de paro

basado en ganancia de informacion que permite la prediccion a cualquier nivel de

la jerarquıa. Este sistema es una extension del CJM. Finalmente, se propone el cla-

sificador jerarquico encadenado (CJE) con el proposito de incorporar dependencia

entre las clases a traves de encadenamiento.

El metodo propuesto fue comparado con el metodo Top-Down y Top-Down con

seleccion de clasificadores en tres diferentes conjuntos de datos. Los resultados

obtenidos en los experimentos demuestran que el clasificador jerarquico multidi-

mensional es competitivo con el clasificador jerarquico Top-Down con seleccion de

clasificadores y es superior al metodo Top-Down en los tres conjuntos de datos.

El sistema de paro basado en ganancia de informacion mejora consistentemen-

te los resultados de clasificacion al ser aplicado a los metodos de clasificacion


jerarquico multidimensional y jerarquico encadenado. Finalmente, los resultados

del clasificador jerarquico encadenado no demostraron una mejora significativa en

comparacion con el metodo sin encadenamiento.

1.5. Principales Aportaciones

Un nuevo algoritmo de clasificacion jerarquico multidimensional que reduzca

el problema de inconsistencia.

Un nuevo sistema de paro basado en ganancia de informacion que permita

realizar predicciones a cualquier nivel de la jerarquıa.

Incorporacion de dependencia entre clases mediante encadenamiento.

1.6. Organizacion del Documento

El presente documento esta dividido en seis capıtulos a traves de las cuales se ex-

pondran los diferentes temas relacionados con el trabajo de tesis. El capıtulo dos,

Clasificacion, toca el tema raız de este trabajo e introduce al lector en los temas

basicos de la clasificacion. En este capıtulo se aborda el tema de clasificacion mul-

tidimensional. Igualmente, se presenta al lector los diferentes tipos de clasificacion,

ası como los algoritmos utilizados a lo largo de esta tesis, finalizando el capıtulo

con el tema de Encadenamiento. Este ultimo lleva a cabo el proceso de clasificacion

de una manera diferente al relacionar las clases a traves de las predicciones reali-

zadas por clasificadores internos. El capıtulo tres, Clasificacion Jerarquica, aborda

el tema central de esta tesis. En dicho capıtulo se introduce al lector sobre el te-

ma de clasificacion jerarquica, ası como los diferentes metodos relacionados con

este tema. El capıtulo cuatro, Clasificador Jerarquico Multidimensional, describe

el metodo propuesto en esta tesis ası como tambien la descripcion de un nuevo

sistema de paro basado en ganancia de informacion. El capıtulo cinco, Experimen-

tos y Resultados, expone los resultados obtenidos en los experimentos realizados

con el metodo propuesto comparandolo con otros metodos del estado del arte.

Finalmente, el capıtulo seis, Conclusiones, presenta las conclusiones a las cuales

se llegaron una vez finalizado el trabajo de tesis, igualmente, se expone el trabajo

a futuro que se deriva de este trabajo.

Capıtulo 2

Clasificacion

El proceso de clasificacion se puede describir como la actividad de dividir un

conjunto de objetos en un numero menor de clases de tal forma que los objetos

en una misma clase sean similares entre si y disimilares a objetos en otras clases

[Gordon, 1987]. Todos estos objetos estan descritos por un conjunto de atributos

o espacio de caracterısticas. Sin embargo, la sola existencia de estos atributos

no permite, de manera directa, diferenciar los distintos objetos que pertenecen

a las diferentes clases. Debido a lo anterior es que es necesario utilizar algunas

tecnicas que permitan procesar las caracterısticas de cada objeto y que a partir

de dicho procesamiento se pueda conocer la clase a la cual pertenece cada objeto,

estas tecnicas son los algoritmos de clasificacion. Dichos algoritmos se encargan de

procesar los atributos de cada objeto y, de acuerdo con las reglas establecidas en

el algoritmo, decidir a que clase pertenece cada objeto.

Los procesos de clasificacion, y a su vez los algoritmos de clasificacion, se pueden

dividir en dos grupos: clasificacion supervisada y clasificacion no supervisada o

clustering. El primer grupo crea un modelo de clasificacion, a partir de un conjunto

de objetos cuya clase se conoce a priori, y a partir de el clasifica todo nuevo

objeto cuya clase se desconoce. El segundo grupo, clasificacion no supervisada,

realiza agrupamientos de objetos basado en las similitudes existentes entre las

caracterısticas de cada uno de los objetos. La gran diferencia entre ambos grupos

radica en que el primero crea un modelo a partir de clases conocidas y el segundo

crea agrupamientos de objetos a partir de similitudes en sus caracterısticas. El

presente trabajo de tesis esta enfocado en la clasificacion de tipo supervisada.

9

Capıtulo 2: Clasificacion 10

Las siguientes secciones abordan los temas relacionados con la clasificacion super-

visada, de entre los cuales podemos destacar los metodos de clasificacion multidi-

mensional y los metodos basados en encadenamiento. Igualmente se exponen los

clasificadores que se utilizaron en este proyecto de tesis. Finalmente, este capıtulo

finaliza con el tema relacionado con las medidas de evaluacion, un tema importante

porque a traves de estas medidas podemos saber que tan bueno es un clasificador

en su tarea.

2.1. Clasificacion Supervisada

La clasificacion supervisada, y por ende tambien los algoritmos de clasificacion

supervisados, requieren de un conjunto de objetos definidos por un vector de ca-

racterısticas que, ademas, contiene la clase a la cual pertenece cada objeto. Al

conjunto anterior se le denomina conjunto de entrenamiento. Es a partir de este

conjunto de entrenamiento que se crea el modelo de clasificacion. Este modelo es

diferente para cada algoritmo de clasificacion debido a que cada algoritmo se basa

en diferentes enfoques, por ejemplo, el algoritmo de clasificacion Naive Bayes esta

basado en la regla de Bayes. Todos aquellos objetos cuya clase se desconoce, y

sobre los cuales sera probado el modelo, pertenecen al conjunto de prueba. Este

conjunto es utilizado para, precisamente como su nombre lo indica, probar al mo-

delo de clasificacion. Las metricas de precision, recuerdo y medida F son algunas

de las medidas basicas para evaluar a los diferentes modelos de clasificacion.

Los algoritmos de clasificacion generan un modelo a partir de ciertas reglas que

dependen del algoritmo utilizado. El modelo creado es usado para descubrir la

clase a la cual pertenece un nuevo ejemplo, del cual solo se conoce su vector de

caracterısticas. Sin embargo, de acuerdo a la naturaleza del problema el proceso

de clasificacion puede ser binario o multi-clase. La clasificacion binaria se basa en

decidir si un objeto pertenece o no a una clase dada. Mientras que la clasificacion

multi-clase discierne entre dos o mas clases al mismo tiempo.

Los algoritmos de clasificacion tradicional estan basados en una unica clase; sin

embargo, existen problemas en que un objeto puede pertenecer a mas de una clase.

La clasificacion multidimensional lleva a cabo la tarea antes mencionada y de la

cual se hablara mas adelante.


2.1.1. Clasificadores

A continuacion se presentan los algoritmos de clasificacion Random Forest

[Breiman, 2001] y Naive Bayes [Michie et al., 1994] sobre los cuales esta basada la

presente tesis.

2.1.1.1. Random Forest

El algoritmo de clasificacion Random Forest [Breiman, 2001] es un tipo de cla-

sificador basado en ensambles de arboles de decision sin poda donde cada arbol

depende de los valores de un vector aleatorio de atributos muestreado indepen-

dientemente y con la misma distribucion para todos los arboles. Para clasificar

una nueva instancia, los arboles de decision son construidos utilizando una mues-

tra aleatoria de datos. Despues, cada arbol realiza la clasificacion del vector de

entrada y predice la clase mas popular de acuerdo a su clasificacion. La prediccion

de cada arbol se toma como un voto para la clase predicha. A traves de un sistema

de votos se decide la clase con el mayor numero de ellos. El algoritmo de Random

Forest se muestra en la tabla 2.1.

De acuerdo con [Rokach, 2010], en el algoritmo de Random Forest, IDT (Induction

of Decision Trees) representa cualquier algoritmo de tipo top-down para la induc-

cion de arboles de decision con las siguientes caracterısticas: el arbol de decision

no se poda y en cada nodo, en vez de seleccionar la mejor division entre todos los

atributos, muestrea de manera aleatoria N atributos y de ellos selecciona la mejor

division.

Algunas de las caracterısticas mas importantes de Random Forest son: su rapidez,

su facilidad para manejar, facilmente, un gran numero de atributos de entrada y

los buenos resultados para datos desbalanceados.

2.1.1.2. Naive Bayes

El clasificador Naive Bayes, o Bayesiano simple, esta basado en la regla de Ba-

yes. A pesar de lo simple del modelo su rendimiento es comparable con algo-

ritmos mas sofisticados como lo son las redes neuronales o arboles de decision

[Michie et al., 1994]. La regla de Bayes se puede apreciar en la ecuacion 2.1.


Tabla 2.1: Algoritmo de aprendizaje de Random Forest.

Algoritmo de Random ForestRequiere : IDT(un inductor de arbol de decision),

T(el numero de iteraciones o arboles),S(el conjunto de entrenamiento),µ(el tamano de la sub-muestra),N(numero de atributos seleccionados aleatoriamente

usados en cada nodo)Asegurar: Mt con t = 1, 2, ..., T

Ct(X) con X = x1, ..., xµ conjunto de clases predichas paralas instancias X del arbol t

C(X) con X = x1, ..., xµ prediccion final para las instancias Xpara las clases

para t← 1 hasta T hacerSt ← muestra con µ instancias de S con remplazoConstruir el clasificador Mt usando IDT(N) en StCt(X) ← clasificar(Mt) obteniendo las clases predichas para

el arbol tfin para. proceso de votaje

C(x ∈ X)← argmaxy∈Y∑T

t:Ct(x)=y1 .la clase y con mayor

numero de votos para cada ejemplo x ∈ X.

P (Ci|E) = P (Ci)P (E|Ci)/P (E) (2.1)

Donde P (Ci) es la probabilidad a priori de cada clase, P (E) es la probabilidad

de los atributos y P (E|Ci) es la probabilidad condicional de los atributos dada la

clase.

El algoritmo de clasificacion Naive Bayes se basa en la suposicion de que todos los

atributos, de un ejemplo dado, son independientes entre si dada la clase. Por lo

anterior, la probabilidad se puede obtener por el producto de las probabilidades

condicionales individuales de cada atributo dado el nodo clase, la ecuacion 2.2

ilustra lo anterior.

P (Ci|E) = P (Ci)P (E1|Ci)P (E2|Ci)...P (En|Ci)/P (E) (2.2)

Donde n indica el numero de atributos. Sin embargo, para determinar la clase mas

probable el denominador de la ecuacion 2.2 no se requiere debido a que no depende


de la clase y por tanto se mantiene constante.

El proceso de aprendizaje, para este clasificador, requiere de aprender unicamente

los parametros: P (C) y P (Ei|C). Estos parametros se pueden estimar, a partir de

los datos, en base a frecuencias. A pesar de que el clasificador bayesiano simple

funciona muy bien en muchos dominios, en ocasiones su rendimiento tiende a

decrecer debido a que los atributos no son condicionalmente independientes como

se asume desde un inicio.

2.1.2. Clasificacion Multidimensional

A diferencia de los problemas de clasificacion tradicional, donde el proceso de

clasificacion consiste en asociar a cada nuevo ejemplo x con una sola clase l de

un conjunto finito de clases L, los problemas de clasificacion multidimensional

involucran la asociacion de un nuevo ejemplo x con un conjunto de clases S ⊆ L.

Los problemas de clasificacion multidimensional, [Zaragoza et al., 2011], consisten

en encontrar una funcion h que asigna a cada nuevo ejemplo, representada por

un vector de m caracterısticas, x = (x1, x2, ..., xm) un vector de d clases c =

(c1, c2, ..., cd)

h : (x1, ..., xm) 7→ (c1, ..., cd) (2.3)

En esta tesis se asume que ci y xj, para todo i = 1, ..., d y para todo j = 1, ...,m,

son variables discretas.

Los problemas de multi-etiquetado son un subconjunto de problemas de clasifica-

cion multidimensional e involucran la prediccion de mas de una etiqueta para un

mismo espacio de caracterısticas utilizando clasificadores binarios.

El metodo de relevancia binaria ([Godbole and Sarawagi, 2004],

[Tsoumakas and Katakis, 2007]) transforma un problema de multi-etiquetado en

uno de etiquetado simple. Lo anterior lo lleva a cabo al considerar cada etiqueta

como un problema binario independiente. Este metodo entrena |L| clasificadores

binarios, donde cada clasificador es responsable de predecir la asociacion binaria

(0 o 1) para cada una de las etiquetas li ∈ L. Sin embargo, este metodo ignora


la correlacion existente entre las clases, por lo cual puede asociar muchas o pocas

etiquetas que nunca podrıan co-ocurrir. De acuerdo con [Read et al., 2009], en la

literatura el hecho de ignorar la correlacion entre las clases es una de sus mas cri-

ticables desventajas y por esta misma razon es que habıa dejado de ser un metodo

de interes. Sin embargo, una de sus ventajas es su bajo costo computacional.

2.1.3. Metodo de Encadenamiento

El metodo de encadenamiento fue propuesto por [Read et al., 2009], involucra a

n clasificadores binarios ligados a lo largo de una cadena y, donde cada uno de

ellos, definen la relevancia binaria existente entre cada una de las etiquetas. La

prediccion de cada clasificador en la cadena consiste en decidir si un ejemplo per-

tenece o no a una determinada etiqueta (clase). El metodo de encadenamiento es

utilizado en conjunto con el metodo de relevancia binaria para resolver problemas

de multi-etiquetado. Una caracterıstica que define al metodo de encadenamiento

es que el espacio de caracterısticas en cada enlace de la cadena es extendido con

la etiqueta asociada a todos los enlaces previos, esta etiqueta corresponde a la

prediccion binaria del clasificador anterior. Con lo anterior se establece una de-

pendencia entre las etiquetas del problema, permitiendo que la prediccion de un

clasificador sea considerada por los clasificadores posteriores. Los resultados obte-

nidos en [Read et al., 2009] y [Zaragoza et al., 2011] demuestran la eficacia de este

metodo. Los metodos de clasificacion jerarquicos no contemplan una dependencia

entre clases como lo hace el metodo de encadenamiento, por ello es que se busca

implementar este metodo en problemas de tipo jerarquico.

El algoritmo de entrenamiento del metodo de encadenamiento, tabla 2.2, transfor-

ma un problema de multi-etiquetado a etiquetado simple para despues predecir la

relevancia binaria entre las etiquetas. Para este algoritmo L es un conjunto finito

de etiquetas simples, x es el vector de caracterısticas del objeto, S es un subcon-

junto de L (S ⊆ L) representado por el vector de caracterısticas (l1, l2, ..., l|L|) ∈{0, 1}|L| y D es el conjunto de datos de multi-etiqueta compuesto de n ejemplos

(x1, S1),(x2, S2),...,(xn, Sn). Finalmente, Cj representa los clasificadores binarios.

El proceso de entrenamiento genera una cadena de clasificadores binarios C1, ..., C|L|.

Durante este proceso, el problema de multi-etiquetado es convertido en un pro-

blema que involucra a una sola etiqueta, de esta forma se genera un clasificador

binario por cada una de las etiquetas en el espacio de etiquetas L. Una vez hecho


Tabla 2.2: Algoritmo de entrenamiento del metodo de encadenamiento.

Entrenamiento (D = {(x1, S1),...,(xn, Sn})para j ∈ 1 hasta |L|

hacer . transformacion del problema aetiquetado simple y entrenamiento

D′ ← {}para (x, S) ∈ D

hacer D′ ← D′∪ ((x, l1, l2, ..., lj−1),lj). se entrena Cj para predecir la relevancia binaria de ljCj : D′ → lj ∈ {0, 1}

Tabla 2.3: Proceso de clasificacion del metodo de encadenamiento.

Clasifica (x)Y ← {}

para j ← 1 hasta |L|hacer Y ← Y ∪ (lj ← Cj:(x, l1, ..., lj−1))

regresa (x, Y ) . Regresa el ejemplo clasificado

lo anterior, para cada espacio de caracterısticas se comprueba la pertenencia de

este con cada una de las etiquetas en L, recordando que la prediccion, 0 o 1, del

clasificador anterior es anadida como una caracterıstica adicional al espacio de

caracterısticas del ejemplo. El proceso de prueba inicia en el clasificador C1 y se

propaga a traves de la cadena, de tal forma que C1 determina Pr(l1|x) y los sub-

siguientes clasificadores, C2, ..., C|L|, determinan Pr(lj|xi, l1, ..., lj−1). Este proceso

se muestra en la tabla 2.3.

Sin embargo, la disposicion de las clases a lo largo de la cadena influye en la pre-

cision de la clasificacion, por lo anterior, en el trabajo de [Read et al., 2009] se

propone un metodo basado en ensambles. Dichos ensambles entrenan m clasifica-

dores encadenados tomando en cuenta lo siguiente:

Un orden de encadenamiento aleatorio.

Un subconjunto de entrenamiento aleatorio.

Con lo anterior cada modelo generado es unico, o por lo menos eso se espera, y es

capaz de producir diferentes predicciones de multi-etiquetado. Estas predicciones

son sumadas por etiqueta de tal forma que cada etiqueta recibe un numero de


votos. Se utiliza un umbral para seleccionar las etiquetas mas populares, mismas

que conformaran el conjunto de etiquetas que sera la prediccion final.

Otro trabajo relacionado con el metodo de encadenamiento es el de

[Zaragoza et al., 2011]. Este trabajo propone la combinacion de los metodos de en-

cadenamiento y redes bayesianas en el ambito de los problemas de multi-etiquetado.

Este metodo esta dividido en dos fases: la primera fase consiste en obtener la es-

tructura de dependencias entre las clases, esto a traves de una red Bayesiana creada

a partir de los datos, y la segunda fase consiste en construir los clasificadores en

cadena basados en la estructura de dependencia, de la primera fase, de tal forma

que se incluyan como atributos adicionales las clases predichas a la estructura de

la red bayesiana. El clasificador que se utiliza en este trabajo es el de Naive Bayes.

Los anteriores son algunos de los trabajos relacionados con el tema de clasificadores

encadenados. Ambos demuestran la efectividad de la combinacion del metodo de

relevancia binaria y el de encadenamiento, permitiendo mantener las ventajas del

primero y subsanando el problema de no tomar en cuenta la correlacion existente

entre las clases a traves del metodo de encadenamiento. Sin embargo, el metodo

de encadenamiento no ha sido probado en problemas de ındole jerarquico y es esto

mismo lo que se pretende probar en este trabajo de tesis.

2.1.4. Validacion cruzada de K-pliegues

En la validacion cruzada de K-pliegues, el conjunto de ejemplos original es dividido,

de manera aleatoria, en K subconjuntos del mismo tamano. De estos subconjuntos

de ejemplos, uno de ellos es utilizado como conjunto de validacion para probar el

modelo, mientras que los restas K-1 subconjuntos son utilizados para entrenar al

modelo. El proceso de validacion cruzada se repite K veces, con cada uno de los K

subconjuntos de ejemplos usados, exactamente, una vez como datos de validacion.

Finalmente, los K resultados son promediados con el fin de obtener un resultado

final.


2.1.5. Medidas de Evaluacion

Las medidas de evaluacion nos sirven para medir la capacidad de prediccion que

tiene el algoritmo de clasificacion sobre las nuevas instancias que tenga que clasi-

ficar en un futuro. La tasa de error (ecuacion 2.4) es la forma mas habitual que se

utiliza para evaluar un clasificador.

Tasa de error = numero de errores / numero total de casos (2.4)

Otra medida de evaluacion mas ampliamente utilizada es la exactitud (accuracy),

ecuacion 2.5. La exactitud se define como el numero de decisiones correctas reali-

zadas por el clasificador entre el numero total de casos presentados al clasificador.

Exactitud = 1− Tasa de error (2.5)

Sin embargo, las medidas de exactitud y tasa de error no siempre aportan la

informacion necesaria con respecto al desempeno del clasificador para cada una de

las clases.

Por lo general los resultados de una clasificacion son presentados en una matriz de

confusion. Esta matriz nos permite ver, mediante una tabla de contingencia, los

errores y aciertos cometidos por un clasificador a lo largo de las distintas clases

del problema. En la tabla de contingencia se cruza la prediccion derivada de la

clasificacion con la variable que guarda la verdadera clasificacion. Una matriz de

confusion para dos clases tiene la forma que se puede apreciar en la tabla 2.4.

De una matriz de confusion se puede extraer la siguiente informacion:

Precision = V PV P+FP

. Mide cuantos ejemplos clasificados como positivos son

verdaderamente positivos.

Sensibilidad o Recuerdo = V PV P+FN

, proporcion de verdaderos positivos. Evalua

que tan bien puede el clasificador reconocer ejemplos positivos.

Especifidad = V NFP+V N

, proporcion de verdaderos negativos.

Proporcion de falsos positivos = FPFP+V N

.

Proporcion de falsos negativo = FNFN+V P

.


Tabla 2.4: Matrız de confusion para un problema de tipo binario. VP son losverdaderos positivos, FP son los falsos positivos, VN son los verdaderosnegativos y FN son los falsos negativos

Clase verdaderaClase predicha 0(+) 1(-)

0(+) VP FP1(-) FN VN

Por lo general, existe un compromiso entre las medidas de precision y recuerdo.

Mejorar alguna de las dos medidas resulta en el deterioro de la medida restante.

Una manera de combinar ambas medidas es mediante la medida F (F-Measure) la

cual resulta ser la media armonica de las dos medidas, y se define como sigue:

medidaF =2 ∗ Precision ∗RecuerdoPrecision+Recuerdo

=2 ∗ V P

FP + FN + 2 ∗ V P(2.6)

2.2. Resumen

En este capıtulo se abordo el tema de clasificacion junto con los diversos temas que

lo conforman. Como hemos visto en este capıtulo clasificar es un proceso que orde-

na un conjunto de objetos, descritos por un vector de caracterısticas, de acuerdo

con las clases con las que se dispone. De los dos tipos de clasificacion, supervisada

y no supervisada, este trabajo esta basado en la clasificacion supervisada. De los

metodos existentes que se agrupan en este conjunto nos centramos en los metodos

de clasificacion multidimensional y en los metodos de encadenamiento. Para los

experimentos de este trabajo de tesis se utilizaron unicamente los clasificadores:

Naive Bayes y Random Forest. Sin embargo, tanto el metodo propuesto como

los diferentes metodos utilizados para los experimentos no estan restringidos uni-

camente a estos dos clasificadores pudiendose utilizar cualquier otro clasificador.

Finalmente, se presentaron algunas medidas de evaluacion referentes a los metodos

de clasificacion supervisados.

En el siguiente capıtulo se abordara el tema de clasificacion jerarquica. Se pre-

sentaran las diferentes tecnicas de clasificacion jerarquica, ası como tambien las

medidas de evaluacion para este tipo de clasificadores.

Capıtulo 3

Clasificacion Jerarquica

De acuerdo con el trabajo de [Silla and Freitas, 2011] un gran numero de investiga-

ciones en minerıa de datos, aprendizaje automatico, reconocimiento de patrones y

comunidades de investigacion relacionadas se han enfocado en problemas de clasifi-

cacion planos. El termino “problemas de clasificacion planos” se refiere a problemas

de clasificacion estandar binaria o multi-clase. Sin embargo, muchos problemas de

clasificacion en la vida real son problemas de clasificacion jerarquica, donde las cla-

ses a ser predichas estan organizadas en clases jerarquicas - tıpicamente un arbol

o un GAD. La clasificacion jerarquica es un tipo de clasificacion que hace uso de

una taxonomıa para llevar a cabo la clasificacion de diversos objetos. De acuerdo

con el trabajo de [Wu et al., 2005], una taxonomıa se define como un arbol o un

GAD de estructura jerarquica definido a traves de un conjunto de orden parcial

(C, <). Donde C es un conjunto finito que enumera todas las clases del dominio

de aplicacion y < representa la relacion IS-A existente entre dichas clases. En el

trabajo de [Silla and Freitas, 2011] se define la relacion IS-A como una relacion

asimetrica, anti-reflexiva y transitiva.

Los metodos de clasificacion jerarquica se dividen en dos principales grupos: super-

visados o Hierarchical Classification y no supervisados o Hierarchical Clustering.

En el primer grupo las clases del problema estan divididas de acuerdo a una ta-

xonomıa pre-establecida. De acuerdo a dicha taxonomıa se definira la relacion

existente entre las diferentes clases que comprenden al problema. El tipo de clasi-

ficacion no supervisada tiene la caracterıstica de no hacer uso de una taxonomıa

pre-establecida si no que durante el proceso de entrenamiento va descubriendo la

taxonomıa, correspondiente al problema, agrupando clases que son similares unas a

19

Capıtulo 3: Clasificacion Jerarquica 20

otras en meta-clases, [Li et al., 2007],[Hao et al., 2007]. La taxonomıa descubierta

es la que se utilizara durante el proceso de clasificacion.

La clasificacion jerarquica supervisada, de aquı en adelante clasificacion jerarqui-

ca, converge con la definicion de clasificacion supervisada en el sentido de que los

ejemplos o clases se conocen a priori y ademas estan descritos por un vector de

caracterısticas junto con la clase a la que pertenece cada objeto; sin embargo, difie-

ren en el hecho de que la primera, la clasificacion jerarquica supervisada, hace uso

de una taxonomıa y la segunda no. Igualmente, la clasificacion jerarquica tambien

puede encontrarse bajo el nombre clasificacion estructurada (Structure Classifica-

tion). Este tipo de clasificacion contempla problemas que no solo son meramente

de ındole jerarquico, aunque contempla el uso de una estructura (jerarquica o no)

entre las clases. Por lo anterior, la clasificacion jerarquica puede ser vista como un

tipo particular de problemas de clasificacion estructurada.

El presente trabajo de tesis esta enfocado en los metodos de clasificacion jerarqui-

cos supervisados y sobre los cuales se hablara en las siguientes secciones de este

capıtulo. La siguiente seccion presenta un panorama general de las diferentes tecni-

cas de clasificacion jerarquica existentes. Finalmente, el capıtulo termina con las

diferentes metricas existentes para evaluar los metodos jerarquicos.

3.1. Metodos de Clasificacion Jerarquicos

De acuerdo a los trabajos de [Freitas and de Carvalho, 2007] y

[Sun and Lim, 2001] los metodos de clasificacion jerarquicos difieren en tres aspec-

tos fundamentales:

1. El tipo de estructura a utilizar. Tıpicamente es un arbol o un grafo

acıclico dirigido (GAD).

2. La profundidad de la clasificacion jerarquica. Este punto se refiere a

la condicion de paro del proceso de clasificacion, mismo que se divide en

dos formas. La primera consiste en que el metodo de clasificacion jerarqui-

co implementado clasifique unicamente a nivel de hojas, esto es, el proceso

de clasificacion termina forzosamente en una de las hojas del arbol de la


taxonomıa. El segundo consiste en que el proceso de clasificacion puede fi-

nalizar en cualquier nodo de la jerarquıa, ya sea una hoja o un nodo interno,

exceptuando a la raız debido a que todo ejemplo pertenece a esta misma.

3. La forma de explorar la estructura. Debido a que el proceso de clasifi-

cacion jerarquico esta basado en una taxonomıa, misma que tiene la forma

de un arbol o un GAD, puede haber mas de una forma de llevar a cabo la

exploracion de la misma para completar la tarea de clasificacion. Para este

ultimo aspecto existen tres diferentes enfoques de clasificacion jerarquica, a

saber: clasificacion jerarquica plana, clasificacion jerarquica global

y clasificacion jerarquica local.

Los trabajos sobre los cuales se hablara en las siguientes secciones tienen la carac-

terıstica de que el tipo de estructura que utilizan es de tipo arbol. Lo anterior se

debe a que dicha estructura es la mas sencilla. Con respecto a la profundidad de

la clasificacion jerarquica, la que utilizan es la clasificacion a nivel de hojas. Final-

mente, la forma en como exploran la estructura jerarquica estara dada por cada

una de las diferentes secciones. Cabe destacar que se hara un analisis mas profundo

de aquellos trabajos pertenecientes a los metodos de clasificacion jerarquico local

debido a que son los que estan mas relacionados con el tema principal de esta tesis.

3.2. Clasificacion Jerarquica Plana

Este enfoque ignora por completo la jerarquıa durante los procesos de entrena-

miento y clasificacion. Por lo anterior, es una solucion indirecta para resolver el

problema de clasificacion jerarquica debido a que se comporta como los algorit-

mos de clasificacion tradicionales. Tıpicamente, se encarga de clasificar los nodos

hoja de la jerarquıa y cuando un ejemplo es asignado a una de las hojas se puede

considerar que tambien es asignado a todos sus ancestros. Todo el proceso de cla-

sificacion es llevado acabo utilizando un unico clasificador multi-clase, mismo que

tiene que discernir entre todas las clases de tipo hoja. La principal desventaja de

este metodo es que no explora la informacion contenida en la relacion padre-hijo

de la jerarquıa. Una de sus principales ventajas es la simplicidad de su implemen-

tacion debido a que solo utiliza un clasificador multi-clase, sin embargo, el numero

de clases entre las que tiene que discernir puede ser muy extenso. El clasificador

jerarquico plano se ilustra en la figura 3.1.


Figura 3.1: Clasificacion jerarquica plana. Utiliza algoritmos de clasificacionmilti-clase para predecir unicamente a los nodos hoja. (A) Los cırculosdenotan las clases de la jerarquıa mientras que el recuadro punteado representaal clasificador multi-clase. (B) La prediccion del clasificador consiste en unsolo nodo, color rojo, asumiendose la pertenencia con todos sus ancestros.

3.3. Clasificacion Jerarquica Local

En el trabajo de [Koller and Sahami, 1997] se propone por primera vez el enfo-

que de clasificacion jerarquico local (CJL) o Top-Down. A partir de este trabajo

muchos autores han extendido esa primera version para dar solucion a multiples

problemas de naturaleza jerarquica en diferentes areas del conocimiento.

De acuerdo con los trabajos de [Freitas and de Carvalho, 2007] y

[Sun and Lim, 2001] el enfoque de clasificacion jerarquico local o Top-Down es uno

de los mas utilizados en la literatura. Este metodo toma en consideracion la infor-

macion local de cada nodo en la jerarquıa, entrenando a cada clasificador con dicha

informacion. El tipo de clasificador que se puede utilizar en este tipo de esquema

puede ser un clasificador multi-clase o un clasificador binario. El comportamiento

durante la fase de entrenamiento es identico que en el enfoque de clasificacion tra-

dicional, pero es durante la fase de clasificacion en donde existen diferencias entre

ambos enfoques. En esta fase, para cada nuevo ejemplo de prueba el clasificador

jerarquico local primero predice la clase del primer nivel (la mas general), despues

utiliza la clase predicha para limitar la seleccion de clases a predecir en el segundo

nivel (el unico candidato valido de las clases del segundo nivel es el hijo de la clase

predicha en el primer nivel) y ası sucesivamente de forma recursiva. El metodo

finaliza cuando se haya realizado la prediccion mas especıfica, esto es, hasta llegar

a una de las hojas de la jerarquıa. El proceso de clasificacion puede finalizar en

un nodo interno de la jerarquıa; para realizar lo anterior deben definirse las reglas

necesarias que establezcan la finalizacion del proceso.


De acuerdo a como se construyan los clasificadores en cada uno de los nodos

de la jerarquıa, el enfoque de clasificacion jerarquico local se pueden dividir en:

clasificador local por nodo (CLN), clasificador local por nodo padre (CLNP) y

clasificador local por nivel (CLNiv), que se detallan en las siguientes secciones.

3.3.1. Clasificador Local por Nodo

Este metodo consiste en entrenar un clasificador binario por cada nodo de la

jerarquıa, exceptuando al nodo raız. La figura 3.2 ilustra este metodo. Durante la

fase de clasificacion, la prediccion de cada clasificador binario indica si el ejemplo

de prueba pertenece o no a la clase predicha por el clasificador. Una ventaja de este

metodo es que puede utilizarse directamente para problemas de multi-etiquetado

debido a que es posible predecir multiples etiquetas (clases) por cada nivel. Lo

anterior se logra utilizando algoritmos de clasificacion convencionales, mismos que

solo predicen una etiqueta a la vez, evitando las complicaciones asociadas con el

diseno de algoritmos de clasificacion para multi-etiquetado. Una de sus desventajas

es que es propenso al problema de inconsistencia y al problema de bloqueo, este

ultimo sucede siempre y cuando el problema a resolver no requiera que la prediccion

final sea estrictamente un nodo de tipo hoja.

Figura 3.2: Clasificacion jerarquica local por nodo. (A) Los cırculosrepresentan las clases y los recuadros punteados representan a losclasificadores binarios. (B) La prediccion del clasificador, nodos color rojo,consiste en la ruta indicada por el clasificador binario en cada nivel.

Durante el proceso de entrenamiento se debe definir la polıtica para elegir los

ejemplos positivos y negativos para entrenar los clasificadores binarios. El trabajo

de

[Eisner et al., 2005] se exploran cuatro diferentes polıticas para elegir los ejem-

plos positivos y negativos: Exclusive, Less exclusive, Less inclusive e Inclusive. En


la polıtica Exclusive los ejemplos positivos son los ejemplos pertenecientes unica-

mente al nodo del clasificador y los ejemplos negativos son los ejemplos de los

nodos restantes. La polıtica Less exclusive define los ejemplos positivos como los

pertenecientes al nodo del clasificador, mientras que los ejemplos negativos son

los ejemplos de los nodos restantes exceptuando a los nodos descendientes del

nodo del clasificador. La polıtica Less inclusive selecciona los ejemplos del nodo

del clasificador y los de sus descendientes como ejemplos positivos y los ejemplos

negativos son todos los ejemplos de los nodos restantes. Finalmente, la polıtica

Inclusive toma como ejemplos positivos el mismo conjunto que la polıtica anterior

y como ejemplos negativos todos los ejemplos de los nodos restantes exceptuan-

do los nodos pertenecientes a la rama del nodo del clasificador. De acuerdo a los

experimentos realizados, los clasificadores binarios obtiene mejores resultados con

las polıticas Inclusive y Less inclusive.

El trabajo de [Fagni and Sebastiani, 2007] compara dos diferentes polıticas para

elegir ejemplos positivos y negativos: Siblings y Less Inclusive. La polıtica siblings

selecciona los ejemplos del nodo del clasificador y de sus nodos descendientes como

ejemplos positivos, y los ejemplos negativos son los ejemplos pertenecientes a los

nodos hermanos junto con los descendientes de dichos nodos. De acuerdo con

los experimentos realizados no hay un claro ganador entre ambas polıticas, sin

embargo, la polıtica Siblings hace uso de muy pocos ejemplos en comparacion con

la polıtica Less Inclusive.

Uno de los problemas fundamentales de este tipo de metodos es el de la inconsis-

tencia. De acuerdo a lo anterior, los trabajos relacionados con este tipo de enfoque

buscan minimizar este problema. Los trabajos que a continuacion se mencionan sa-

len del esquema tradicional de clasificacion Top-Down, buscando otras alternativas

para llevar acabo el proceso de clasificacion jerarquica.

[Dumais and Chen, 2000] utiliza las probabilidades predichas por cada uno de los

clasificadores binarios junto con la definicion de un umbral para cada nivel de la

jerarquıa para realizar la prediccion de un ejemplo de prueba. Cabe mencionar que

la jerarquıa, utilizada en este trabajo es de dos niveles. Se proponen dos metodos:

el primero esta basado en una regla de decision booleana y el segundo esta basado

en una regla de decision multiplicativa. El primer metodo propone un umbral para

cada nivel, si la probabilidad predicha por el clasificador del primer nivel rebasa

el umbral establecido para tal nivel entonces se verifica la probabilidad predicha


por el clasificador del segundo nivel con su respectivo umbral. Aquellos ejemplos

que rebasen este ultimo umbral seran la prediccion final del metodo.

El segundo metodo que se propone esta basado en el producto de las probabilidades

predichas por los clasificadores de cada nivel. Como en el metodo anterior, se define

un umbral y de acuerdo a este se decide si el ejemplo pertenece o no a cada una

de las ramas de la jerarquıa. La base de datos que utilizada es la LookSmart.

Originalmente la jerarquıa de esta base de datos cuenta con siete niveles, sin

embargo, en el citado trabajo se centran unicamente en los dos primeros niveles.

El primer nivel cuenta con 13 clases diferentes y el segundo nivel cuenta con 150

clases diferentes. De acuerdo con sus resultados, el metodo propuesto tiene un

buen desempeno, llegando a superar por un margen de cuatro por ciento a los

metodos con los cuales se compara.

Los metodos propuestos en el trabajo de [Dumais and Chen, 2000] toman en cuen-

ta la relacion existente entre las clases, una relacion que va mas alla de la simple

disposicion de las clases en la jerarquıa. Igualmente, se considera la probabilidad

predicha por cada clasificador binario aumentando con ello la interaccion entre las

clases. Sin embargo, son metodos basados en la definicion de umbrales, debido a

esto, estan sujetos a la correcta definicion de los mismos, si estos no son adecua-

dos los resultados se veran afectados. Otro punto importante es que es un metodo

binario, esto implica que se deben construir un gran numero de clasificadores, uno

por cada nodo exceptuando a la raız.

El trabajo de [Valentini, 2009], al igual que el trabajo anterior, toma en cuenta la

relacion entre las clases de la jerarquıa mas alla de la posicion que los relaciona.

Esta basado en el concepto de true path rule de la Gene Ontology. Esta regla

establece lo siguiente: Si el termino del hijo describe al producto genetico, entonces

todos los terminos de sus padres deben aplicar a dicho producto genetico.

El metodo que proponen esta basado en el consenso de dos procesos. El primer

proceso consiste en la revision de las predicciones de los clasificadores que va de lo

mas general a lo mas especıfico, esto es, la revision se realiza desde el primer nivel

de la jerarquıa hasta llegar al nivel de las hojas. El segundo proceso consiste en el

recorrido inverso. El primer proceso verifica la prediccion del clasificador de uno

de los nodos del primer nivel, si esta resulta ser cero entonces, y de acuerdo con la

regla antes mencionada, los descendientes de este nodo tendran como prediccion

cero, pero si la prediccion es uno entonces continua su verificacion hasta llegar a


las hojas. El segundo metodo empieza desde las hojas y verifica si la prediccion del

clasificador del nodo es uno entonces sube un nivel y realiza la misma verificacion

hasta llegar al primer nivel de la jerarquıa.

Este metodo se compara con dos esquemas de clasificacion jerarquica: clasificacion

jerarquica local y clasificacion jerarquica plana. Los resultados en los experimentos

demuestran que el metodo de [Valentini, 2009] es competitivo con el esquema de

clasificacion jerarquico local y superior al metodo de clasificacion jerarquico plano.

3.3.2. Clasificador Local por Nodo Padre

Este metodo entrena un clasificador multi-clase en cada nodo padre de la taxo-

nomıa, mismo que se encarga de distinguir entre los nodos hijo de este. La figura

3.3 ilustra este metodo. Una ventaja, en comparacion con el metodo de clasifica-

cion local por nodo, es que utiliza un numero menor de clasificadores, sin embargo,

comparten el mismo modelo de clasificacion: Top-Down.

Figura 3.3: Clasificacion jerarquica local por nodo padre. (A) Los cırculosrepresentan las clases y los recuadros punteados representan a losclasificadores multi-clase, mismos que predicen a sus clases hijo. (B) Laprediccion del clasificador, nodos color rojo, consiste en la ruta indicada por elclasificador multi-clase en cada nivel.

La fase de entrenamiento consiste en entrenar cada clasificador base de la jerarquıa

de acuerdo a la polıtica de seleccion de ejemplos que se haya elegido. De las polıticas

presentadas en la seccion anterior las mas adecuadas para este tipo de clasificador

jerarquico son: Siblings y Exclusive Siblings. Cabe mencionar que el clasificador

base corresponde a un unico clasificador multi-clase para toda la jerarquıa, por

ejemplo, si se elige el clasificador Random Forest, este se utilizara en cada nodo

padre de la jerarquıa. Durante la fase de clasificacion, regularmente, se elige la


forma Top-Down. De acuerdo a esta forma el proceso de clasificacion empieza

desde el nodo raız, la clase predicha por este clasificador sera el camino marcado

que seguira el ejemplo de prueba. Lo anterior se repite hasta llegar a un nodo hoja

o, si el problema ası lo permite, la prediccion puede terminar en cualquier nodo

de la jerarquıa.

Los trabajos relacionados con el metodo de CLNP buscan minimizar el problema

de inconsistencia, un problema muy comun en este tipo de clasificadores. Algunos

de los metodos buscan resolver el problema de inconsistencia dejando a un lado el

metodo tradicional de clasificacion que es el Top-Down; sin embargo, este metodo

sigue presentando los mejores resultados con respecto a metodos que se han com-

parado con este mismo. A continuacion se presentan algunos trabajos relacionados

con este metodo de clasificacion.

El trabajo de [Secker et al., 2007] se enfoca en el problema de la prediccion de

proteınas de acuerdo a su funcion utilizando para ello la base de datos GPCR

(G-Protein Coupled Receptors). El tipo de estructura jerarquica que se utiliza

en este trabajo es la de tipo arbol, el tipo de clasificacion jerarquica utilizada

es la de tipo nodo padre y la profundidad de prediccion es unicamente la de

nodos hoja. Su principal aportacion es la introduccion de la premisa de que la

combinacion de clasificadores en el arbol mejora la precision de clasificacion. Una

segunda aportacion de este trabajo es la comparacion de 10 diferentes algoritmos

de clasificacion para la prediccion jerarquica de la base de datos GPCR donde

cada algoritmo de clasificacion es aplicado utilizando el esquema Top-Down.

La seleccion de clasificadores para cada nodo en la jerarquıa se lleva a cabo de la

siguiente manera. El conjunto de entrenamiento para cada clasificador es dividido

en dos subconjuntos no traslapados, uno es utilizado para entrenar al algoritmo

de clasificacion (el cual comprende el 80 %) y el otro conjunto es utilizado para

realizar la validacion (el cual comprende el 20 %). Para cada clasificador en el arbol

son entrenados multiples algoritmos de clasificacion usando el conjunto de entre-

namiento. La precision de cada algoritmo de clasificacion es medida utilizando el

conjunto de validacion. El mejor algoritmo de clasificacion es escogido de acuerdo

con la precision del conjunto de validacion. Este proceso se repetido para cada

clasificador de nodo. Al proceso antes mencionado los autores le denominan apro-

ximacion selectiva, la cual produce un sistema hıbrido de clasificacion jerarquica.

Finalmente los subconjuntos de entrenamiento y validacion son fusionados para


producir el conjunto de entrenamiento original y los clasificadores seleccionados

son re-entrenados con este nuevo conjunto.

La seleccion de clasificadores es realizada de una forma avida con la intencion

maximizar la precision de clasificacion. Para el trabajo citado los siguientes clasi-

ficadores fueron utilizados.

1. Naive Bayes.

2. Redes Bayesianas.

3. SMO (support vector machine).

4. 3 vecinos mas cercanos (utilizando distancia Euclidiana).

5. PART.

6. J48 (una implementacion de C4.5).

7. Naive Bayes Tree (Un arbol de decision con clasificadores Naive Bayes en

cada nodo).

8. Multi-layer neural network.

9. AIRS2 (un clasificador basado en el paradigma de los sistemas inmunes ar-

tificiales).

10. Conjuntive rule learner.

De acuerdo a los resultados obtenidos el metodo selectivo obtuvo una mayor pre-

cision en su prediccion en comparacion con los metodos Top-Down estandar que

consideran a un solo clasificador para toda la jerarquıa. Sin embargo, el metodo

propuesto requiere de muchos pasos adicionales para conseguir su meta en com-

paracion con el metodo Top-Down tradicional.

El trabajo de [Holden and Freitas, 2008] propone utilizar un algoritmo inteligente

basado en enjambres para seleccionar el tipo de algoritmo de clasificacion que

mejor se amolde a cada nodo padre, para ser mas precisos, en este trabajo se

utiliza el algoritmo (PSO/ACO). El tipo de estructura jerarquica que se utiliza en

este trabajo es de tipo arbol, el tipo de clasificacion jerarquica utilizada es de tipo

nodo padre y la profundidad de prediccion es unicamente de nodos hoja. La base


de datos que se utiliza es la GPCR. Se realiza la seleccion de clasificadores para

cada nodo de tal forma que se tome en cuenta la interaccion entre los clasificadores.

Dicha interaccion se refiere al hecho de que combinacion de clasificadores en todo el

arbol produce una mayor precision en la prediccion. Con lo anterior no solo se busca

el mejor clasificador para cada nodo sino tambien la mejor combinacion de dichos

clasificadores. El algoritmo de PSO/ACO es adaptado para ser usado como un

selector de clasificadores, donde en lugar de encontrar una buena combinacion de

atributo-valores para una regla, encuentre buenas combinaciones de clasificadores

para todos los nodos en el arbol de clasificacion.

Los experimentos realizados utilizaron los clasificadores: HyperPipes, Naive Bayes,

J48, ConjuctiveRule y Bayes Net. Por cada algoritmo de clasificacion se construyo

el esquema de clasificacion jerarquico basado en el enfoque Top-Down tradicional.

Finalmente el metodo propuesto en el trabajo citado se compara con el metodo

propuesto en el trabajo de [Secker et al., 2007].

Los resultados obtenidos demuestran que el metodo propuesto es competitivo con

el metodo de seleccion de clasificadores. Sin embargo, este nuevo metodo impli-

ca una mayor complejidad para la seleccion de los clasificadores, debido a que

no considera la precision en cada uno de los nodos sino que tambien toma en

cuenta la precision del conjunto de clasificadores seleccionados. Una desventaja

de este metodo radica en el hecho de que el numero de posibles combinaciones se

incrementa de acuerdo al numero de algoritmos de clasificacion disponibles.

En el trabajo de [Silla and Freitas, 2009] se presenta una nueva mejora al metodo

propuesto en [Secker et al., 2007] aplicada en el area de clasificacion de generos

musicales. En este trabajo no solo se realiza una seleccion de clasificadores para el

arbol de clasificacion, sino que tambien se realiza una seleccion de atributos para

cada nodo padre de la jerarquıa. El tipo de estructura jerarquica que se utiliza en

este trabajo es la de tipo arbol, el tipo de clasificacion jerarquica utilizada es de

tipo nodo padre y la profundidad de prediccion es unicamente la de nodos hoja.

Las bases de datos que se utilizan en este trabajo son dos: Latin Music Database

(LDM) y un subconjunto de la Magnatune Database. La motivacion que los autores

tuvieron radica en el hecho de analizar si las caracterısticas usadas para distinguir

diferentes clases tienen la misma importancia en diferentes niveles de la jerarquıa.

El primer metodo propuesto en el citado trabajo es la seleccion representativa de

caracterısticas. Dicho metodo sigue la misma idea de seleccion de clasificadores


que en el trabajo de [Secker et al., 2007] pero en lugar de seleccionar al mejor

clasificador en cada nodo padre selecciona la mejor representacion de caracterısti-

cas en cada nodo padre de la clase jerarquica. El segundo metodo propuesto es

la combinacion del metodo de seleccion de clasificadores ([Secker et al., 2007]) y

el metodo de seleccion representativa de caracterısticas. Sin embargo, uno de los

inconvenientes de esta aproximacion es la explosion combinatoria que se puede lle-

gar a generar. Lo anterior se debe a que si el numero de caracterısticas candidatas

y/o el numero de clasificadores es incrementado de manera significativa para cada

nodo, el sistema sera entrenado con todos los clasificadores disponibles conside-

rando a todas las representaciones de caracterısticas diferentes. Los clasificadores

utilizados en este trabajo se listan a continuacion:

1. K vecinos mas cercanos (K-NN) con K=3.

2. Naive Bayes (NB).

3. Multi-layer Neural Network (MLP) con el algoritmo de back propagation

momentum algorithm.

4. Support Vector Machine (SVM).

En el citado trabajo usaron la precision de clasificacion estandar para clasificadores

planos adaptada de manera sencilla al problema de clasificacion jerarquica, midien-

do la precision de clasificacion a nivel de hojas de la clase jerarquica. Para realizar

la seleccion del mejor clasificador, la mejor representacion de caracterısticas o su

combinacion, dividieron el conjunto de entrenamiento en dos subconjuntos: de en-

trenamiento (80 %) y de validacion (20 %). Para ambos subconjuntos se hace una

seleccion de ejemplos aleatorios sin traslape. Para la extraccion de caracterısticas

de los segmentos de musica, usaron cuatro tipos de representaciones de caracterısti-

cas que son el estado del arte en la clasificacion de genero musical: The Inset-Onset

Interval Histogram Coefficient (IOIHC) [Gouyon et al., 2004] (40 caracterısticas);

Rhythm Histogram (RH) [Lidy and Rauber, 2005] (60 caracterısticas); Statistical

Spectrum Descriptor (SSD) [Lidy and Rauber, 2005] (168 caracterısticas); y el

framework MARSYAS [Tzanetakis and Cook, 2002] (30 caracterısticas).

Los resultados de este trabajo muestran que la combinacion de un metodo de selec-

cion de caracterısticas y un metodo de seleccion de clasificadores tiende a mejorar

los porcentajes de clasificacion. Sin embargo, la explosion combinatoria, resultado


de las posibles combinaciones entre clasificadores y metodos de seleccion de carac-

terısticas, lo vuelven un metodo poco viable para una jerarquıa con un numero de

nodos considerable. Ademas sigue heredando del trabajo de [Secker et al., 2007]

lo avido del metodo.

Finalmente el ultimo trabajo relacionado con la clasificacion por nodo padre es

el de [Secker et al., 2010] Este trabajo enfatiza que su objetivo no es mejorar la

precision en el proceso de clasificacion, siguiendo el esquema de seleccion de clasi-

ficadores, sino que pretende mejorar los tiempos de entrenamiento/validacion sin

sacrificar significativamente los porcentajes de clasificacion. Este trabajo es una

extension de [Secker et al., 2007], mismo que propone la seleccion de clasificadores

como una forma de minimizar el problema de inconsistencia presente en este tipo

de clasificadores.

Debido a que este trabajo esta enfocado en mejorar los tiempos de entrenamien-

to/validacion, no busca el mejor clasificador sino que busca la mejor forma de

seleccionar atributos, dicha seleccion busca ser independiente para cada nodo. Pa-

ra llevar a cabo esta tarea se utiliza el AttributeSelectedClassifier, incluido en el

software WEKA. Sigue el siguiente procedimiento: primero selecciona los mejores

atributos, a traves de alguno de los selectores incluido dentro de sus opciones; y

despues, utiliza esta informacion para realizar la clasificacion, de acuerdo con el

clasificador seleccionado dentro de sus opciones. La comparacion realizada entre

los diferentes selectores de atributos concluyeron que el mejor selector es CfsSub-

setEval.

El metodo es probado con la misma base de datos GPCR y con la misma lista

de clasificadores que se utilizo en el trabajo de [Secker et al., 2007], comparado

contra el esquema de clasificacion con seleccion de clasificadores utilizando un

enfoque Top-Down. Los resultados demuestran que la combinacion de seleccion de

atributos y seleccion de clasificadores reduce el tiempo necesario para realizar las

pruebas de entrenamiento/validacion. Sin embargo, los porcentajes de clasificacion

no decaen drasticamente, de hecho son muy parecidos a los del metodo de seleccion

de clasificadores. A pesar de reducir los tiempos en la seleccion de clasificadores el

metodo propuesto sigue siendo avido.

Para concluir con estos trabajos, el metodo Top-Down con seleccion de clasifica-

dores ha demostrado ser eficiente ante el problema de inconsistencia, propio de

los clasificadores jerarquicos locales. Sin embargo, es un metodo voraz que implica


una serie de pruebas sucesivas por cada nodo padre de la jerarquıa. La mejora en

los porcentajes de clasificacion es innegable pero todo el proceso que debe seguirse

hace que sean metodos computacionalmente complejos para bases de datos de gran

tamano.

Finalmente, la siguiente seccion aborda el metodo de clasificador local por nivel.

Este clasificador es uno de los menos utilizados, sin embargo, es el que menos

clasificadores utiliza en la jerarquıa.

3.3.3. Clasificador Local por Nivel

Consiste en entrenar un clasificador multi-clase para cada nivel de la jerarquıa.

Cuando se presenta un nuevo ejemplo, se toma la salida de todos los clasificadores

(un clasificador por nivel) y se usa esta informacion como la clasificacion final.

La figura 3.4 ilustra este metodo. Una de las ventajas de este metodo es que

utiliza muy pocos clasificadores base, sin embargo, es mas propenso al problema

de inconsistencia en comparacion con los metodos de clasificacion local por nodo

y clasificacion local por nodo padre.

Figura 3.4: Clasificacion jerarquica local por nivel. (A) Los cırculosrepresentan las clases y los rectangulos punteados representan las clasespredichas por los clasificadores multi-clase. (B) La prediccion del clasificador,nodos color rojo, consiste en la ruta indicada por el clasificador multi-clase decada nivel.

La fase de entrenamiento sigue el mismo esquema que los dos metodos de clasifi-

cacion local. Cada clasificador es entrenado con la informacion local de los nodos

de cada nivel. Esta diferencia es la que lo vuelve mas propenso a sufrir por el

problema de inconsistencia. La polıtica de seleccion de ejemplos de entrenamiento

puede ser la misma que en el metodo de clasificacion local por nodo padre. La fase

de clasificacion consiste en combinar las salidas de los diferentes clasificadores.


Tabla 3.1: Tabla comparativa de los tres metodos de clasificacion jerarquicoslocales (por Nodo, Nodo Padre y Nivel).

Aproximacion Jerarquica Ventajas DesventajasClasificador Local por *Simplicidad *Puede sufrir del problemaNodo *Manejo de multi-etiquetado. de bloqueo.

*Puede sufrir del problemade inconsistencia.*Emplea un gran numero declasificadores.

Clasificador Local por *Simplicidad. *Puede sufrir del problemaNodo Padre *Emplea menos clasificadores del bloqueo.

que el clasificador local *Puede sufrir del problemapor nodo. de inconsistencia.

Clasificador Local por *Simplicidad. *Propenso a inconsistencias.Nivel *Emplea menos clasificadores *Ignora la relacion

que el clasificador local padre-hijo de las clasespor nodo padre. durante el entrenamiento.

Una forma de contrarrestar el problema de inconsistencia es seguir la aproxima-

cion Top-Down. Esta forma funciona de la misma manera que en el metodo de

clasificacion local por nodo padre. De acuerdo a la prediccion del clasificador del

primer nivel la prediccion del clasificador del siguiente nivel unicamente conside-

rara las clases que son descendientes de la clase predicha por el clasificador del

nivel superior.

El clasificador por nivel se menciona como una posible aproximacion en el tra-

bajo de [Freitas and de Carvalho, 2007]. Sin embargo, en [Clare and King, 2003]

y en [Costa et al., 2007] se ha utilizado solo como un baseline. Para finalizar la

seccion correspondiente a los metodos de clasificacion jerarquicos locales, la tabla

3.1 muestra las ventajas y desventajas de cada metodo presentado.

3.4. Clasificacion Jerarquica Global

El enfoque de clasificacion jerarquico global, tambien denominado global o big

bang, consiste en construir un unico modelo de clasificacion a partir del conjunto

de entrenamiento. Este modelo se construye tomando en consideracion a todas

las clases de la jerarquıa durante la ejecucion del algoritmo. Durante la fase de

prueba los ejemplos son clasificados de acuerdo al modelo inducido. La figura

3.5 ilustra este metodo de clasificacion. Este modelo no adolece de los problemas


de inconsistencia ni de bloqueo que son propios de los metodos de clasificacion

jerarquico local; sin embargo, el modelo de clasificacion tiende a ser mas complejo.

Figura 3.5: Clasificacion jerarquica global o big bang. Utiliza un algoritmo declasificacion que aprende un modelo de clasificacion global tomando en cuentaa todas las clases de la jerarquıa.

Este enfoque de clasificacion nace como una estrategia para evitar el problema

de inconsistencia utilizando metodos de clasificacion jerarquicos locales. Origi-

nalmente en el trabajo de [Sun and Lim, 2001] se establece que solo existen dos

aproximaciones para la clasificacion jerarquica: Top-Down y Global. Despues de

este trabajo muchos otros trabajos siguieron esta afirmacion ([Costa et al., 2007],

[Secker et al., 2007], [Alves et al., 2008]).

Los metodos de clasificacion jerarquicos globales tienen dos principales caracterısti-

cas: (i) Consideran toda la jerarquıa de una sola vez y (ii) la fase de entrenamiento

no es modular como en los clasificadores jerarquicos locales. La principal diferencia

entre un clasificador jerarquico global y uno local se encuentra en la fase de en-

trenamiento, ya que el clasificador global puede utilizar una aproximacion de tipo

Top-Down en la fase de clasificacion siempre y cuando durante la fase de entrena-

miento cumpla con las caracterısticas mencionadas al principio de este parrafo.

Un tipo de clasificacion jerarquica global esta basada en el clasificador Rocchio

[Salton, 1971], metodo basado en el agrupamiento de clases, donde un nuevo ejem-

plo es asignado a la clase mas cercana de acuerdo a la distancia entre el nuevo

ejemplo y cada clase.

Otro tipo de clasificacion global esta basada en la modificacion de un algoritmo de

clasificacion existente de tal forma que contemple toda la jerarquıa durante las fases

de entrenamiento y clasificacion. Este tipo de clasificacion tiene el inconveniente de

que es especıfico a un algoritmo de clasificacion. Lo anterior es una desventaja en


comparacion con el modelo de clasificacion jerarquica local, el cual no es especıfico

al uso de un unico algoritmo de clasificacion. Sin embargo, para un usuario es

mucho mas facil interpretar el tipo de clasificacion global basado en la modificacion

de un algoritmo de clasificacion que la interpretacion de un metodo de clasificacion

local. Lo anterior es debido a que el modelo de clasificacion del metodo global

tiende a ser considerablemente mas pequeno que la suma de todos los modelos del

metodo local, tomando en consideracion que ambos utilizan el mismo clasificador.

Diversos trabajos llevan a cabo la modificacion de un algoritmo de clasificacion

especıfico con el objetivo de considerar a toda la jerarquıa en una sola corrida.

[Wang et al., 2001] realizan una modificacion al algoritmo de rule mining con el

objetivo de manejar la categorizacion jerarquica de documentos. En el trabajo de

[Clare and King, 2003] modifican el algoritmo de clasificacion C4.5 para manejar

clases jerarquicas, HC4.5. El cambio consiste en modificar la formula para el

calculo de la entropıa para considerar una forma de pesado en la jerarquıa.

La tabla 3.2 presenta una comparacion, de acuerdo con el trabajo de

[Silla and Freitas, 2011], de los diferentes metodos de clasificacion jerarquica. De

acuerdo con dicha tabla, los clasificadores locales son los mas flexibles a pesar

de los problemas de los cuales adolecen. La modularizacion del problema es una

ventaja debido a que cada nodo es tratado por separado. Los clasificadores planos

a pesar de su simplicidad no son la mejor opcion para resolver un problema de tipo

jerarquico debido a que no considera la relacion entre las clases. Los metodos de

clasificacion globales, por lo general, dependen de la modificacion de un algoritmo

de clasificacion y aunque el modelo generado es considerablemente mas pequeno

que el modelo generado por un metodo de clasificacion local, la complejidad de

este es proporcional al tamano de la jerarquıa. En esta tesis el modelo generado

es como el de los clasificadores locales, pero la prediccion de un nuevo ejemplo se

hace de forma global reduciendo el problema de inconsistencia.

Los metodos de clasificacion jerarquicos regularmente son evaluados siguiendo al-

guna medida de evaluacion estandar; sin embargo, la naturaleza del problema es

diferente. Por lo anterior es que en la siguiente seccion se abordan las diferentes

metricas para la evaluacion de los metodos de clasificacion jerarquicos.


Tabla 3.2: Tabla comparativa entre los tres metodos de clasificacion jerarquicos(Plano, Local y Global).

Aproximacion Jerarquica Ventajas DesventajasClasificador Jerarquico *Simplicidad *Ignora completamente laPlano jerarquıa de clases.Clasificador Jerarquico *Considera la jerarquıa de *Pueden sufrir el problemaLocal clases durante las pruebas y del bloqueo.

durante la creacion de los *Dependiendo del problema aconjuntos de entrenamiento. manejar, pueden crear un*Generalmente pueden ser conjunto muy complejo deusados con cualquier clasificadores en cascada, loclasificador base. cual genera un modelo de

clasificacion complejo.*Una clasificacion erroneaen un cierto nodo espropagada hacia todas susclases descendientes.

Clasificador Jerarquico *Considera la jerarquıa de *Clasificador especıficoGlobal clases durante el proceso de *La complejidad del

entrenamiento y de prueba. modelo es proporcional*Un modelo unico de decision al tamano de la(aunque complejo) jerarquıa.

3.5. Medidas de Evaluacion Jerarquicas

Las medidas de clasificacion jerarquica tienen las siguientes propiedades,

[Kiritchenko et al., 2005]:

1. Cada ejemplo no solo pertenece a su clase, sino que tambien a todos los

ancestros de la clase, excepto la raız (todos los ejemplos pertenecen a la

raız).

2. La medida otorga credito a clasificaciones parcialmente correctas. Por ejem-

plo, en la figura 3.6 la clase real de un ejemplo x es G, sin embargo, se

predice como la clase I. Este error sera menos penalizado en comparacion

con una prediccion erronea en D. Lo anterior se debe a que I esta en el mismo

subgrafo que G, mientras que D no.

3. La medida penaliza los errores de distancia mas severamente. Por ejemplo,

en la figura 3.6 la clase real de un ejemplo x es G, sin embargo, se predice

como la clase F. Dado que G y F comparten unicamente al nodo C como

ancestro entonces la penalizacion sera mas severa.

4. La medida castiga los errores en los niveles mas altos de la jerarquıa con

mayor severidad. Por ejemplo, en la figura 3.6 la clase real de un ejemplo x


es G, sin embargo, se predice como la clase I. Este error es menos penalizado

en comparacion a un error en el primer nivel, esto es, que x sea clasificado

como la clase C cuando en realidad pertenece a la clase A.

Figura 3.6: Grafo a cıclico dirigido. Los cırculos denotan a las clases y lasflechas indican la relacion entre las clases. El cırculo de color rojo indica laclase de un ejemplo x.

Para cualquier instancia (di, Ci) clasificada en el subconjunto C ′i extendemos el

conjunto Ci y C ′i con las etiquetas de los ancestros correspondientes:

Ci = {⋃ck∈Ci

Ancestros(ck)}, C ′i = {⋃ck∈C′

iAncestros(ck)}. Donde Ci es el con-

junto que consiste de las clases predichas y de todas sus clases ascendientes. C ′i es

el conjunto que consiste de las clases correctas y de todas sus clases ascendientes.

Despues se calculan las medidas jerarquicas como sigue:

Hierarchical precision o hP.

hP =

∑i |Ci ∩ C ′i||C ′i|

(3.1)

Hierarchical recall o hR.

hR =

∑i |Ci ∩ C ′i||Ci|

(3.2)

Hierarchical F-measure o hF.


hF =2 ∗ hP ∗ hRhP + hR

(3.3)

En esta tesis nos enfocamos en la medida de clasificacion jerarquica hP (Hierarchi-

cal Precision) para realizar la evaluacion tanto del metodo propuesto como de los

metodos utilizados para su comparacion. Sin embargo, tambien se evaluara utili-

zando la medida de precision estandar.

3.6. Resumen

Muchos de los diferentes problemas que se abordan en las diferentes areas del

conocimiento requieren tomar en consideracion la relacion que existe entre las

diferentes clases, en lugar de considerar a cada una por separado. Ası surgen los

metodos de clasificacion jerarquicos.

Como hemos visto en este capıtulo, los metodos de clasificacion jerarquica son

diversos y cada uno de ellos presenta sus ventajas y desventajas. Sin embargo, uno

de los metodos mas difundidos a lo largo de la literatura es el metodo de clasifica-

cion jerarquico local. De este se derivan tres diferentes metodos que se diferencian

principalmente en la forma en como llevan a cabo la fase de clasificacion. De los

tres metodos jerarquicos locales el clasificador local por nivel es el menos popular.

De las dos metodos restantes el mas utilizado es el metodo de clasificacion local

por nodo padre debido a que utiliza menos clasificadores que el metodo restante: el

clasificador local por nodo. Sin embargo, cualquiera de los tres adolece del proble-

ma de inconsistencia, que como hemos visto en este capıtulo, se presenta cuando

surge una clasificacion erronea en un cierto nodo y esta es propagada a todos sus

nodos descendientes.

Los metodos de clasificacion jerarquicos locales se caracterizan por seguir un esque-

ma de tipo Top-Down. De acuerdo con este esquema, los nuevos ejemplos exploran

un unico camino, el cual esta senalado por la prediccion del clasificador correspon-

diente en cada nivel. El metodo propuesto en esta tesis esta basado en un enfoque

de clasificacion jerarquico local; sin embargo, en lugar de seguir un proceso de

tipo Top-Down durante la fase de clasificacion, se opto por un metodo inspirado

en la clasificacion multidimensional. El metodo explora todos los posibles caminos


que un ejemplo de prueba pueda tomar en la jerarquıa al combinar la informacion

proveniente de los clasificadores de cada nodo con el fin de mejorar los porcentajes

de prediccion y minimizar el problema de inconsistencia. Este metodo explora una

nueva forma de llevar a cabo la clasificacion jerarquica bajo un entorno local. Los

metodos de clasificacion jerarquicos que no realizan una prediccion de solo hojas

tienden a definir umbrales para detener el proceso de clasificacion. En esta tesis

se propone un nuevo sistema de paro basado en ganancia de informacion.

En el siguiente capıtulo se presenta el metodo de clasificacion jerarquico multidi-

mensional, el sistema de paro basado en ganancia de informacion y el metodo de

clasificacion jerarquico encadenado.

Capıtulo 4

Clasificador Jerarquico

Multidimensional

El metodo que se propone en la presente tesis realiza una prediccion global al tomar

en consideracion la probabilidad predicha por cada clasificador en la jerarquıa, aun

cuando los clasificadores estan construidos con la informacion local de cada nodo.

La prediccion final del metodo, para cada ejemplo de prueba, corresponde a un

subconjunto de clases que corresponden a una de las ramas de la jerarquıa. Cabe

mencionar que la diferencia que existe entre el metodo propuesto en esta tesis y

el metodo tradicional Top-Down se encuentra en la fase de clasificacion, debido a

que la fase de entrenamiento es similar para ambos metodos.

Adicionalmente, se propone el clasificador jerarquico encadenado. Este considera la

dependencia entre las clases al tomar en cuenta las predicciones realizadas por cada

clasificador en la jerarquıa mediante la tecnica de encadenamiento entre clases.

Los procesos de clasificacion jerarquica cuya prediccion es, o bien un nodo interno o

un nodo hoja definen un sistema de paro basado en la definicion de un umbral para

cada nivel de la jerarquıa. Estos umbrales son, generalmente, definidos y ajustados

de manera manual. Debido a lo anterior en este trabajo de tesis se plantea, como

una extension al clasificador jerarquico multidimensional, un nuevo sistema de paro

basado en ganancia de informacion que permita realizar una prediccion a diferentes

niveles de la jerarquıa al medir la confianza en la prediccion del clasificador, sin la

necesidad de definir un umbral para cada nivel de la jerarquıa.

41

Capıtulo 4: Clasificador Jerarquico Multidimensional 42

4.1. Clasificador Jerarquico Multidimensional

En el metodo de clasificacion jerarquico local estandar (Top-Down), figura 4.1, un

ejemplo de prueba sigue una unica ruta marcada por la prediccion del clasificador

en cada nivel de la jerarquıa hasta llegar a un nodo hoja. Por ejemplo, en la figura

4.1 si la prediccion del clasificador del nodo raız R para un ejemplo de prueba es

1, entonces el ejemplo es pasado al clasificador de ese nodo siendo la prediccion de

este la clase asignada al ejemplo de prueba. Sin embargo, este procedimiento trunca

a las demas ramas de la jerarquıa, la ramas de los nodos 2 y 3 en la figura antes

mencionada, como candidatas para el ejemplo de prueba. Debido a lo anterior,

se corre el riesgo de que una mala prediccion, en cualquier clasificador a lo largo

del camino, conduzca a un resultado erroneo. Por ello, la solucion que se propone

es tomar en consideracion la probabilidad predicha por cada nodo de cada rama

de la jerarquıa y con ello considerar a todas las ramas como posibles caminos del

ejemplo de prueba.

Figura 4.1: Clasificador jerarquico local. Los cırculos denotan las clases en lajerarquıa mientras que los cuadrados punteados denotan los clasificadores en lamisma.

Los clasificadores del clasificador jerarquico multidimensional son entrenados si-

guiendo la polıtica Siblings descrita en [Silla and Freitas, 2011]. Para clasificacio-

nes cuya prediccion no es de solo nodos hoja, figura 4.2 (A), dicha polıtica consiste

en entrenar a cada clasificador utilizando los ejemplos que pertenecen al nodo del

clasificador y los ejemplos de todos los nodos descendientes de dicho nodo. Por

ejemplo, en la figura 4.2 (A) el nodo 3 del clasificador es entrenado con los ejem-

plos del propio nodo 3 y con los ejemplos de sus nodos descendiente 3.1,3.2 y 3.3.

Para clasificaciones cuya prediccion es de solo nodos hoja, figura 4.2 (B), tal polıti-

ca consiste en entrenar a cada clasificador utilizando los ejemplos pertenecientes

a todos los nodos descendientes de este mismo. Por ejemplo, en la figura 4.2 (B)

el nodo 3 del clasificador es entrenado con los ejemplos de sus nodos descendiente


3.1,3.2 y 3.3. De esta manera, el clasificador toma en consideracion unicamente

los ejemplos de la rama del nodo al que pertenece dejando a un lado los ejemplos

de las demas ramas.

Figura 4.2: Ejemplo de la polıtica Siblings. Los cırculos denotan las clases enla jerarquıa mientras que los cuadrados punteados denotan los clasificadores.(A) Clasificacion cuya prediccion no es de solo nodos hoja. La prediccion deeste clasificador puede terminar en cualquier nodo, ya sea un nodo hoja o unnodo interno. (B) Clasificacion cuya prediccion es de solo nodos hoja. Laprediccion de este clasificador debe terminar en un nodo hoja.

La fase de entrenamiento del clasificador jerarquico multidimensional sigue los

mismos pasos que el metodo tradicional de clasificacion jerarquico, Top-Down. La

diferencia entre ambos metodos radica en la fase de prueba.

El algoritmo que se sigue durante la fase de entrenamiento es el siguiente:

1. Se eligen los ejemplos de entrenamiento para cada nodo padre de la jerarquıa

siguiendo la polıtica Siblings.

2. De acuerdo con los ejemplos elegidos en cada nodo padre se construye el

modelo de clasificacion con el algoritmo de clasificacion elegido.

El clasificador jerarquico multidimensional, en la fase de clasificacion, toma en con-

sideracion la probabilidad predicha por cada clasificador para realizar la prediccion

de un nuevo ejemplo. Para la fase de clasificacion definimos a X = {x1, x2, ..., xn}como el conjunto de todos los ejemplos de prueba y a C = {c1, c2, ..., cl} como el

conjunto de todos los clasificadores en la jerarquıa. Cada ejemplo de prueba xi es

clasificado por cada uno de los cj clasificadores en la jerarquıa, de tal forma que

cada uno de esos clasificadores predice la probabilidad de que ese ejemplo perte-

nezca a una de las clases de su nodo correspondiente. En esta fase el clasificador

puede utilizar uno de tres posibles metodos para seleccionar la “mejor” rama de la

jerarquıa, todos ellos basados en las probabilidades predichas por cada clasificador

de nodo padre, estos metodos son:


1. Metodo basado en el producto de probabilidades.

2. Metodo basado en la suma de probabilidades.

3. Metodo basado en el ordenamiento descendente de probabilidades.

La fase de clasificacion finaliza con la prediccion de uno de los nodos hoja de la

jerarquıa. Sin embargo, la prediccion final del metodo tambien puede ser un nodo

interno. Para conseguir esto aplicamos el sistema de paro basado en ganancia de

informacion.

A continuacion se describen las tres alternativas para la etapa de clasificacion.

Tambien se detalla el metodo de ganancia de informacion mismo que lleva a cabo

la prediccion final del clasificador

4.1.1. Metodo Basado en el Producto de Probabilidades

El metodo basado en el producto de probabilidades lleva a cabo el producto de las

probabilidades predichas de los clasificadores de cada rama de la jerarquıa durante

la fase de clasificacion. El producto de probabilidades se realiza en cada rama de

la jerarquıa, siendo la prediccion final de este metodo la rama cuyo producto haya

sido el mayor. La ecuacion 4.1 describe el producto de probabilidades para las

y ramas del arbol, donde: Pi es la probabilidad de la clase i de la rama j. Sin

embargo, los resultados obtenidos deben ser normalizados con el fin de no tener

preferencias por las ramas mas cortas. La normalizacion de los resultados se realiza

utilizando la ecuacion 4.2, donde y es el numero de ramas y R es el conjunto de

resultados obtenidos de la ecuacion 4.1. Finalmente se elige la rama cuyo resultado

haya sido el mayor. En la figura 4.3 se muestra un ejemplo de este metodo. En (A)

se muestran las clases de la jerarquıa. El primer paso consiste en que el ejemplo de

prueba sea tomado como entrada por cada clasificador en la jerarquıa. El resultado

del primer paso son las probabilidades predichas por cada clasificador para cada

una de las clases asociadas al mismo. El segundo paso consiste en multiplicar las

probabilidades de cada clase en cada una de las ramas de la jerarquıa. Finalmente,

del resultado de las operaciones anteriores se elegira la rama cuyo resultado haya

sido el mayor, para el caso particular de la figura 4.3 la primera rama resulta ser

la eleccion para el ejemplo x.


Rj =n∏i=1

Pi donde n son los nodos de la rama j (4.1)

Rj =Rj∑yi=1Ri

(4.2)

Figura 4.3: Metodo basado en el Producto de Probabilidades. Los cırculos dela parte (A) denotan las clases en la jerarquıa mientras que los cuadradospunteados denotan los clasificadores en la misma. Los cırculos de la parte (B),exceptuando a la raız, representan las probabilidades predichas por losclasificadores. El primer paso clasifica el ejemplo x en cada clasificador.Finalmente, el paso 2 multiplica las probabilidades predichas por losclasificadores para cada clase. La rama en cırculos rojos es la de mejorprobabilidad, por lo que x se clasifica con las clases 1 y 1.1.

La figura 4.4 ilustra la diferencia entre el metodo basado en el producto de pro-

babilidades del clasificador jerarquico multidimensional y el metodo Top-Down.

En dicha figura se ilustra como durante el proceso de clasificacion el metodo Top-

Down explora una sola rama de la jerarquıa mientras que el metodo basado en el

producto de probabilidades explora todas las ramas de la jerarquıa.

4.1.2. Metodo Basado en la Suma de Probabilidades

Este segundo metodo, basado en la suma de probabilidades, toma en consideracion

todas las probabilidades predichas en cada rama de la jerarquıa durante la fase de

clasificacion, lo anterior al sumar la probabilidad predicha por cada nodo de cada

rama. La ecuacion 4.3 describe la suma de probabilidades para las y ramas de la

jerarquıa, donde: Pi es la probabilidad de la clase i en la rama j. Tal como sucede


Figura 4.4: Diferencia entre el metodo Top-Down y el producto deprobabilidades. (A) clasificador jerarquico local. Los cırculos denotan lasclases en la jerarquıa mientras que los cuadrados punteados denotan losclasificadores en la misma. (B) Resultado, nodos color rojo, al aplicar elmetodo Top-Down a la parte (A). (C) Resultado, nodos color rojo, trasaplicar el producto de probabilidades a la parte (A). Los cırculos, exceptuandoa la raız, representan las probabilidades predichas por los clasificadores.

con el metodo anterior, se deben normalizar las predicciones obtenidas con el fin

de no favorecer a las ramas mas extensas. La normalizacion de cada subarbol se

realiza utilizando la ecuacion 4.4, donde y es el numero de ramas y R es el conjunto

de resultados obtenidos de la ecuacion 4.3. La rama cuya suma haya sido la mayor

sera la prediccion final de este metodo. La figura 4.5 ilustra este metodo.

Rj =n∑i=1

Pi donde n son los nodos de la rama j (4.3)

Rj =Rj∑yi=1Ri

(4.4)

La figura 4.6 ilustra la diferencia entre el metodo basado en la suma de proba-

bilidades del clasificador jerarquico multidimensional y el metodo Top-Down. En


Figura 4.5: Metodo basado en la suma de Probabilidades. Los cırculos de laparte (A) denotan las clases en la jerarquıa mientras que los cuadradospunteados denotan los clasificadores en la misma. Los cırculos de la parte (B),exceptuando a la raız, representan las probabilidades predichas por losclasificadores. Primero se clasifica el ejemplo de prueba x en todos losclasificadores de la jerarquıa, y luego se suman las probabilidades predichas encada rama, resultando la rama de mejor probabilidad.

dicha figura se ilustra como durante el proceso de clasificacion el metodo Top-

Down explora una sola rama de la jerarquıa mientras que el metodo basado en el

producto de probabilidades explora todas las ramas de la jerarquıa.

4.1.3. Metodo Basado en el Ordenamiento Descendente de

Probabilidades

Este metodo ordena en una lista descendente los nodos de la jerarquıa de acuer-

do a las probabilidades predichas por cada uno de los clasificadores de la misma

durante la fase de clasificacion. De acuerdo a este ordenamiento el metodo se en-

cargara de verificar cada nodo de la lista en busca de la ocurrencia de todos los

nodos de cualquiera de las ramas de la jerarquıa. La prediccion final sera aquella

rama que ocurra primero durante la busqueda realizada por el metodo. La figura

4.7 ilustra este metodo. La tabla 4.1 muestra el algoritmo de este metodo. Des-

pues de que un ejemplo x haya sido clasificado por todos los clasificadores de la

jerarquıa, las probabilidades predichas por estos son utilizadas para ordenar to-

dos los nodos de una forma descendente. Como ultimo paso el metodo buscara la

ocurrencia de cualquiera de las ramas de la jerarquıa, de tal forma que el metodo

finalizara cuando todos los nodos de una rama hayan sido encontrados.


Figura 4.6: Diferencia entre el metodo Top-Down y la suma deprobabilidades. (A) clasificador jerarquico local. Los cırculos denotan lasclases en la jerarquıa mientras que los cuadrados punteados denotan losclasificadores en la misma. (B) Resultado, nodos color rojo, al aplicar elmetodo Top-Down a la parte (A). (C) Resultado, nodos color rojo, trasaplicar la suma de probabilidades a la parte (A). Los cırculos, exceptuando ala raız, representan las probabilidades predichas por los clasificadores.

La figura 4.8 ilustra la diferencia entre el metodo basado en el ordenamiento des-

cendente de probabilidades del clasificador jerarquico multidimensional y el meto-

do Top-Down. En dicha figura se ilustra como durante el proceso de clasificacion el

metodo Top-Down explora una sola rama de la jerarquıa mientras que el metodo

basado en el producto de probabilidades explora todas las ramas de la jerarquıa.

4.1.4. Ganancia de Informacion

El metodo de ganancia de informacion es aplicado a la prediccion final realizada

por cualquiera de los metodos del clasificador jerarquico multidimensional y mide

el grado de confianza que existe en tal prediccion. El metodo sigue una verificacion

de tipo Bottom-up. Lo anterior significa que el metodo es aplicado a las predicciones

de los clasificadores que se encuentran en el nivel inferior del arbol, de tal forma

que si existe mucha incertidumbre en la prediccion del nodo entonces el metodo

sube un nivel y aplica el mismo metodo a las predicciones del clasificador de ese


Tabla 4.1: Algoritmo de ordenamiento descendente de probabilidades.

Algoritmo de ordenamiento descendente de probabilidadesRequiere :

P(conjunto ordenado descendentemente de clases)de acuerdo con las probabilidades predichas)

TP(tamano del conjunto P)Nr(numero de clases por rama)

Asegurar:C prediccion finalContador1, ..., Contadorr ← 0 . inicializacion de los contadores

para las clases de cada ramapara i← 1 hasta TP hacer

clase ← P(i)rama ← bucarRama(clase) Se busca la rama de la claseContadorrama ← Contadorrama +1 . se aumenta

el contador de la ramasi Nrama = Contadorrama

terminar el ciclofin para

C ← clases de la rama

nivel. La verificacion se realiza de manera recursiva hasta llegar a un nodo con

poca incertidumbre o hasta llegar al primer nivel de la jerarquıa. El metodo de

ganancia de informacion (GI) esta basado en la ecuacion (4.5)

GI = Ent(ParentC(i))−∑j=1

wChildj(i) ∗ Ent(Childj(i)) (4.5)

Ent = −∑i=1

pilog2(pi) (4.6)

Ent representa a la entropıa, ParentC(i) es el clasificador padre del nodo i, Childj(i)

son los j hijos del clasificador del nodo i y w es el peso de cada clase en i. El peso

de cada clase corresponde al numero de ejemplos de dicha clase dividido entre el

numero total de ejemplos del nodo i.

En la ecuacion (4.6), pi denota la probabilidad predicha por el clasificador para la

clase i. Hay que tomar en consideracion que la entropıa es calculada en cada clasi-

ficador de nodo padre (Ent(ParentC(i))) y en cada uno de sus correspondientes

clasificadores de los nodos hijo (Ent(Childj(i)).


Figura 4.7: Metodo basado en el Ordenamiento Descendente deProbabilidades. Los cırculos de la parte (A) denotan las clases en la jerarquıamientras que los cuadrados punteados denotan los clasificadores en la misma.Los cırculos de la parte (B), exceptuando a la raız, representan lasprobabilidades predichas por los clasificadores. La parte (C) muestra las clasesordenadas de acuerdo a la probabilidad predicha en la parte (B), los cırculosrojos, en (c) representan las clases de la rama seleccionada del ejemplo deprueba.

Si la GI es menor a 0, la prediccion del ejemplo no resultarıa ser tan confiable,

en otras palabras, existirıa mucha incertidumbre en el clasificador. La formula es

aplicada de manera iterativa hasta que ocurra una de dos posibles situaciones:

se alcanza el primer nivel de la jerarquıa o el resultado de la ecuacion (4.5) es

mayor que cero. La peor situacion que se podrıa manifestar serıa la de alcanzar el

primer nivel de la jerarquıa, lo cual significarıa que ninguno de los clasificadores

obtuvo la confianza suficiente en el resultado de su prediccion. Por ejemplo en la

figura 4.5, La prediccion del clasificador jerarquico multidimensional aplicando el

metodo de suma de probabilidades es el nodo hoja 1.1. En esta fase se aplica el

sistema de paro y si el resultado de la ecuacion 4.5 es mayor que cero entonces la

prediccion final del clasificador jerarquico multidimensional aplicando el sistema

de paro sera el nodo 1.1. Sin embargo, si el resultado de la ecuacion 4.5 es menor

a cero entonces se aplica la misma ecuacion al nodo padre del nodo 1.1, en este

caso, el nodo 1 pero el nodo 1 es el nodo padre de la rama por tanto la prediccion

del clasificador jerarquico multidimensional aplicando el sistema de paro sera este

nodo.


Figura 4.8: Diferencia entre el metodo Top-Down y el ordenamientodescendente de probabilidades. (A) clasificador jerarquico local. Los cırculosdenotan las clases en la jerarquıa mientras que los cuadrados punteadosdenotan los clasificadores en la misma. (B) Resultado, nodos color rojo, alaplicar el metodo Top-Down a la parte (A). (C) Resultado, nodos color rojo,tras aplicar el ordenamiento descendente de probabilidades a la parte (A). Loscırculos, exceptuando a la raız, representan las probabilidades predichas porlos clasificadores.

4.2. Clasificador Jerarquico Encadenado

El clasificador jerarquico encadenado incorpora dependencia entre las clases de

la jerarquıa al anadir como un atributo adicional al espacio de caracterısticas del

ejemplo de prueba la probabilidad predicha por los clasificadores encadenados de

la rama de la jerarquıa. De acuerdo a lo anterior, los clasificadores en cada rama

son encadenados de tal forma que la raız es el clasificador que inicia la cadena en

cada rama. Recordemos que las clases de un problema de tipo jerarquico tienen

un orden preestablecido y por tanto el orden de los clasificadores en la cadena esta

igualmente definido.

El proceso de encadenamiento en este clasificador, tal como en los trabajos de

[Read et al., 2009] y [Zaragoza et al., 2011], consiste en anadir como un atributo

adicional al espacio de caracterısticas del ejemplo de prueba la probabilidad predi-

cha por cada clasificador de la rama del arbol. En el caso del clasificador jerarquico


encadenado, se incorporan como caracterısticas adicionales las probabilidades de

los ascendientes del nodo en la jerarquıa.

El proceso de entrenamiento sigue el algoritmo propuesto originalmente en el tra-

bajo de [Read et al., 2009]. Sin embargo, la unica diferencia es que al espacio de

caracterısticas de cada ejemplo no le es anadida la clase sino que le es anadida la

probabilidad de que dicho ejemplo pertenezca a la clase en cuestion. Durante el

proceso de clasificacion primero se realiza la prediccion del clasificador del nodo

raız, anadiendo la probabilidad predicha por este a los ejemplos de entrenamiento,

despues se realiza la prediccion de los clasificadores del primer nivel y ası sucesi-

vamente hasta llegar al ultimo clasificador. La prediccion final para este metodo

sera la clase cuya probabilidad haya sido la mayor.

Para la fase de clasificacion definimos a X = x1, x2, ..., xj como el conjunto de

ejemplos de prueba y a Y = {y1, y2..., yi} como el conjunto de clases pertenecientes

al nodo. Un ejemplo de prueba xj recorrera cada una de las ramas de la jerarquıa

con el objetivo de contemplar todas los posibles caminos. Sin embargo, el proceso

de encadenamiento es independiente a cada rama. El proceso de encadenamiento

consiste en anadir, como un atributo adicional al espacio de caracterısticas de cada

ejemplo de prueba, la probabilidad de que xj pertenezca a la clase yi a lo largo

de todos los niveles de la jerarquıa. Por tanto, a cada ejemplo del conjunto de

prueba se le anaden tantos atributos como niveles tenga la rama correspondiente

de la jerarquıa. La figura 4.9 ilustra a este clasificador. Para esta figura el proceso

de encadenamiento inicia en el nodo raız (R). La probabilidad predicha por el

clasificador R de que cada ejemplo xj pertenezca a la clase 1 de la jerarquıa es

anadida como un atributo adicional a cada uno de estos ejemplos. Igualmente, la

probabilidad predicha por el clasificador R de que cada ejemplo xj pertenezca a la

clase 3 de la jerarquıa es anadida como un atributo adicional a cada uno de estos

ejemplos. Los clasificadores del siguiente nivel clasificaran los xj ejemplos.

4.3. Resumen

En este capıtulo se ha descrito el metodo propuesto de la presente tesis: el clasifica-

dor jerarquico multidimensional (CJM). Este metodo considera la informacion de

todas las ramas, a traves de las predicciones de los clasificadores, para realizar la

prediccion de un nuevo ejemplo. Para este clasificador jerarquico se han propuesto


Figura 4.9: Clasificador jerarquico encadenado. Los cırculos denotan a lasclases mientras que los recuadros punteados representan a los clasificadores.Las flechas solidas representan la relacion entre las clases mientras que lasflechas punteadas representan el encadenamiento entre los clasificadores. Elrecuadro (A) representa los atributos de los ejemplos de la clase 1 (A1, ..., An)junto con el atributo adicional que es la probabilidad predicha por elclasificador R (PR1) de que el ejemplo x pertenezca a la clase 1. El recuadro(B) representa los atributos de los ejemplos de la clase 3 (A1, ..., An) junto conel atributo adicional que es la probabilidad predicha por el clasificador R(PR3) de que el ejemplo x pertenezca a la clase 3.

tres metodos que combinan las probabilidades predichas por cada clasificador para

generar una prediccion final. La combinacion de las probabilidades explora los re-

sultados de todas las ramas con el fin de tener una vision global y con ello elegir el

mejor camino para cada ejemplo de prueba. En contraste, los metodos Top-Down

y Top-down con seleccion de clasificadores siguen un unico camino, mismo que es

trazado por la prediccion del clasificador correspondiente en cada nivel. Ademas,

el metodo Top-Down con seleccion de clasificadores anade mayor complejidad al

seleccionar para cada nodo el mejor clasificador de una lista preestablecida.

Igualmente, en este capıtulo se presento un nuevo sistema de paro, basado en

ganancia de informacion, que mide la confianza que existe en la prediccion final

del CJM y, ademas, permite realizar predicciones en nodos internos de la jerarquıa.

Los metodos tradicionales de paro estan basados en umbrales y siguen un esquema

de tipo Top-Down.

Finalmente, se presento el clasificador jerarquico encadenado (CJE). Este metodo


anade, como atributos adicionales, las probabilidades predichas por cada clasi-

ficador al espacio de caracterısticas de cada ejemplo. A diferencia del metodo

tradicional de clasificacion Top-Down, este nuevo enfoque permite establecer una

nueva relacion padre-hijo incorporando dependencia entre las clases a traves de la

probabilidad predicha por los clasificadores de cada rama en la jerarquıa.

El siguiente capıtulo presentan los experimentos realizados con lo metodos expues-

tos en este capıtulo comparandolos con los metodos tradicionales de clasificacion

jerarquica Top-Down y Top-Down con seleccion de clasificadores.

Capıtulo 5

Experimentos y Resultados

Este capıtulo esta enfocado en los experimentos realizados y en los resultados

obtenidos de los mismos. Los primeros experimentos comparan el modelo de cla-

sificacion jerarquico encadenado con el mismo modelo de clasificacion pero sin

encadenamiento. Despues, se prueba la misma idea de encadenamiento pero con

el clasificador jerarquico Top-Down. Los experimentos realizados con el clasifica-

dor jerarquico multidimensional aplican los tres metodos propuestos (producto de

probabilidades, suma de probabilidades y ordenamiento descendente de probabi-

lidades) con y sin el sistema de paro basado en ganancia de informacion. Igual-

mente, se aplicaron los tres metodos propuestos, con y sin el sistema de paro, al

clasificador jerarquico encadenado para comparar estos nuevos resultados con los

obtenidos con el clasificador jerarquico multidimensional. Los ultimos resultados

del clasificador jerarquico encadenado y los resultados del clasificador jerarquico

multidimensional son comparados con los casos base. Finalmente, para los expe-

rimentos se utilizaron las bases de datos IAPR-TC12, Reuters-21578 y FunCat de

las areas de imagenes, textos y bioinformatica respectivamente.

En la siguiente seccion se expondra un breve analisis de las bases de datos, de-

tallandose cada una de estas en el apendice A. Despues, se expondran los casos

base que se utilizaron como comparacion con el metodo propuesto y finalmente, se

presentan los experimentos y resultados obtenidos, ası como un analisis de estos

mismos.

55

Capıtulo 5: Experimentos y Resultados 56

Tabla 5.1: Conjuntos de datos utilizados en los experimentos.

Bases de datos Tipos de # de ejemplos Niveles #Atributos Tipo deBases de datos jerarquıa

IAPR-TC12* Imagenes 45347 2 23 Arbol

FunCat** Bioinformatica 1433 3 77 Arbol

Reuters-21578 Textos 6274 2 16145 Arbol* Se considera unicamente la rama Landscape de la jerarquıa original.** Se considera unicamente el conjunto de datos CellCycle de la B.D.

5.1. Bases de Datos

En el ambito de la clasificacion jerarquica no existe un repositorio donde adquirir,

de manera sencilla, bases de datos de esta naturaleza. Sin embargo, se busco ob-

tener diversas bases de datos con el fin de probar el metodo propuesto y con ello

comparar los resultados en bases de datos de diferente naturaleza. Las bases de

datos con las que se trabajo fueron las siguientes:

1. Base de Datos IAPR-TC12.

2. Base de Datos FunCat (Functional Catalogue).

3. Base de Datos Reuters-21578.

La tabla 5.1 muestra un cuadro con cada una de las bases de datos mencionadas

anteriormente. En el apendice A se detalla cada una de ellas.

5.2. Casos Base

Los casos base, con los que se compara el metodo propuesto, son los metodos de

clasificacion jerarquica mas difundidos y que de acuerdo al estado del arte son: el

metodo Top-Down y el metodo Top-Down con seleccion de clasificadores. Siendo

este ultimo uno de los metodos que presenta mejores resultados.


5.3. Construccion de los Clasificadores Base de

la Jerarquıa

La construccion de los clasificadores implica el agrupamiento ascendente de las cla-

ses. La figura 5.1 ilustra el proceso que se sigue para agrupar las clases de acuerdo

a la taxonomıa de la base de datos. De acuerdo con la figura antes mencionada los

subconjuntos (S1, ..., St), correspondientes a las clases hoja de cada rama de la je-

rarquıa, representadas en la figura con los cırculos de contorno azul, conforman los

ejemplos de entrenamiento para los clasificadores del nivel superior, representados

en la figura con los cırculos de color azul. A su vez, una copia de los ejemplos de

los nodos color azul son re-etiquetados con la clase correspondiente a la del nodo

color azul y fusionados en un unico nodo, el nodo raız, para conformar el conjunto

de entrenamiento del clasificador del nodo raız.

Los clasificadores de la jerarquıa fueron construidos siguiendo la polıtica Siblings.

De acuerdo con esta, para clasificaciones cuya prediccion no es de solo nodos hoja

los ejemplos de cada clasificador corresponden a los ejemplos del nodo donde se

encuentra sumado con los ejemplos de todos sus nodos descendientes. Para clasi-

ficaciones cuya prediccion es de solo nodos hoja los ejemplos de cada clasificador

corresponden a los ejemplos de todos los nodos descendientes al nodo del clasi-

ficador. Para el metodo Top-Down, el clasificador jerarquico multidimensional y

el clasificador jerarquico encadenado se opto por utilizar unicamente uno de dos

clasificadores: Random Forest o Naive Bayes. De esta forma, para cada uno se cons-

truyeron dos arboles por cada base de datos, uno por cada clasificador. Finalmente,

para el caso del metodo Top-Down con seleccion de clasificadores unicamente se

construyo un arbol que contempla diferentes tipos de clasificadores base.

La siguiente seccion presenta los experimentos realizados con los metodos propues-

tos y con los casos base para las tres bases de datos.

5.4. Experimentos

Los experimentos presentados en esta seccion corresponden a los metodos propues-

tos, clasificador jerarquico multidimensional y clasificador jerarquico encadenado,

y los metodos del estado del arte, Top-Down y Top-Down con seleccion de clasifi-

cadores, sobre los cuales se realizara la comparacion con el metodo propuesto.


Figura 5.1: Construccion de los clasificadores base de la jerarquıa. Loscırculos en la imagen representan las clases y los recuadros punteadosrepresentan a los clasificadores. (A) el conjunto de datos D es dividido en Stsubconjuntos. (B) cada subconjunto contiene ejemplos de las clases de tipohoja, representadas con los cırculos de contorno azul. (C) Los ejemplos de losnodos hoja son fusionados en un nuevo nodo, cırculo de color azul, paraconformar el conjunto de entrenamiento del clasificador del nodo. Finalmentetodos los ejemplos de los nodos de color azul son fusionados en un nuevo yunico nodo que representa la raız de la jerarquica, cırculo color negro, paraconformar el conjunto de entrenamiento del nodo raız.

5.4.1. Clasificador Jerarquico con y sin Encadenamiento

Los experimentos realizados en esta seccion son clasificaciones a nivel de hojas ba-

jo el esquema de 5 fold-cross validation utilizando los clasificadores Naive Bayes y

Random Forest. Los resultados fueron evaluados utilizando la medida de precision

estandar. Los primeros experimentos realizados con el clasificador jerarquico enca-

denado (CJE) comparan el desempeno de este contra el mismo esquema de clasifi-

cacion pero sin encadenamiento. El metodo de clasificacion jerarquico encadenado

realiza la clasificacion explorando todas las ramas de la jerarquıa comenzando des-

de la raız, mientras que el metodo de clasificacion sin encadenamiento realiza la

clasificacion solo en los ultimos clasificadores de cada rama. La prediccion final en

ambos esquemas sera la hoja cuya probabilidad haya resultado ser la mayor.


Tabla 5.2: Resultados de los experimentos realizados con el metodo declasificacion jerarquico encadenado y el esquema sin encadenamiento para labase de datos IAPR-TC12 evaluados con la medida de precision estandar.Los mejores resultados, para cada columna, se encuentran resaltados ennegrita.

Clasificador Tomando en Sin tomar en cuenta Sin repetidos utilizandocuenta repetidos repetidos probabilidad a priori

EncadenadoNaive Bayes 25.17 % 2.57 % 12.83 %Random Forest 25.77 % 8.02 % 21.48 %

Sin encadenamientoNaive Bayes 24.89 % 3.29 % 13.27 %Random Forest 22.97 % 9.14 % 22.12 %

Tabla 5.3: Resultados de los experimentos realizados con el metodo declasificacion jerarquico encadenado y el esquema sin encadenamiento para labase de datos FunCat evaluados con la medida de precision estandar. Losmejores resultados, para cada columna, se encuentran resaltados en negrita.


EncadenadoNaive Bayes 23.02 % 3.17 % 11.27 %Random Forest 14.13 % 12.06 % 13.33 %


Uno de los principales problemas con los esquemas de clasificacion jerarquico en-

cadenado y sin encadenamiento es el tomar en consideracion unicamente a la hoja

cuya probabilidad haya sido la mas alta, debido a que dos o mas hojas pueden

llegar a tener una misma probabilidad. Por lo anterior los resultados en los experi-

mentos consideraron tres posibles escenarios: (i) tomando en cuenta repetidos, (ii)

sin tomar en cuenta repetidos y (iii) utilizar la probabilidad a priori de cada clase

hoja como metodo para evitar empates. El escenario (i) considera la prediccion co-

mo correcta siempre y cuando la clase real del ejemplo de prueba se encuentra en el

conjunto de clases de probabilidad mas alta y que hayan sido iguales. El escenario

(ii) toma como correcto un resultado si la clase predicha es la clase real del ejemplo

de prueba y ademas no se presenta el escenario (i). Finalmente, el escenario (iii)

utiliza la probabilidad a priori de cada clase hoja para evitar el problema del esce-

nario (i). Este ultimo escenario es un esquema intermedio entre los escenarios (i)

y (ii), dado que evita empates entre las clases predichas. Los resultados obtenidos

en estos experimentos se ilustran en las tablas 5.2,5.3 y 5.4 que corresponden a las

bases de datos IAPRTC-12, FunCat y Reuters, respectivamente.


Tabla 5.4: Resultados de los experimentos realizados con el metodo declasificacion jerarquico encadenado y el esquema sin encadenamiento para labase de datos Reuters evaluados con la medida de precision estandar. Losmejores resultados, para cada columna, se encuentran resaltados en negrita.


EncadenadoNaive Bayes 78.81 % 0 % 68.75 %Random Forest 45.54 % 35.82 % 45.27 %

Sin encadenamientoNaive Bayes 78.89 % 0 % 68.79 %Random Forest 42 % 26.14 % 41.39 %

Los resultados obtenidos muestran que aplicar el metodo de encadenamiento pro-

puesto a un esquema de clasificacion jerarquico no tiene un impacto significativo

en el proceso de clasificacion ya que los resultados son similares y en muchos casos

menores al metodo sin encadenamiento. Lo anterior se debe a que la informacion

anadida al espacio de caracterısticas de los ejemplos de prueba no esta ayudando

al proceso de clasificacion.

5.4.2. Clasificador Jerarquico Top-Down con y sin Enca-

denamiento

Se llevaron a cabo experimentos con el metodo de clasificacion Top-Down aplicando

encadenamiento. Para los experimentos con el clasificador Top-Down se utilizaron

los clasificadores Random Forest y Naive Bayes. La clasificacion es a nivel de hojas

bajo el esquema de 5 fold-cross validation y evaluando los resultados utilizando

la medida de precision estandar. Estas nuevas pruebas siguen el proceso de en-

trenamiento del metodo de encadenamiento. Durante el proceso de clasificacion el

ejemplo de prueba no es clasificado en todas las ramas de la jerarquıa, como en el

clasificador jerarquico encadenado, sino que ahora sigue el esquema de clasificacion

Top-Down, esto es, el ejemplo de prueba sigue la trayectoria que cada clasificador

le va indicando hasta llegar a un nodo hoja. Los resultados de estas pruebas se

muestran en la tabla 5.5.

Los resultados obtenidos, al igual que los resultados de la seccion anterior, mues-

tran que aplicar el metodo de encadenamiento a un esquema de clasificacion

jerarquico de tipo Top-Dawn no tiene un impacto en el proceso de clasificacion


Tabla 5.5: Resultados de los experimentos realizados con el metodo deTop-Down bajo el concepto de encadenamiento para las bases de datosIAPR-TC12, FunCat y Reuters evaluados con la medida de precisionestandar. Los mejores resultados para cada base de datos se encuentranresaltados en negrita.

Clasificador Top-DownIAPR-TC12 FunCat ReutersEncadenado

Naive Bayes 41.88 % 13.65 % 69.97 %Random Forest 48.66 % 9.68 % 76.14 %


ya que los resultados son en casi todos los casos menores al metodo Top-Down sin

encadenamiento.

5.4.3. Clasificador Jerarquico Multidimensional y Ganan-

cia de Informacion

El clasificador jerarquico multidimensional contempla la participacion de todos los

clasificadores en la jerarquıa para realizar la prediccion de un nuevo ejemplo. La

prediccion final es el resultado de la combinacion de las probabilidades predichas

en cada rama por cada clasificador a traves de uno de los tres metodos propuestos

(producto de probabilidades, suma de probabilidades y ordenamiento descenden-

te de probabilidades) aplicando o no el sistema de paro basado en ganancia de

informacion.

Los experimentos en esta seccion contemplan:

La prediccion de solo nodos hoja con los casos base y con los clasificadores

jerarquico encadenado y multidimensional cuando no se aplica el sistema de

paro propuesto.

La prediccion de nodos internos solo con los clasificadores jerarquico enca-

denado y multidimensional cuando se aplica el sistema de paro.

Aplicar el esquema de clasificacion de 5 fold-cross validation.

Evaluar los experimentos utilizando la medida de precision estandar y la

medida de precision jerarquica.


Utilizar los algoritmos de clasificacion Naive Bayes y Random Forest. Ex-

cepto para el caso de clasificador Top-Down con seleccion de clasificadores.

Para este clasificador se utilizan los siguientes algoritmos de clasificacion,

adicionales a los ya mencionados: Redes Bayesianas, SVM, 3 vecinos mas

cercanos, AdaBoost, PART y J48.

• La seleccion de clasificadores se realizo utilizando el esquema propuesto

en [Secker et al., 2007]. De acuerdo a lo anterior los diferentes algorit-

mos son probados en cada nodo bajo el esquema de 10 fold-cross valida-

tion utilizando el conjunto de entrenamiento. El clasificador selecciona-

do para cada nodo esta determinado por el porcentaje de clasificacion

obtenido.

Particularmente para el caso de los resultados evaluados con la medida de precision

estandar aplicando el sistema de paro, si el sistema indica que la prediccion del

clasificador es un nodo interno, entonces, un ejemplo x es tomado como positivo si

y solo si el ejemplo real y es descendiente del ejemplo x. Lo anterior tomando en

cuenta que la clase de un nodo hoja esta ligada con todas sus clases ascendientes.

Por ejemplo, en la figura 5.2, el resultado para un ejemplo de prueba x, tras aplicar

el sistema de paro, es el nodo 3 y el ejemplo real y de dicho ejemplo es 3.1, entonces,

dado que 3.1 es descendiente de 3 el ejemplo es tomado como positivo. Por otro

lado, la medida de precision jerarquica contempla este tipo de escenario.

Figura 5.2: Clasificador Local por Nodo Padre. Los cırculos denotan lasclases en la jerarquıa mientras que los cuadrados punteados denotan losclasificadores en la misma.

En las tablas 5.6, 5.7 y 5.8 se compara el uso del sistema de paro basado en

ganancia de informacion en los metodos jerarquico encadenado y jerarquico mul-

tidimensional con los resultados obtenidos sin utilizar ganancia de informacion en

los mismos metodos. Igualmente, se comparan los resultados obtenidos con los


Tabla 5.6: Resultados experimentales para la base de datos FUNCAT.Donde ODP es el metodo de Ordenamiento Descendente de Probabilidades,PP es el metodo de Producto de Probabilidades, SP es el metodo de Suma deProbabilidades y G.I. hace referencia al metodo de ganancia de informacion.Los resultados en negrita indican el mejor resultado para la columna de cadamedida de precision.

ODP PP SP Top-DownClasificador con G.I. % sin G.I. % con G.I. % sin G.I. % con G.I. % sin G.I. % %

Precision JerarquicaNaive Bayes 28.81 28.10 29.49 28.78 28.83 28.15 28.10Random Forest 30.55∗ 28.73∗ 28.82∗ 27.72 30.14∗ 28.84∗ 26.93Naive Bayes Encadenado 27.46∗ 26.30∗ 26.91∗ 26.03∗ 27.35∗ 28.15∗ 19.05Random Forest Encadenado 30.38∗ 28.99∗ 31.44∗ 26.77∗ 28.60∗ 28.84∗ 20.90Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 31.11

Precision EstandarNaive Bayes 22.38∗† 16.35† 22.22∗† 16.67† 22.7∗† 17.14† 16.35Random Forest 26.35∗† 15.87∗ 26.51∗† 17.94∗† 26.35 ∗† 18.22 ∗† 13.33Naive Bayes Encadenado 19.37∗† 13.65 18.73∗† 13.33 18.73∗† 13.33 13.65Random Forest Encadenado 23.33∗† 16.19∗† 26.71∗† 18.41∗† 23.49∗† 17.14∗† 9.68Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 14.92

Tabla 5.7: Resultados experimentales para la base de datos REUTERS.Donde ODP es el metodo de Ordenamiento Descendente de Probabilidades,PP es el metodo de Producto de Probabilidades, SP es el metodo de Suma deProbabilidades y G.I. hace referencia al metodo de ganancia de informacion.Los resultados en negrita indican el mejor resultado para la columna de cadamedida de precision.


Precision JerarquicaNaive Bayes 78.06∗ 76.64 78.15∗ 76.71 78.15∗ 76.71 76.11Random Forest 90.04∗ 84.53 90.04∗ 84.79 90.91∗ 85.29∗ 83.54Naive Bayes Encadenado 77.29 76.62 77.37 76.70 77.37 76.70 81.15Random Forest Encadenado 88.88∗ 82.95∗ 90.26∗ 84.22∗ 89.39∗ 83.71∗ 45.46Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 89.27

Precision EstandarNaive Bayes 75.69∗ 70.01 75.69∗ 70.01 75.69∗ 70.01 70.01Random Forest 90.51∗† 78.28 91.27∗† 79.04∗ 90.43∗† 78.96 77.32Naive Bayes Encadenado 72.45∗ 69.97 72.45∗ 69.97 72.45∗ 69.97 69.97Random Forest Encadenado 89.63∗ 76.18 90.97∗† 77.40 89.94∗† 77.40 76.14Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 85.40

metodos de clasificacion jerarquica Top-Down y Top-Down con seleccion de cla-

sificadores con los resultados obtenidos con los metodos jerarquico encadenado

y jerarquico multidimensional. Finalmente, se realizaron pruebas de significan-

cia estadıstica con los metodos propuestos, encadenado y multidimensional, y los

metodos Top-Down y Top-Down con seleccion de clasificadores. La significancia

estadıstica fue medida a traves de la prueba de t-test de dos colas con un nivel

de significancia de 0.05 y un intervalo de confidencia de 95 %. Cada celda tiene el

sımbolo “†” si el resultado reportado en la celda es estadısticamente superior al

metodo TopDown con seleccion de clasificadores y “∗” si el resultado reportado en

la celda es estadısticamente superior al metodo TopDown.


Tabla 5.8: Resultados experimentales para la base de datos IAPR-TC12.Donde ODP es el metodo de Ordenamiento Descendente de Probabilidades,PP es el metodo de Producto de Probabilidades, SP es el metodo de Suma deProbabilidades y G.I. hace referencia al metodo de ganancia de informacion.Los resultados en negrita indican el mejor resultado para la columna de cadamedida de precision.


Precision JerarquicaNaive Bayes 51.55∗† 50.68∗† 51.81∗† 50.84∗† 51.72∗† 50.82∗† 37.71Random Forest 59.13∗† 58.78∗† 54.62∗† 55.35∗† 58.01∗† 57.90∗† 44.65Naive Bayes Encadenado 51.44∗† 50.70∗† 51.78∗† 50.94∗† 51.67∗† 50.84∗† 14.33Random Forest Encadenado 59.37∗† 59.30∗† 57.95∗† 58.08∗† 54.20∗† 55.29∗† 22.15Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 45.19

Precision EstandarNaive Bayes 55.35∗† 39.28 55.59∗† 39.52 55.83∗† 39.76 41.72Random Forest 60.36∗† 47.17 60.36∗† 47.45 58.88∗† 46.73 47.98Naive Bayes Encadenado 55.07∗† 39.32 55.43∗† 39.68 55.51∗† 39.76 41.88Random Forest Encadenado 60.28∗† 48.06 59.92∗† 48.06 58.44∗† 47.05 48.66Seleccion de Clasificadores N/A N/A N/A N/A N/A N/A 49.38

Las pruebas de significancia estadıstica para las bases de datos Reuter-21578 y Fun-

Cat evaluadas con la medida de precision jerarquica demuestran que el clasificador

jerarquico multidimensional (CJM) y el clasificador jerarquico encadenado (CJE)

son estadısticamente mejor que el metodo Top-Down. Para el caso de las prue-

bas evaluadas con la medida de precision estandar el CJM y el CJE demuestran

ser estadısticamente mejor que el metodo Top-Down y Top-Down con seleccion

de clasificadores, utilizando como clasificador base Random Forest y aplicando el

sistema de paro basado en ganancia de informacion. Para el caso particular de

la base de datos IAPR-TC12 las pruebas de significancia estadıstica demuestran

que el CJM y el CJE son estadısticamente mejores que los metodos Top-Down

y Top-Down con seleccion de clasificadores para los resultados evaluados con las

medidas de precision jerarquica y estandar.

5.4.4. Tiempos

Otro experimento que se realizo fue el de medir los tiempos de entrenamiento y

clasificacion para los metodos mas destacados en las pruebas: jerarquico multidi-

mensional y seleccion de clasificadores. Para el caso del metodo de clasificacion

Top-Down con seleccion de clasificadores primero se tomo el tiempo de construc-

cion de cada modelo en cada uno de los nodos padre con cada uno de los cla-

sificadores utilizados. Una vez seleccionados los clasificadores se volvio a tomar

el tiempo de construccion del modelo en cada nodo padre tal como lo establece


Tabla 5.9: Tiempos de entrenamiento y clasificacion (en segundos) para cadaclasificador de la jerarquıa. Donde ODP hace referencia al metodo deOrdenamiento Descendente de Probabilidades, PP hace referencia almetodo Producto de Probabilidades y SP hace referencia al metodoSuma de Probabilidades. El resultado resaltado en negrita indica el tiempomas grande.

Classifier ODP PP SP Top-DownNaive Bayes 0.107 0.087 0.086 0.07Random Forest 0.808 0.779 0.778 0.67Naive Bayes Encadenado 0.131 0.108 0.107 0.09Random Forest Encadenado 0.798 0.769 0.768 0.66Seleccion de clasificadores N/A N/A N/A 3.07

el metodo. Despues se tomo el tiempo de clasificacion para finalmente sumar los

tiempos de entrenamiento y clasificacion. Para el caso del metodo de clasificacion

jerarquico multidimensional se tomo el tiempo de construccion del modelo en cada

uno de los nodos padre, despues se tomo el tiempo de clasificacion que incluye el

tiempo para cada metodo propuesto aplicando ganancia de informacion. Finalmen-

te se sumaron los tiempos de entrenamiento y clasificacion de dicho metodo. La

tabla 5.9 muestra los resultados globales de los modelos de clasificacion jerarquica

multidimensional y Top-Down con seleccion de clasificadores.

De la tabla anterior podemos concluir que el metodo de clasificacion Top-Down

con seleccion de clasificadores es aproximadamente 4 veces mas costoso en tiempo

en comparacion con el metodo mas costoso de los propuestos, que en este caso es

el de ordenamiento descendente de probabilidades utilizando Random Forest. Por

otro lado, en comparacion con el metodo menos costoso de los propuestos, suma

de probabilidades, este es aproximadamente 35 veces mas rapido que el metodo

Top-Down con seleccion de clasificadores. Finalmente, el clasificador jerarquico

multidimensional utilizando Naive Bayes y los metodos ODP, SP y PP es apro-

ximadamente 1.5, 1.2 y 1.2, respectivamente, veces mas costoso que el metodo

Top-Down utilizando el mismo clasificador. Los resultados son similares utilizando

el clasificador Naive Bayes encadenado. El clasificador jerarquico multidimensio-

nal utilizando Random Forest y los metodos ODP, SP y PP es aproximadamente

1.2, 1.1 y 1.1, respectivamente, veces mas costosos que el metodo Top-Down con el

mismo clasificador. Los resultados son similares utilizando el clasificador Random

Forest encadenado

Las caracterısticas del equipo con el que se realizaron los experimentos son: Proce-

sador Intel Core I5 a 2.53GHz con 6GB en RAM, utilizando el sistema operativo


Windows 7.

5.5. Analisis y Discusion

En este capıtulo se presentaron los experimentos y resultados del presente trabajo

de tesis. Para la mayorıa de los experimentos se utilizaron los clasificadores Naive

Bayes y Random Forest, excepto para los experimentos con el clasificador Top-

Down con seleccion de clasificadores para el cual se utilizaron los clasificadores

antes mencionados y otros 6 clasificadores adicionales. De acuerdo a los resultados

obtenidos podemos inferir lo siguiente:

El clasificador jerarquico multidimensional demuestra ser competitivo en dos

de las bases de datos en comparacion con el clasificador Top-Down con se-

leccion de clasificadores y estadısticamente mejor en la restante.

El clasificador jerarquico multidimensional es estadısticamente mejor, en

practicamente todos los resultados, que el clasificador jerarquico Top-Down.

Los tres metodos propuestos para el clasificador jerarquico multidimensional

(ODP, SP y PP) presentan resultados muy similares entre ellos.

Los resultados obtenidos al aplicar el nuevo sistema de paro, basado en

ganancia de informacion, a los metodos ODP, SP y PP son consistentemente

mejor que los resultados cuando no se aplico dicho sistema. Sin embargo, se

requieren realizar mas pruebas para poder validar este criterio, considerando

posiblemente otras medidas de evaluacion.

Las pruebas de tiempo indican que el clasificador jerarquico multidimensio-

nal es menos costoso que utilizar el clasificador Top-Down con seleccion de

clasificadores. El metodo Top-Down con seleccion de clasificadores es apro-

ximadamente 4 veces mas costoso que el metodo mas costoso del clasifica-

dor jerarquico multidimensional (ODP con Random Forest) y 35 veces mas

costoso que el metodo menos costoso del metodo propuesto (SP con Naive

Bayes). Mientras que las pruebas de tiempo entre el clasificador jerarqui-

co multidimensional y el clasificador jerarquico Top-Down muestran que el

metodo propuesto es ligeramente mas costoso que el clasificador jerarquico

Top-Down.


El clasificador jerarquico encadenado no produce una mejora significativa

debido a que en los experimentos se mantuvo igual o en muchos casos por

debajo de los diferentes metodos con los que fue comparado. Una hipotesis es

que el metodo original fue propuesto para clasificadores binarios y no multi-

clase. Se espera que en un trabajo a futuro se aplique este metodo utilizando

clasificadores binarios.

Capıtulo 6

Conclusiones y Trabajo a Futuro

6.1. Resumen

La tecnica de clasificacion jerarquica local considera a cada nodo como un pro-

blema de clasificacion plana independiente. Los metodos mas difundidos de esta

tecnica son el metodo Top-Down y el metodo Top-Down con seleccion de clasi-

ficadores, este ultimo es una extension del primero. Ambos metodos exploran un

unico camino en la jerarquıa; el clasificador de cada nivel marca el camino que

debe seguir cada ejemplo de prueba. Existen dos problemas principales con esta

tecnica: la inconsistencia y el problema del bloqueo. La inconsistencia se presen-

ta cuando una clasificacion erronea es propagada a todos los descendientes del

nodo en cuestion. El problema del bloqueo se presenta en problemas donde la

profundidad de clasificacion contempla a los nodos internos de la jerarquıa. Surge

cuando se trata de evitar la propagacion de errores a niveles inferiores, a expensas

de proporcionar al usuario predicciones menos especıficas tomando como base la

definicion de umbrales en cada nivel.

En este trabajo de tesis se propuso un nuevo metodo de clasificacion jerarquica

basado en la clasificacion multidimensional que busca minimizar el problema de in-

consistencia. Este metodo considera, para un mismo ejemplo de prueba, las proba-

bilidades predichas por cada clasificador en la jerarquıa. El clasificador jerarquico

multidimensional combina dichas probabilidades a traves de uno de los siguientes

metodos: ordenamiento descendente de probabilidades, suma de probabilidades y

producto de probabilidades. El primero ordena todas las probabilidades en una

lista descendente de tal forma que la ocurrencia de todos los nodos de una de las

69

Capıtulo 6:Conclusiones y Trabajo a Futuro 70

ramas en el ordenamiento marcara el fin del metodo. El segundo metodo suma las

probabilidades predichas por los clasificadores de una misma rama, esto se repi-

te para cada rama de la jerarquıa. El metodo elige el resultado cuya suma haya

sido la mas alta. El ultimo metodo multiplica la probabilidad predicha por cada

clasificador de una misma rama, esto se repite para cada rama de la jerarquıa.

El metodo elige el resultado cuyo producto haya sido el mas alto. Para estos dos

ultimos se deben de normalizar los resultados para evitar favorecer a las ramas

cortas, para el metodo de producto de probabilidades, o a las ramas largas, para

el metodo de suma de probabilidades. Igualmente, en este trabajo tambien se pro-

puso un nuevo sistema de paro basado en ganancia de informacion que permite

realizar una prediccion de nodos internos. Finalmente, se propuso el clasificador

jerarquico encadenado. Este metodo establece una dependencia entre los nodos de

cada rama de la jerarquıa al aplicar la tecnica de encadenamiento.

6.2. Conclusiones

Los experimentos realizados en este trabajo de tesis contemplaron el uso de tres

bases de datos de diferentes areas: AIPR-TC12 (imagenes), Reuters-21578 (tex-

tos) y FunCat (bioinformatica). De acuerdo con los resultados obtenidos, en gene-

ral, podemos concluir que los porcentajes de precision del metodo de clasificacion

jerarquico multidimensional son competitivos en comparacion con el metodo de

clasificacion jerarquico Top-Down con seleccion de clasificadores en dos de las bases

de datos (Reuters-21578 y FunCat) y estadısticamente superior en la base de datos

restante (IAPR-TC12). En comparacion con el metodo de clasificacion jerarquico

(Top-Down) los resultados obtenidos fueron estadısticamente superiores. Sin em-

bargo, existen diferencias entre el clasificador jerarquico multidimensional (CJM)

y el clasificador jerarquico Top-Down con seleccion de clasificadores (TDSC) que

vale la pena resaltar:

El CJM utiliza un unico algoritmo de clasificacion para todos los clasifica-

dores de los nodos padre en la jerarquıa mientras que el TDSC hace una

seleccion de entre varios algoritmos de una lista prestablecida.

El CJM considera todos los posibles caminos en la jerarquıa para realizar la

prediccion de un nuevo ejemplo mientras que el clasificador TDSC considera

un unico camino en la jerarquıa.


Para cada nodo padre de la jerarquıa el TDSC requiere de un pre-proceso

para la seleccion del algoritmo de clasificacion. Este pre-proceso requiere la

sub-division del conjunto de entrenamiento en dos nuevos subconjuntos: de

validacion y de entrenamiento. El CJM no requiere de tal pre-proceso.

Los tiempos de entrenamiento y clasificacion del CJM son menores que los

del clasificador TDSC.

Igualmente, los resultados obtenidos con el sistema de paro, basado en ganancia

de informacion, fueron muy favorables. Para el caso de las pruebas con la medida

de evaluacion jerarquica, los porcentajes de clasificacion, al aplicar este sistema, se

incrementaron en practicamente todos los casos en comparacion con los obtenidos

al aplicar unicamente el metodo CJM. Sin embargo, aun cuando los resultados

de los experimentos evaluados con la medida de precision estandar resultaron

ser satisfactorios, es igualmente cierto que aun falta realizar mas pruebas para

fortalecer estos resultados.

En general, el CJM puede ser utilizado en cualquier problema de clasificacion

jerarquico cuya taxonomıa sea de tipo arbol y la clasificacion sea de solo nodos

hoja o, igualmente, en clasificaciones que involucren nodos hoja y nodos internos.

Para este ultimo caso se tendrıa que utilizar el sistema de paro propuesto junto

con el CJM. Finalmente, el CJM alcanza mejores porcentajes de precision cuando

utiliza el algoritmo de clasificacion Random Forest.

Para el caso del clasificador jerarquico encadenado (CJE), los experimentos rea-

lizados demostraron que este metodo no mejora ni disminuye, significativamente,

los porcentajes de precision durante la clasificacion. Sin embargo, cabe destacar

que el metodo propuesto utiliza clasificadores multi-clase en lugar de clasificadores

binarios, como fue propuesto originalmente. Lo anterior, figura como una hipotesis

del por que este metodo no obtuvo los resultados esperados.

6.3. Contribuciones

En este trabajo de tesis se desarrollo un novedoso algoritmo de clasificacion jerarqui-

co multidimensional, contrario a los metodos mas difundidos en el area de clasifica-

cion jerarquica, este metodo considera todos los posibles caminos que un ejemplo


de prueba puede tomar en la jerarquıa. Dentro de las contribuciones que se hicieron

con este trabajo estan las siguientes:

Un nuevo algoritmo de clasificacion jerarquico multidimensional que toma

en consideracion todos los posibles caminos que un ejemplo de prueba puede

tomar en la jerarquıa y que ademas resulta ser competitivo con el metodo

Top-Down con seleccion de clasificadores.

Tres diferentes metodos para combinar la informacion de todos los posibles

caminos, que un ejemplo de prueba puede seguir en la jerarquıa, con el

objetivo de mejorar la prediccion.

Un nuevo sistema de paro basado en ganancia de informacion que permite

hacer predicciones en nodos internos. Este sistema es una variante a los

metodos tradicionales basados en umbrales.

Un nuevo algoritmo de clasificacion basado en el metodo de encadenamiento

utilizando clasificadores multi-clase.

6.4. Trabajo a Futuro

Como trabajo a futuro se encuentran los siguientes puntos:

Extender el clasificador jerarquico multidimensional de tal forma que pueda

resolver problemas que involucren una taxonomıa de tipo GAD.

Llevar a cabo una seleccion de clasificadores, en cada nodo de la jerarquıa,

junto con el clasificador jerarquico multidimensional.

Probar el metodo de encadenamiento en el area de clasificacion jerarquica

utilizando clasificadores binarios a lo largo de la jerarquıa.

Combinar lo realizado con algoritmos de clustering jerarquico.

Bibliografıa

[Alves et al., 2008] Alves, R. T., Delgado, M. R., and Freitas, A. A. (2008). Multi-

label hierarchical classification of protein functions with artificial immune sys-

tems. In Proceedings of the 3rd Brazilian symposium on Bioinformatics: Advan-

ces in Bioinformatics and Computational Biology, BSB ’08, pages 1–12, Berlin,

Heidelberg. Springer-Verlag.

[Barbedo and Lopes, 2007] Barbedo, J. G. A. and Lopes, A. (2007). Automa-

tic genre classification of musical signals. EURASIP J. Appl. Signal Process.,

2007(1):157–157.

[Barutcuoglu and DeCoro, 2006] Barutcuoglu, Z. and DeCoro, C. (2006). Hierar-

chical shape classification using bayesian aggregation. In Proceedings of the

IEEE International Conference on Shape Modeling and Applications 2006, SMI

’06, pages 44–, Washington, DC, USA. IEEE Computer Society.

[Barutcuoglu and DeCoro, 2006] Barutcuoglu, Z. and DeCoro, C. (2006). Hie-

rarchical shape classification using bayesian aggregation. In Shape Modeling

International, page 44. IEEE Computer Society.

[Breiman, 2001] Breiman, L. (2001). Random forests. Machine Learning, 45(1):5–

32.

[Burred and Lerch, 2003] Burred, J. J. and Lerch, A. (2003). a hierarchical ap-

proach to automatic musical genre classification. 6th Int. conference on digital

audio effects (DAFx-03), London, UK, September 8-11, 2003.

[Ceci and Malerba, 2007] Ceci, M. and Malerba, D. (2007). Classifying web docu-

ments in a hierarchy of categories: a comprehensive study. J. Intell. Inf. Syst.,

28(1):37–78.

73

Bibliografıa 74

[Clare and King, 2003] Clare, A. and King, R. D. (2003). Predicting gene function

in saccharomyces cerevisiae. Bioinformatics, 19:42–49.

[Costa et al., 2007] Costa, E., Lorena, A., Carvalho, A., and Freitas, A. (2007). A

review of performance evaluation measures for hierarchical classifiers. In Drum-

mond, C., Elazmeh, W., Japkowicz, N., and Macskassy, S., editors, Evaluation

Methods for Machine Learning II: papers from the AAAI-2007 Workshop, AAAI

Technical Report WS-07-05, pages 1–6. AAAI Press.

[D’Alessio et al., 2000] D’Alessio, S., Murray, K., Schiaffino, R., and Kershen-

baum, A. (2000). The effect of using hierarchical classifiers in text categori-

zation. In Proceeding of RIAO-00, 6th International Conference “Recherche

d’Information Assistee par Ordinateur”, pages 302–313, Paris, FR.

[Dimitrovski et al., 2011] Dimitrovski, I., Kocev, D., Loskovska, S., and Dzeroski,

S. (2011). Hierarchical annotation of medical images. Pattern Recognition,

44(10-11):2436–2449.

[Dumais and Chen, 2000] Dumais S. and Chen, H. (2000). Hierarchical classi-

fication of web content. In Proceedings of the 23rd annual international ACM

SIGIR conference on Research and development in information retrieval, SIGIR

’00, pages 256–263, New York, NY, USA. ACM.

[Eisner et al., 2005] Eisner, R., Poulin, B., Szafron, D., Lu, P., and Greiner, R.

(2005). Improving protein function prediction using the hierarchical structure of

the gene ontology. In Proceedings of the 2005 IEEE Symposium on Computatio-

nal Intelligence in Bioinformatics and Computational Biology, CIBCB 2005,

Embassy Suites Hotel La Jolla, La Jolla, CA, USA, November 14 and 15, 2005,

pages 354–363. IEEE.

[Escalante et al., 2010] Escalante, H. J., Hernandez, C. A., Gonzalez, J. A., Lopez-

Lopez, A., y Gomez, M. M., Morales, E. F., Sucar, L. E., Pineda, L. V., and

Grubinger, M. (2010). The segmented and annotated iapr tc-12 benchmark.

Computer Vision and Image Understanding, 114(4):419–428.

[Fagni and Sebastiani, 2007] Fagni, T. and Sebastiani, F. (2007). On the selec-

tion of negative examples for hierarchical text categorization. Symposium A

Quarterly Journal In Modern Foreign Literatures, pages 24–28.

[Freitas and de Carvalho, 2007] Freitas, A. and de Carvalho, A. C. (2007). A Tuto-

rial on Hierarchical Classification with Applications in Bioinformatics., volume

Bibliografıa 75

Research and Trends in Data Mining Technologies and Applications, chapter

VII, pages 175–208. Idea Group.

[Godbole and Sarawagi, 2004] Godbole, S. and Sarawagi, S. (2004). Discriminati-

ve methods for multi-labeled classification. In Dai, H., Srikant, R., and Zhang,

C., editors, PAKDD, volume 3056 of Lecture Notes in Computer Science, pages

22–30. Springer.

[Gordon, 1987] Gordon, A. D. (1987). A review of hierarchical classification. Jour-

nal of the Royal Statistical Society (A), 150(2):119–137.

[Gouyon et al., 2004] Gouyon, F., Dixon, S., Pampalk, E., and Widmer, G. (2004).

Evaluating rhythmic descriptors for musical genre classification. In Proceedings

of 25th International AES Conference, London, UK.

[Hao et al., 2007] Hao, P.-Y., Chiang, J.-H., and Tu, Y.-K. (2007). Hierarchically

svm classification based on support vector clustering method and its application

to document categorization. Expert Syst. Appl., 33(3):627–635.

[Holden and Freitas, 2008] Holden, N. and Freitas, A. A. (2008). Improving the

performance of hierarchical classification with swarm intelligence. In EvoBIO,

pages 48–60.

[Kiritchenko et al., 2005] Kiritchenko, S., Matwin, S., and Famili, A. F. (2005).

Functional annotation of genes using hierarchical text categorization. In in

Proc. of the BioLINK SIG: Linking Literature, Information and Knowledge for

Biology (held at ISMB-05).

[Koller and Sahami, 1997] Koller, D. and Sahami, M. (1997). Hierarchically clas-

sifying documents using very few words. In Proc. 14th International Conference

on Machine Learning, pages 170–178. Morgan Kaufmann.

[Li et al., 2007] Li, T., Zhu, S., and Ogihara, M. (2007). Hierarchical document

classification using automatically generated hierarchy. J. Intell. Inf. Syst.,

29(2):211–230.

[Lidy and Rauber, 2005] Lidy, T. and Rauber, A. (2005). Evaluation of feature

extractors and psycho-acoustic transformations for music genre classification.

In ISMIR, pages 34–41.

Bibliografıa 76

[Michie et al., 1994] Michie, D., Spiegelhalter, D. J., Taylor, C. C., and Campbell,

J., editors (1994). Machine learning, neural and statistical classification. Ellis

Horwood, Upper Saddle River, NJ, USA.

[Read et al., 2009] Read, J., Pfahringer, B., Holmes, G., and Frank, E. (2009).

Classifier chains for multi-label classification. In Proceedings of the European

Conference on Machine Learning and Knowledge Discovery in Databases: Part

II, ECML PKDD ’09, pages 254–269, Berlin, Heidelberg. Springer-Verlag.

[Rokach, 2010] Rokach, L. (2010). Pattern Classification Using Ensemble Methods.

Series in Machine Perception and Artificial Intelligence. World Scientific.

[Salton, 1971] Salton, G. (1971). The SMART Retrieval System Experiments in

Automatic Document Processing. Prentice-Hall, Inc., Upper Saddle River, NJ,

USA.

[Secker et al., 2010] Secker, A., Davies, M. N., Freitas, A. A., Clark, E. B., Timmis,

J., and Flower, D. R. (2010). Hierarchical classification of g protein coupled

receptors with data driven selection of attributes and classifiers. Int. J. Data

Min. Bioinformatics, 4(2):191–210.

[Secker et al., 2007] Secker, A., Davies, M. N., Freitas, A. A., Timmis, J., Mendao,

M., and Flower, D. R. (2007). An experimental comparison of classification

algorithms for the hierarchical prediction of protein function. In Freitas, A. A.,

editor, 3rd UK Data mining and Knowledge Discovery Symposium (UKKDD

2007), pages 13–18.

[Silla and Freitas, 2009] Silla, C. N. and Freitas, A. A. (2009). Novel top-down ap-

proaches for hierarchical classification and their application to automatic music

genre classification. In Proceedings of the 2009 IEEE international conference

on Systems, Man and Cybernetics, SMC’09, pages 3499–3504, Piscataway, NJ,

USA. IEEE Press.

[Silla and Freitas, 2011] Silla, Jr., C. N. and Freitas, A. A. (2011). A survey of hie-

rarchical classification across different application domains. Data Min. Knowl.

Discov., 22(1-2):31–72.

[Sun and Lim, 2001] Sun, A. and Lim, E.-P. (2001). Hierarchical text classifica-

tion and evaluation. In Proceedings of the 2001 IEEE International Conference

on Data Mining, ICDM ’01, pages 521–528, Washington, DC, USA. IEEE Com-

puter Society.

Bibliografıa 77

[Sun et al., 2003] Sun, A., Lim, E.-P., and Ng, W. K. (2003). Performance mea-

surement framework for hierarchical text classification. JASIST, 54(11):1014–

1028.

[Sun et al., 2004] Sun, A., Lim, E.-P., Ng, W.-K., and Srivastava, J. (2004). Bloc-

king reduction strategies in hierarchical text classification. IEEE Trans. on

Knowl. and Data Eng., 16(10):1305–1308.

[Toutanova et al., 2001] Toutanova, K., Chen, F., Popat, K., and Hofmann, T.

(2001). Text classification in a hierarchical mixture model for small training

sets. In CIKM, pages 105–112. ACM.

[Tsoumakas and Katakis, 2007] Tsoumakas, G. and Katakis, I. (2007). Multi-

label classification: An overview. IJDWM, 3(3):1–13.

[Tzanetakis and Cook, 2002] Tzanetakis, G. and Cook, P. R. (2002). Musical gen-

re classification of audio signals. IEEE Transactions on Speech and Audio Pro-

cessing, 10(5):293–302.

[Valentini, 2009] Valentini, G. (2009). True path rule hierarchical ensembles. In

Proceedings of the 8th International Workshop on Multiple Classifier Systems,

MCS ’09, pages 232–241, Berlin, Heidelberg. Springer-Verlag.

[Vens et al., 2008] Vens, C., Struyf, J., Schietgat, L., Dzeroski, S., and Blockeel,

H. (2008). Decision trees for hierarchical multi-label classification. Machine

Learning, 73(2):185–214.

[Wang et al., 2001] Wang, Zhou, and He (2001). Hierarchical Classification of Real

Life Documents.

[Wu et al., 2005] Wu, F., Zhang, J., and Honavar, V. (2005). Learning classifiers

using hierarchically structured class taxonomies. In Proceedings of the 6th in-

ternational conference on Abstraction, Reformulation and Approximation, SA-

RA’05, pages 313–320, Berlin, Heidelberg. Springer-Verlag.

[Yang and Liu, 1999] Yang, Y. and Liu, X. (1999). A re-examination of text ca-

tegorization methods. In Proceedings of the 22nd annual international ACM

SIGIR conference on Research and development in information retrieval, SI-

GIR ’99, pages 42–49, New York, NY, USA. ACM.

Bibliografıa 78

[Zaragoza et al., 2011] Zaragoza, J. H., Sucar, L. E., Morales, E. F., Bielza, C.,

and Larranaga, P. (2011). Bayesian chain classifiers for multidimensional clas-

sification. In IJCAI, pages 2192–2197.

Apendice A

Conjuntos de Datos

En el area de clasificacion jerarquica, no existe un repositorio donde se pue-

da obtener una base de datos de tipo jerarquica. Los trabajos relacionados con

la clasificacion jerarquica estan esparcidos en diferentes areas del conocimien-

to y por lo regular las caracterısticas extraıdas de las bases de datos utilizadas

son obtenidas a partir de un preprocesamiento realizado por los mismos auto-

res [Secker et al., 2010, Valentini, 2009]. Otras veces generan sus propias bases de

datos y su propia taxonomıa [Silla and Freitas, 2009] exponiendo unicamente los

pasos seguidos para su obtencion. A continuacion se presentan los tres conjuntos

de datos utilizados en los experimentos de esta tesis.

A.1. Funcat

El area de bioinformatica es una de las mas explotadas en la clasificacion jerarquica

debido a la importancia que tiene el poder distinguir las funciones mas especıfi-

cas de las proteınas que componen la taxonomıa. Una de las bases de datos mas

utilizada en esta area es la Gene Ontology1, cuya estructura jerarquica es de tipo

GAD. Otra base de datos, igualmente importante pero de menor tamano, es la

FunCat2, cuya taxonomıa es de tipo arbol. Dichas bases de datos forman parte

de una ontologıa que permite la descripcion funcional de las proteınas de cual-

quier organismo, sin embargo, los datos de estas bases de datos estan basados en

anotaciones, que son los datos capturados acerca de un producto genetico.

1http://www.geneontology.org/2http://mips.helmholtz-muenchen.de/proj/funcatDB/

79

Apendice A. Conjunto de Datos 80

Tabla A.1: Resumen de los 12 conjuntos de datos pertenecientes a la base dedatos FunCat.

Dataset #Atributos Training TestCellCycle 77 1628 1281Church* 27 1630 1281Derisi 63 1608 1275Eisen 79 1058 837Expr 551 1639 1291Gash 1 173 1634 1284Gash 2 52 1639 1291Hom 16384 48708 48354Pheno* 69 656 584Seq* 478 1701 1339Spo* 80 1600 1266Struc 16384 1665 1313*Contiene atributos no numericos.

Los datos, utilizados en esta tesis, de la base de datos FunCat provienen del tra-

bajo de [Vens et al., 2008]3. La tabla A.1 resume el contenido de cada uno de los

conjuntos de datos disponibles. La base de datos esta disponible en formato arff

que es el utilizado por la herramienta Weka. Las clases de cada elemento pue-

den pertenecer a una o mas clases, sin embargo, el problema que se aborda en

este trabajo esta enfocado en un problema de simple etiquetado (single-label), por

tanto, para poder trabajar con los datos se realizo un preprocesamiento. Este con-

sistio en tomar la primera etiqueta, del conjunto de etiquetas, de cada uno de los

ejemplos como la clase de dicho ejemplo. Lo anterior se ilustra en la figura A.1.

De los diferentes conjuntos de datos, presentados en la Tabla A.1, se tomo en

consideracion el de CellCycle debido a que presenta caracterısticas adecuadas

para probar el metodo, algunas de estas son: El numero de atributos, el numero

de ejemplos de prueba y entrenamiento y ademas, todos sus atributos son de tipo

numerico. Finalmente, de los datos resultantes solo se consideraron las clases con

mayor numero de ejemplos. En la figura A.2 se ilustra la jerarquıa del conjunto de

datos CellCycle que se utilizo en los experimentos.

3disponibles en: http://dtai.cs.kuleuven.be/clus/hmcdatasets/


Figura A.1: Proceso de re-etiquetado del conjunto de ejemplos de la Basede Datos FunCat. El sımbolo @ es utilizado como separador de las diferentesclases a las cuales pertenece el ejemplo. Solo la primera clase es tomada como

la clase del ejemplo dado.

Figura A.2: Jerarquıa de la Base de Datos CellCycle. Las flechas indican larelacion existente entre las clases mientras que cada nivel de la jeraquıa esta

representado por un color diferente.

A.2. Reuters-21578

En el ambito de la clasificacion de textos la base de datos mas recurrentemente uti-

lizada es la Reuters-21578. Sin embargo, esta base de datos no es de tipo jerarquico

y sus clases no pertenecen a una taxonomıa de este tipo. Por lo anterior, los tra-

bajos que hacen uso de esta base de datos establecen una taxonomıa utilizando

diferentes criterios [Yang and Liu, 1999, D’Alessio et al., 2000, Sun et al., 2003].

Sin embargo, en el trabajo de [Toutanova et al., 2001] se propone una taxonomıa

de dos niveles y 90 categorias divididas en 4 principales ramas: {Commodities,

Financial, Metals y Energy}.


La base de datos Reuters-215784 no puede utilizarse de manera directa para un

proceso de clasificacion. Debido a lo anterior se opto por utilizar la misma base

de datos pero con los preprocesamientos necesarios para su uso en esta tesis. Esta

base de datos fue obtenida de la pagina: http://web.ist.utl.pt/acardoso/datasets/

y cuenta con los siguientes pre-procesamientos:

A todos los terminos de la base de datos les fueron aplicadas las siguientes

transformaciones.

• Substitucion de los caracteres tabulador, nueva lınea y retorno por es-

pacio.

• Mantener solo letras, esto es, convertir signos de puntuacion, numeros,

etc, en espacios.

• Convertir todas las letras en letras minusculas.

• Substituir multiples espacios por un solo espacio.

• El tıtulo/tema de cada documento es agregado al principio del docu-

mento.

Se removieron palabras menores a 3 caracteres.

Se removieron 524 SMART stopwords.

Finalmente, se aplico el algoritmo Porter’s Stemmer a las palabras restantes.

Para cada uno de los pasos descritos anteriormente se genero un archivo de salida,

mismo que funge como archivo de entrada para el paso subsecuente. Para poder

realizar el proceso de clasificacion se obtuvo la frecuencia de cada una de las

palabras que pertencen a la base de datos, esto es, el numero de veces que cada

una de estas aparece en cada uno de los diferentes documentos de la base de datos.

Finalmente, se tomaron en cuenta las clases con el mayor numero de ejemplos. La

figura A.3 muestra la jerarquıa de la base de datos Reuters, misma que se utiliza

en los experimentos.

4Disponible en http://www.daviddlewis.com/resources/testcollections/reuters21578/


Figura A.3: Jerarquıa de la Base de Datos Reuters.

A.3. IAPR-TC12

La clasificacion de imagenes esta enfocada en dos campos: la clasificacion de for-

mas [Barutcuoglu and DeCoro, 2006] y la clasificacion de imagenes segmentadas

[Dimitrovski et al., 2011],[Escalante et al., 2010]. Las bases de datos de imagenes

regularmente estan disponibles para su procesamiento y obtencion de atributos

a traves de diferentes tecnicas de procesamiento de imagenes, esto es, la dispo-

nibilidad de los atributos de cada imagen no estan disponibles sino unicamente

las imagenes. De las bases de datos disponibles, la base de datos IAPR-TC125

[Escalante et al., 2010], contiene no solo una vasta coleccion de imagenes sino que

tambien contiene los atributos de cada una de ellas, permitiendo con ello su im-

plementacion directa en cualquier tipo de proceso de clasificacion.

La base de datos IAPR-TC12 es una base de datos de imagenes enfocada en la

clasificacion automatica de imagenes segmentadas cuya jerarquıa esta basada en

una ontologıa. Cada imagen en la base de datos esta segmentada y etiquetada en

regiones de manera manual. Cuenta con cerca de 20,000 imagenes y con alrededor

de 99,000 regiones etiquetadas. La jerarquıa de esta base de datos esta dividida

en 6 principales categorıas: Animal, Man-Made, Landscape-Nature, Food, Humans

5Disponible en http://ccc.inaoep.mx/ tia/pmwiki.php?n=Main.Resources


y Other. Para este trabajo se considero solo la categorıa Landscape-Nature debido

a que es una de las ramas con mayor numero de ejemplos. La figura A.4 ilustra la

jerarquıa de la rama Landscape.

Figura A.4: Jerarquıa de la Base de Datos IAPR-TC12.

En resumen, las bases de datos que se utilizaron en el presente trabajo de tesis

provienen de tres diferentes areas del conocimiento: bioinformatica (FunCat),

clasificacion de textos (Reuters-21578) e imagenes (IAPR-TC12).

Clasi caci on Jer arquica Multidimensional · 2017-10-27 · Agradecimientos En general quisiera...

Documents

Transcript of Clasi caci on Jer arquica Multidimensional · 2017-10-27 · Agradecimientos En general quisiera...