Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de...

16
Métodos clasificación

Transcript of Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de...

Page 1: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Métodos clasificación

Page 2: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Regresión

• Mínimos cuadrados minimizando la distancia entre dos grupos de variables– Dependiente vs independiente (s)

• Múltiples variables

Page 3: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Regresión

• Puede ser usado para predicción

Page 4: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Arboles de decisión

Page 5: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Arboles de decisión• Método usado en Data Mining– Arboles de regresión• Respuesta es continua

– Arboles de clasificación• Respuesta es discreta

• Hojas son clases finales• Ramas son reglas matemáticas de división

(conjunciones)

Page 6: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Entropia

• Impuridad en entropia– Objeto es minumiza ΔR

Page 7: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Coeficiente de GINI

• Indice de impuridad de GINI– L(i,j) describe la perdida de

Page 8: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Comparacion de método GINI e Información

Page 9: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Ejemplotree.r#ejemplo de arbol de clasificación

install.packages('rpart')library(rpart)

progstat <- factor(stagec$pgstat, levels=0:1, labels=c("No", "Prog"))cfit <- rpart(progstat ~ age + eet + g2 + grade + gleason + ploidy, data=stagec, method='class')print(cfit)plot(cfit)text(cfit)

Page 10: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

fit <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis)fit2 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, parms = list(prior = c(.65,.35), split = "information"))fit3 <- rpart(Kyphosis ~ Age + Number + Start, data = kyphosis, control = rpart.control(cp = 0.05))par(mfrow = c(1,2), xpd = NA) # otherwise on some devices the text is clippedplot(fit)text(fit, use.n = TRUE)plot(fit2)text(fit2, use.n = TRUE)

Page 11: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Arboles de decisión

• Variable está en valores discretos y valores continuos asociados– Ej. Temperatura (grados) – temp (caliente, tibio,frio)

• Funcion es en valores discretos (clasificación)• Disjunciones deben estar presentes• Set de entrenamiento puede tener errores• Set de entrenamiento puede tener datos faltantes

Page 12: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Support vector machines

• Desarrollados para clasificaciones binarias– Yes/no

• Busca el hiperplano optimo que separa las categorias al maximizar las diferencias entre los puntos mas cercanos en diferentes clases

Page 13: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Support vector machines

Page 14: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Clasificacion de coberturas (modis)

Page 15: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

Ejemplo en ejemplosvm.r

install.packages('e1071')

#el ejemplo se encuentra con ?svmlibrary(e1071)data(iris)attach(iris)## classification mode# default with factor response:model <- svm(Species ~ ., data = iris)# alternatively the traditional interface:x <- subset(iris, select = -Species)y <- Speciesmodel <- svm(x, y)print(model)summary(model)

Page 16: Métodos clasificación. Regresión Mínimos cuadrados minimizando la distancia entre dos grupos de variables – Dependiente vs independiente (s) Múltiples.

pred <- predict(model, x)# (same as:)pred <- fitted(model)# Check accuracy:table(pred, y)# compute decision values and probabilities:pred <- predict(model, x, decision.values = TRUE)attr(pred, "decision.values")[1:4,]# visualize (classes by color, SV by crosses):plot(cmdscale(dist(iris[,-5])), col = as.integer(iris[,5]), pch = c("o","+")[1:150 %in% model$index + 1])