Clase Analisis Discriminante

8/16/2019 Clase Analisis Discriminante

http://slidepdf.com/reader/full/clase-analisis-discriminante 1/14

Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones Funci

Analisis DiscriminanteClasicando las Observaciones

IND7210 Metodos Avanzados de Analisis de DatosPrograma de Magister en Ingenierıa Industrial

Alba Martınez-Ruiz

Departamento de Ingenierıa IndustrialUniversidad Cat´ olica de la Ssma. Concepci´ on, Chile

Concepcion, Chile

Alba Martınez-Ru iz Analisis Discriminante Clasicando las Observaciones


Contenido

1 Introduccion

2 Funcion Discriminante de Mınimo Costo (ECM) - Caso 2 Poblaciones

3 Funcion Discriminante de Mınimo Costo (ECM) - Caso G Poblaciones

4 Funcion Discriminante Lineal de Fisher - Caso 2 Poblaciones

5 Funcion Discriminante Lineal de Fisher - Caso G Poblaciones

6 Razon de Error Aparente de Clasicacion

7 Estadısticos de Prueba



Introducci´on

Tenemos un grupo de G poblaciones:

Queremos distinguir los grupos lomas posible uno de otro.

Medimos en cada grupo unavariable p -dimensionalx = ( x 1 , x 2 , . . . , x p ).

Usamos estas variables paraseparar/discriminar lo maximoposible los grupos.

Luego podemos clasicar unnuevo elemento en uno de los

grupos.



Introducci´on

Ejemplos:

Segmentacion de enfermedades de acuerdo a sıntomas;clasicacion de nuevos pacientes de acuerdo a sus sıntomas.

Segmentacion de clientes - preferencias.

Bancos, retails, empresas de seguros, productos de consumomasivo, marketing.

Clasicacion de spam.





Introducción

Tenemos dos problemas o tareas (parecidos pero distintos):

Un problema de discriminación/separaci´ onUn problema de clasicaci on/asignaci´ on

No todas las variables medidas pueden ser utiles para separar losgrupos, algunas pueden tener mayor poder discriminante que otras.



Introducción

El problema de discriminaci´ on generalmente es un problemasupervisado , es decir, conocemos los G grupos o poblaciones a priori.

Esta informacion nos sirve para construir una funcion discriminadoraque nos permitira clasicar un nuevo elemento.

La clasicacion generalmente no es intentada a menos que el vector demedias de las poblaciones dieran signicativamente de una muestra aotra.

Hay metodos de clasicacion no supervisados que son utilizados cuandono se conoce los grupos a priori, por ejemplo tecnicas de clustering oanalisis de conglomerados.



Introducción

Dos procedimientos para separar y clasicar un nuevo elemento:

Funci on discriminante de mınimo costo .

Minimiza el costo de clasicar mal un nuevo elemento.Enfatiza la clasicacion.Supuesto acerca de la distribucion de probabilidad de los datos.Casos: 2 poblaciones, G poblaciones.

Funci on discriminante lineal de Fisher .Enfatiza la separacion.No hace ningun supuesto acerca de la poblacion.Casos: 2 poblaciones, G poblaciones.



Funci on Discriminante de Mınimo Costo - ECMCaso 2 Poblaciones

Necesitamos una regla para decidir donde clasicar un nuevoelemento que minimize el error de clasicaci´ on.

Π1 y Π2: dos clases/grupos/poblaciones.x: variable p -dimensional medida en las problaciones Π1 y Π2.Ω: espacio muestral, es decir todos los posibles valores de x.R1 y R2 = Ω R1: conjunto de valores (regiones) de x quepermiten clasicar las observaciones en Π1 o Π2. p1: probabilidad a priori de pertenecer a Π1. p2: probabilidad a priori de pertenecer a Π2.

p1 + p2 = 1






P(obs. es correctamente clasicada en Π1) = P(obs. viene de Π1 y escorrectamente clasicada en Π1).

P (x ∈R1 |Π1)P (Π1) = P (1|1) p1

P(obs. es erroneamente clasicada en Π1) = P(obs. viene de Π2 y eserroneamente clasicada en Π1).

P (x ∈R1 |Π2)P (Π2) = P (1|2) p2




P(obs. es correctamente clasicada en Π2) = P(obs. viene de Π2 y escorrectamente clasicada en Π2 .

P (x ∈R2 |Π2)P (Π1) = P (2|2) p2

P(obs. es erroneamiente clasicada en Π2) = P(obs. viene de Π1 y eserroneamente clasicada en Π2).

P (x ∈R2 |Π1)P (Π1) = P (2|1) p1




Clasicar mal tiene un costo:

Π1 Π2

Π1 0 c(2|1)

Π2 c(1|2) 0

Costo total a minimizar :

ECM = c(2|1) p(2|1) p1 + c(1|2) p(1|2) p2




f 1(x) y f 2(x): funciones de densidad asociadas a x para cadapoblacion.x0: observacion a clasicar en Π1 o Π2.

Regla de Clasicaci´ on

(1) Clasicamos x0 en R1 cuando:f 1(x)f 2(x)

≥ c(1|2)c(2|1)

p2

p1

(2) Clasicamos x0 en R2 cuando:

f 1(x)f 2(x)

< c(1|2)c(2|1)

p2 p1






Casos especiales.

A.1 p2/p 1 = 1 (probabilidades a priori iguales).

R1: f 1 (x)f 2 (x) ≥ c(1 |2)

c(2 |1) R2: f 1 (x)f 2 (x) < c(1 |2)

c(2 |1)

A.2 c(1|2)/c (2|1) = 1 (costos de clasicar mal iguales).

R1: f 1 (x)f 2 (x) ≥ p1

p2R2: f 1 (x)

f 2 (x) < p1

p2

A.3 p2/p 1 = 1 y c(1|2)/c (2|1) = 1

R1: f 1 (x)f 2 (x) ≥ 1 R2: f 1 (x)

f 2 (x) < 1




Caso especial : f (x), densidades normales multivariadas .

f i (x) = 1

(2π) p/ 2|Σ |1/ 2 exp1

2 (x µi ) ′Σ − 1(x µi )

B.1 Σ1 = Σ 2 = Σ =⇒ funcion discriminante lineal .

B.2 Σ1 = Σ 2 =⇒ funcion discriminante cuadratica .


Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciFunci on Discriminante de Mınimo Costo - ECMCaso 2 Poblaciones

Funci on discriminante lineal : regla general de clasicacion para2 poblaciones normales de mınimo costo, Σ1 = Σ 2 = Σ (optima).

(1) Clasicamos x0 en Π1 si:

(µ1 µ2) ′Σ − 1x0 12 (µ1 µ2) ′Σ − 1(µ1 + µ2) ≥ ln c(1 |2)

c(2 |1) p2

p1

(2) Clasicamos x0 en Π2 en otro caso.



Funci on discriminante lineal : estimacion para la regla general declasicacion para 2 poblaciones normales de mınimo costo,x1, x2, Scjta (no es optima).

Scjta = n 1 − 1(n 1 − 1)+( n 2 − 1) S1 + n 2 − 1

(n 1 − 1)+( n 2 − 1) S2

n1 + n2 2 ≥ pAsumimos probabilidades a priori y costos de clasicar maliguales.







(x1 x2) ′ S− 1cjta x0 ≥ 1

2 (x1 x2) ′ S− 1cjta (x1 + x2)

a ′ x0 ≥ 12 (x1 x2) ′ S− 1

cjta x1 + 12 (x1 x2) ′ S− 1

cjta x2

a ′ x0 ≥ 12 a ′ x1 + 1

2 a ′ x2y0 ≥ 1

2 (y1 + y2)


Todo dependera de si y0 = a ′ x0 cae a la derecha o a la izquierda delpromedio de las medias univariadas, y1 y y2 .




Funci on discriminante cuadratica : regla general de clasicacionpara 2 poblaciones normales de mınimo costo, Σ1 = Σ 2.


12 x′(Σ − 1

1 Σ − 12 )x + ( µ′

1Σ − 11 µ′

2Σ − 12 )x k ≥ ln c(1 |2)

c(2 |1) p2

p1

con k = 1

2 ln |Σ 1 |

|Σ 2 |+ 1

2(µ′

1Σ − 1

1 µ1 µ′

2Σ − 1

2 µ2).




Funci on discriminante cuadratica : estimacion para la reglageneral de clasicacion para 2 poblaciones normales de mınimocosto, x1, x2, S1 y S2.


12 x′

0(S− 11 S− 1

2 )x0 + ( x′1S− 1

1 x′2S− 1

2 )x0 k ≥ ln c(1 |2)c(2 |1)

p2

p1

con k = 12 ln |S1 |

|S2 | + 12 (x′

1S− 11 x1 x′

2S− 12 x2).


Raramente se aplica para mas de 2 poblaciones por que es difıcil deinterpretar.


Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciFunci on Discriminante de Mınimo Costo - ECMCaso G Poblaciones

G poblaciones. pi : probabilidad a priori de pertenecer a Πi .c(k|i): costo de asignar un caso a Πk cuando pertenece a Πi .f i (x): funcion de densidad.





Funci on Discriminante de Mınimo Costo - ECMCaso G Poblaciones

El costo de clasicar mal x de Π1 en Π2, Π3,. . . es:

ECM (1) = P (2|1)c(2|1) + P (3|1)c(3|1) + . . . + P (g|1)c(g|1)

ECM (1) = gk =2 P (k|1)c(k|1)

La funcion de costo total a minimizar sera:

ECM = p1ECM (1) + p2ECM (2) + . . . + pg ECM (g)

Clasicamos x en la poblacion Πk en la cual el valor i=1i = k

pi f i (x)c(k|i)

es el mas pequeno.




CASO 1 : los costos c(k|i) son todos iguales.

Clasicamos x0 en Πk si:

pk f k (x) > p i f i (x), ∀i = k

Esto equivale a:

Clasicamos x0 en Πk si:

ln pk f k (x) > ln pi f i (x), ∀i = k



CASO 2 : poblaciones normales.

f i (x) = 1

(2π) p/ 2 |Σ |1/ 2 exp1

2 (x µi ) ′ Σ − 1(x µi )

Para la poblacion Πk tendremos:

ln pk f k (x) = ln pk p2 ln(2π) 1

2 ln |Σ k | 12 (x µk ) ′ Σ − 1

k (x µk )

Esta expresion dene un discriminador cuadratico (score) dQi (x):

dQi (x) =

12

ln |Σ i | 12

(x µi ) ′ Σ − 1i (x µi ) + ln pi i = 1, . . . , g

Clasicamos x en Πk si dQk (x) es el (score) discriminador cuadratico mas

grande.



CASO 3 : µi , Σ i desconocidos → xi , Si .

Hacemos una estimacion del discriminador cuadratico.

Regla de clasicacion: clasicamos x en Πk si dQk (x) es el

(score) discriminador cuadr atico mas grande.






CASO 4 : µi y Σ

i desconocidos, pero Σ

i = Σ .

La expresion para dQi (x) es:

dQi (x) = − 1

2 ln |Σ | 12 x′Σ − 1x + µ′

iΣ − 1x 12 µ′

iΣ − 1µi + ln pi

que es un discriminador (score) lineal. Simplicando:

di (x) = µ′iΣ − 1x 1

2 µ′iΣ − 1µi + ln pi i = 1 , . . . , g .




CASO 5 : µi, Σ desconocidos → x

i, S

cjta.

Hacemos una estimacion de di (x):

Scjta = 1

n 1 + n2 + . . . + ng g[(n1 1)S1 +( n2 1)S2 + . . . +( ng 1)Sg ]

=⇒ di (x) = x′i S

− 1cjta x 1

2 x′i S

− 1cjta xi + ln pi i = 1 , . . . , g .

Clasicamos x0 en Πk si el discriminador lineal dk (x) es el mas grande.



Algunas consideraciones:

Si las probabilidades a priori son desconocidas, elprocedimiento usual es p1 = p2 = . . . = pg = 1

g .

Los casos (3) y (5) pueden no ser optimos ya que empleamosestimadores de los parametros poblacionales. Por lo tanto surendimiento debe ser evaluado (razon de error aparente).


Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciFunci on Discriminante de Mınimo Costo

Resumen

Discriminadores 2 poblaciones G poblaciones

Lineales µi , Σ 1 = Σ 2 = Σ µi , Σ i = Σx i , S cjta (Σ 1 = Σ 2 = Σ ) x i , S cjta (Σ i = Σ )

Cuadraticos µi , Σ 1 = Σ 2 µi , Σ i = Σ k





Funci on Discriminante Lineal de FisherCaso 2 Grupos

Objetivo : Buscar una combinacionlineal y tal que al proyectar los datosesten lo mas separados posible.

Supuestos:

2 poblaciones nonecesariamente normales

Σ1 = Σ

2 = Σ



Funci on Discriminante Lineal de FisherCaso 2 Grupos

La separacion entre los grupos esta dada por:

|y1 y2 |s2y

donde y1 y y2 son las proyecciones de x1 y x2 sobre y dadas pora ′ x1 y a ′ x2, respectivamente.

Si Σ 1 = Σ 2 = Σ tenemos:

Scjta = n 1 − 1(n 1 − 1)+( n 2 − 1) S1 + n 2 − 1

(n 1 − 1)+( n 2 − 1) S2

Ademas, como y = a ′x:

s2y = a ′Scjta a


Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciFunci on Discriminante Lineal de FisherCaso 2 Grupos

Maximizamos la variabilidad entre los grupos relativo a lavariabilidad intra grupo, es decir estimamos a de manera quemaximicemos la razon:

(y1 y2)2

s2y

= (a ′ x1 a ′ x2)2

a ′Scjta a

= (a ′d)2

a ′Scjta a

donde d = ¯x1

¯x2.


Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciFunci on Discriminante Lineal de FisherCaso 2 Grupos

La direccion a que maximiza esta razon es:

a ′ = ( x1 x2) ′S− 1cjta

La combinacion lineal y de las x’s es:

y = a ′x = ( x1 x2) ′S− 1cjta x

Este es el discriminador lineal de Fisher . El maximo de la razon esy = D 2 = ( x1 x2) ′ S− 1

cjta (x1 x2).

Dadas 2 poblaciones normales, la regla de clasiacion de Fisher esequivalente a la regla de mınimo costo esperado con probabilidades apriori iguales y costos de clasicar mal iguales.





Funci on Discriminante Lineal de FisherCaso G Grupos

Objetivo : separar las poblaciones o conjuntos de datos lo maximoposible; puede ser usado para clasicacion.

G poblaciones no necesariamente normales.Σ 1 = Σ 2 = . . . = Σ g = Σ de rango completo.

Maximizamos la separacion entre las medias de las poblacionesusando el cuociente:

Variabilidad entre GruposVariabilidad dentro de los grupos

= Varianza explicada

Varianza no explicada o residual




Proyectamos las medias y los grupos de puntos de tal manera

que tengan separaci on maxima.

El vector donde proyectamos lo buscamos como unacombinacion lineal de las x.

Vector de medias :

µ = 1g

gi=1 µi

Diferencias entre grupos :

Bµ = gi=1 (µi µ)(µi µ) ′


Introducci´ on Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciFunci on Discriminante Lineal de FisherCaso G Grupos

Media global proyectada :

µy = 1

q

g

i=1 µiy

= 1

g

g

i=1

a ′µi

= a′ 1g

g

i=1

µi

= a′ µ



Formamos la razon:

Suma de las distancias al cuadradoVarianza de Y

=gi =1 (µiy µy )2

σ2y

=gi =1 (a ′ µi a ′ µ)2

a ′ Σ a

= a′ ( g

i =1 (µi µ)(µi µ) ′ ) aa ′ Σ a

= a′ Bµ a

a ′ Σ a

Mide la variabilidad entre los grupos relativo a la variabilidad dentrodentro de los grupos. Debemos seleccionar a de manera de maximizaresta razon.






Usualmente no tenemos Σ y µi . Entonces si tenemos muestras 1 de

tama no n i de la poblacion Πi , i = 1 , . . . , g , el procedimiento es elsiguiente:

(1) Calculamos las medias muestrales.xi = 1

n i

n i j =1 x ij

(2) Calculamos las matrices de covarianzas Si , i = 1 , . . . , g .

(3) Calculamos la media global.x = 1

ggi=1 xi

1 Datos de entrenamiento.Alba Martınez-Ru iz Analisis Discriminante Clasicando las Observaciones



(4) Calculamos la matriz B de diferencias entre grupos (varianzaexplicada).

B = gi=1 (xi x)( xi x) ′

(5) Calculamos la matriz W (una estimacion de Σ) con lasdiferencias dentro de los grupos (varianza no explicada oresidual).

W = gi=1 (n i 1)Si = g

i=1n i j =1 (x ij xi )(x ij xi) ′

La estimacion de Σ es Scjta = W (n 1 + n 2 + ... + n g − g)



(6) Maximizamos a ′B aa ′W a

para estimar a.

Es decir, maximizamos la relacion entre la variabilidad entre gruposo varianza explicada y la variabilidad dentro de los grupos ovarianza no explicada. Maximizar esta expresion es equivalente a

calcular los valores y vectores propios de W ′B .

W ′B es la matriz de distancias de Mahalanobis generalizada.



Tendremos λ1, . . . , λ s > 0 y e1, . . . , es con s ≤ min (g 1, p). Losvectores e1, . . . , es estan escalados tal que e′Scjto e = 1 .

La magnitud del valor propio nos indica la variabilidad explicadaque cada variable canonica aporta al problema de discriminacion.






El vector a viene dado por a1 = e1.El primer discriminante muestral o primera variable can´ onicade Fisher es:

a ′1x = y1

El k-esimo discriminante muestral , k ≤ s, es:

a ′kx = e′

kx = yk




Dado que s ≤ min ( p, g 1) tenemos:

∀ p, si g = 2 , el numero maximo de discriminantes es 1.∀ p, si g = 3 , el numero maximo de discriminantes es 2.Si p = 2 , ∀g, el numero maximo de discriminantes es 2.


Introducci´ on

Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciRaz on de Error Aparente de Clasicaci´ on

Raz on de error aparente de clasicaci´ on.

Se dene como la fraccion de observaciones en la muestra (deaprendizaje) que sera mal clasicada por la funcion de clasicacion.

Se puede aplicar a cualquier procedimiento de clasicacion.Desventaja: subestima el error real.


Introducci´ on

Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciRaz on de Error Aparente de Clasicaci´ on

Tabla de resultados de la clasicacion.

Pertenencia Pronosticada

Π1 Π2

Pertenencia OriginalΠ1 n1C n1M = n1 n1C n1

Π2 n2M = n2 n2C n2C n2

n1C : numero de casos Π1 clasicados correctamente en Π1.n1M : numero de casos Π1 mal clasicados como casos en Π2.n2C : numero de casos Π2 clasicados correctamente en Π2.

n2M : numero de casos Π2 mal clasicados como casos en Π1





Raz on de Error Aparente de Clasicaci´ on

La razon de error aparente es igual a:

n1M + n2M

n1 + n2

proporcion de casos en la muestra de entrenamiento que estan malclasicados.

Finalmente, si se quiere clasicar un nuevo elemento x0, secalculan sus coordenadas y0 con y0 = a ′x0 y se asigna al grupo decuya media transformada, µiy = a ′µi , este mas pr oximo con ladistancia euclıdea.



Estadısticos de Prueba

Prueba para la normalidad univariada y multivariada.Prueba para la igualdad de las medias de los grupos.Prueba M de Box para la igualdad de las matrices decovarianzas de los grupos.


Introducci´ on

Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciEstadısticos de PruebaTest normalidad univaridad y multivariada

Generalizaci´on de los contraste de asimetrıa y kurtosis.La normalidad multivariante implica la normalidad de las distribucionesmarginales unidimensionales (condicion necesaria pero no suciente).

Coeciente de asimetrıa multivariante:

A p = 1n 2 ni =1 nj =1 d3ij

Coeciente de kurtosis multivariante:

K p = 1n

ni =1 d2

ii

donde dij = ( xi − x′ S− 1(xi − x). Se verica asintoticamente con datosnormales:

nA p/ 6 ∼ χ 2f con f = 1

6 p( p + 1)( p + 2)

K p ∼N ( p( p + 2);8 p( p + 2) /n )

Este contraste requiere de muestras grandes.Alba Martınez-Ru iz Analisis Discriminante Clasicando las Observaciones

Introducci´ on

Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciEstadısticos de PruebaTest para la igualdad de las medias

2 poblaciones: x 1(n 1 × p) ∼N p(µ1, Σ) y x2(n 2 × p) ∼N p(µ2, Σ)

H 0 : µ1 = µ2

(1) Σ conocida, el estadıstico de contraste es:

n 1 n 2

n 1 + n 2(x1 − x2) ′Σ − 1(x1 − x2) ∼ χ 2

p

(2) Σ desconocida, el estadıstico de contraste es:n 1 + n 2 − 1− p(n 1 + n 2 − 2)

n 1 n 2

n 1 + n 2(x1 − x2) ′S− 1(x1 − x2) ∼ F pn 1 + n 2 − 1− p





Estadısticos de PruebaTest para la igualdad de las medias

G poblaciones.

H 0 : µ1 = µ2 = . . . = µg = µ

H 1 : no todas las µi son iguales

B = gi=1 (xi − x)( xi − x) ′ (dispersion entre grupos).

W = g

i=1(x ij − xi )(x ij − xi ) ′ (dispersion intra grupos).

T = gi=1

n i j =1 (xij − x)( xij − x) ′ (dispersion total).



Estadısticos de PruebaTest para la igualdad de las medias

Se verica que W = ( n − g)S y la relacion T = B + W. Si la hipotesis

nula es cierta, se verica ademas:

B ∼W p(Σ , g − 1), W ∼W p(Σ , n − g), T ∼W p(Σ , n − 1)

donde W p es la distribucion de Whishart. B y W son estocasticamenteindependientes, ⇒ si H 0 es cierta:

Λ de Wills = Λ = |W ||W + B| ∼Λ( p, n − g, g − 1)

Rechazaremos H 0 si Λ es un valor pequeno y signicativo, o si latransformacion a una F es grande y signicativa.


Introducci´ on


Ademas del estadıstico Λ de Wilks, hay otros estadısticos basados en B yW:

Traza de Lawley-Hotelling:

tr [BW − 1]− 1

Traza de Pillai:

tr [B(B + W)− 1]

Raız mas grande de Roy:

maximo valor propio de W(B + W)− 1


Introducci´ on


Todos estos test son aproximadamente equivalentes para muestrasextremadamente grandes.Hay evidencia que indica que la traza de Pillai es una medidarobusta cuando no hay normalidad.

La raız mas grande de Roy no es considerada, aunque seasignicativa, si los otros estadısticos no son signivativos.





Estadısticos de PruebaTest para la igualdad de las matrices de covarianzas

Prueba M de Box para G poblaciones:

H 0: Σ1 = Σ 2 = . . . = Σ g = Σ

La hipotesis alternativa es que al menos dos de las matrices decovarianzas no son iguales.

El estadıstico de raz on de verosimilitud:

Λ = i |Si |

|Scjta |

(n i − 1)/ 2

donde Scjta = 1i (n i − 1) [(n1 − 1)S1 + ( n2 − 1)S2 + . . . + ( ng − 1)Sg ].

La expresion M = − 2lnΛ aproxima una χ 2 .



Estadısticos de PruebaTest para la igualdad de las matrices de covarianzas

Si Λ es cercano a 1 y M pequenos, H 0 es verdadera (S i yScjta son similares).

Si Λ es pequeno y M relativamente grande, H 0 es falsa.

Sensible a las desviaciones de la normalidad multivariada.


Introducci´ on

Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciEstadısticos de PruebaTest para la igualdad de las matrices de covarianzas

Prueba de Box para Igualdad de las Matrices de Covarianzas(Johnson and Wichern, 2007).

Sea:

u = i

1

(n i − 1) − 1

i (n i − 1)

2 p2 +3 p− 1

6( p+1)( g− 1)

donde p es el numero de variables y g el numero de grupos. Entonces:

C = (1 − u)M = (1 − u) [ i (n i − 1)] ln |Scjta | − i [(n i − 1)ln |Si |]

distribuye como una χ 2 con:

ν = g 12 p( p + 1) − 1

2 p( p + 1) = 12 p( p + 1)( g − 1)

grados de libertad. A un nivel de signicancia α , rechazamos H 0 si

C > χ 2 p( p+1)( g− 1) / 2 . La prueba M de Box trabaja mejor si cada n i ≥ 20

y si p y g no exceden de 5.


Introducci´ on

Funcion iscriminante e ınimo osto (E - aso 2 o aciones FunciCuadras, C. M. (2012) Nuevos Metodos de AnalisisMultivariante, CMC Editions, Barcelona.

Johnson, R. Wichern, D. (2007) Applied MultivariateStatistical Analysis, Prentice Hall, New Jersey.

Mardia, K.V., Kent, J.T., Bibby, J.M. (1979) MultivariateAnalysis. London: Academic Press.

Pena, D. (2002) Analisis de Datos Multivariantes,McGraw–Hill, Madrid.


Clase Analisis Discriminante

Documents

Transcript of Clase Analisis Discriminante