Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Post on 05-Apr-2015

107 views 0 download

Transcript of Clusteranalyse von Maria Eickhold und Tobias Töpfer.

Clusteranalyse

von

Maria Eickhold

und

Tobias Töpfer

Gliederung

1. Einführung

2. Vorstellen des Beispiels

3. Proximitätsmaße

4. Methoden zur Clusterbildung

5. Homogenitätsbeurteilung

6. Zusammenfassung

1. Einführung

• „Clusteranalyse“ ist Sammelbegriff für verschiedene Verfahren Objekte auf Grund verschiedener Merkmale zu Klassen/ Clustern zusammen zu fassen

• Andere Methode: Schwellenwerte weniger objektiv

• Klassen sollen in sich möglichst homogen sein, untereinander aber maximal unähnliche Ausprägungen der herangezogenen Merkmale aufweisen

Anwendung in der Geographie:

• Hier dient die Clusteranalyse hauptsächlich dazu, Raumeinheiten sinnvoll zu gliedern um sie vergleichbar zu machen.

• Durch Clusterung wird eine große Menge von Einzel-Daten überschaubar

Vorraussetzungen zur Durchführung einer Clusteranalyse

• Verschiedene Merkmale haben verschiedene Maßeinheiten Standardisieren :

• unabhängige (orthogolnale) Variablen • Variablen sollten auf ein Ziel/ Zweck

abgestimmt sein • Faktorenanalyse zum herausfiltern der

wichtigsten Variablen bietet sich an

x

ii S

XXZ

(Rosner 2001: 21)

http://dev.lib.utexas.edu/maps/africa/tunisia_pol_1990.jpg(Stand: 09.06.2002)

2. Tunesien-Beispiel

Klimastation

3. Proximitäts-/ Ähnlichkeitsmaße

3.1.1. Manhattan-/ City-Block Distanz

MD

m

ijkd

1ikij xx

djk: Distanz der Objekte „j“ u. „k"

xi: herangezogenes Merkmal

xij: Ausprägung des Merkmals

„i“ bei Objekt „j“

Entfernung entlang der Koordinatenachsen

x1j x1k

x2k

x2j

(Bahrenberg et al. 1992: 282)

3.1.2 Quadratische euklidische Distanz

EDQ

m

ijkd

1

2ikij )x(x

Große Entfernungen (>1) werden stärker gewichtet, als kleine (<1)

Euklidische Distanz

EDjkm

i

d 1

2ikij )x(x

Luftlinienentfernung

x2j

x2k

x1j x1k x1

x2

(Bahrenberg et al. 1992: 282)

(Bahrenberg et al. 1992: 282)

3.1.3 Korrelationskoeffizient zwischen

zwei VariablencosCORjkr

rjk: Korrelationskoeffizient

zwischen den Objekten „j“ u. „k";

mögliche Werte zwischen +1 u.-1 (je größer der Wert, desto größer die Ähnlichkeit)

x1

x2

(Bahrenberg et al. 1992: 282)

Ähnlichkeitsmatrix QED(Tunesien-Beispiel)

Erstellt mit SPSSGrundlage: Standardisierte Werte für Temperatur und

geographische Breite

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

Beispiele: weiblich/männlich

Nationalität

Voraussetzung: Binäre Variablenstruktur

Ergebnis: Ähnlichkeitsmaße

Wert 0 = absolute Unähnlichkeit

Wert 1 = absolute Ähnlichkeit

Objekt1

Objekt 2

Eigenschaft vorhanden

Eigenschaft nicht vorhanden

Zeilensumme

Eigenschaft vorhanden

a c a + c

Eigenschaft nicht vorhanden

b d b + d

Spaltensumme a + b c + d a + b + c + d = m

Nach: Backhaus et al. 1994: 265 (verändert)

3.2 Proximitätsmaße bei Objekten mit

nominal skalierten Merkmalen

Kombinationsmöglichkeiten binärer Variablen

3.2 Beispiel-Datenmatrix für Proximitäts- maße

Eigenschaft

  

Personen

weiblich Rentner Schüler Monatl. Eink.

> 1000 €

Max 0 1 0 1

Helmut 0 0 0 1

Vivian 1 0 1 0

Melanie 1 0 0 1

Jörg 0 1 0 1

(0: Eigenschaft nicht vorhanden; 1: Eigenschaft vorhanden)

3.2.1 Simple-Matching-Koeffizient (M-K.):

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

m

daS jk

3.2.1 Beispiel für Simple-Matching- Koeffizient (M-K.)

  Max Helmut Vivian Melanie Jörg

Max 1        

Helmut 0,75 1      

Vivian 0 0,25 1    

Melanie 0,5 0,75 0,5 1  

Jörg 1 0,75 0 0,5 1

3.2.2 Tanimoto- bzw. Jaccard-Koeffizient:

3.2 Proximitätsmaße bei Objekten mit nominal skalierten Merkmalen

cba

aS jk

(Backhaus et al. 1994: 266)

mit: Sjk : Ähnlichkeit zwischen den Objekten j u. k

3.2.2 Beispiel für Tanimoto- bzw. Jaccard-Koeffizient  Max Helmut Vivian Melanie Jörg

Max 1        

Helmut 0,5 1      

Vivian 0 0 1    

Melanie 0,5 0,5 0,33 1  

Jörg 1 0,5 0 0,33 1

4. Methoden zur ClusterbildungA

us: Rosner 2001:

65

4.1 Complete Linkage

CskCrjdMaxd jkCsCr ,,,

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer äußersten Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

Eigenschaften:

Zur Zuordnung sehr nahe liegender Objekte neigend Kleinere, homogenere Cluster

(Bahrenberg et al. 1992: 285)

Durchführung des Complete-Linkage- Verfahrens mit QED Beispiel Tunesien

1. Ausgabe der Ähnlichkeitsmatrix

2. Zuordnungsübersicht

3. Linkage Tree

4. Elbow-Diagramm zur Festlegung der Anzahl der Cluster

Vorstellung der SPSS Komponenten

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Zuordnungs-übersicht

Complete-Linkage; QED

Ähnlich-keitsmatrix

QED

Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Linkage-Tree

Elbow- Diagramm (Festlegung der Anzahl der Cluster)Zuordnungsübersicht

5 7 5,982E-03 0 0 5

3 11 9,266E-03 0 0 3

1 3 1,952E-02 0 2 4

1 13 2,037E-02 3 0 6

4 5 3,092E-02 0 1 6

1 4 3,992E-02 4 5 12

16 17 5,905E-02 0 0 13

21 22 6,454E-02 0 0 19

6 12 9,563E-02 0 0 17

18 23 ,121 0 0 14

8 14 ,158 0 0 18

1 2 ,206 6 0 15

15 16 ,296 0 7 20

18 19 ,454 10 0 16

1 10 ,494 12 0 17

18 20 ,628 14 0 19

1 6 ,906 15 9 20

8 9 1,171 11 0 21

18 21 1,275 16 8 22

1 15 1,543 17 13 21

1 8 3,731 20 18 22

1 18 7,506 21 19 0

Schritt1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

Cluster 1 Cluster 2

ZusammengeführteCluster

Koeffizienten Cluster 1 Cluster 2

Erstes Vorkommendes Clusters Nächster

Schritt

Ähnlichkeiten

0

1

2

3

4

5

6

7

8

Distanzen

Schritte

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Clusterung mit QED und Complete Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer sich am nächsten liegenden Punkte gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

CskCrjdMind jkCsCr ,,,

Eigenschaften:

Neigt dazu, entferntere Objekte zuzuordnen Entstehung wenigerer größerer Cluster

Ausreißer

Neigt zur Verkettung von Objekten

4.2 Single Linkage

(Bahrenberg et al. 1992: 285)

Alle Distanzen zwischen allen Objekten eines Clusters und allen Objekten eines anderen Clusters werden addiert und durch die Anzahl aller betreffenden Objekte dividiert.

jkCskCrjsr

CsCr dnn

d

11

, (Bahrenberg et al. 1992: 285)

4.3 Average-Linkage

Streudiagramm mit Klimastationsnummern

47

1

3: zwischen 4 und 1

11

5

213

21

22

2318

20

19

17

1615

10

126

9

148

33

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

Ge

og

rap

hisc

he B

reite

in °

4.3 Clusterung mit QED und Average-Linkage

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Als Entfernung zwischen 2 Clustern wird die Distanz ihrer immer neu berechneten Mittelpunkte (Zentroide) gemessen. Fusioniert werden die Cluster mit der geringsten Distanz.

4.4 Zentroid Linkage

ZsZrCsCr dd ,, Z: Zentroid(Bahrenberg et al. 1992: 285)

Fusionskriterium: geringe Streuung (Varianz)

Voraussetzung: quadrierte euklidische Distanzen

Ziel: möglichst homogene Cluster

4.5 Ward-Verfahren

Vorgehen: 1. Bestimmung der Clustervarianz

2. Bestimmung der Gesamtvarianz

3. Zusammenfassung von Clustern unter der

Bedingung minimaler Steigerung der

Gesamtvarianz

Eigenschaften: - ordnet Objekte „richtig“ den Gruppen zu

- bildet in etwa gleich große Cluster

4. 5 Clusterung mit QED und Ward

am Tunesien-

Beispiel

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

Streudiagramm mit Klimastationsnummern

47

1

3: zwischen 4 und 1

11

5

213

21

22

2318

20

19

17

1615

10

126

9

148

33

33,5

34

34,5

35

35,5

36

36,5

37

37,5

38

14 15 16 17 18 19 20 21 22

Jahresdurchschnittstemperatur in °C

Ge

og

rap

hisc

he B

reite

in °

4.6. Übersicht über die Ergebnisse mit den Verschiedenen Clusterbildungsverfahren

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Zentroid

Zentroid

Single

Ward Z-Wert(TEMP)

210-1-2-3

Z-W

ert

(GE

OB

RE

)

1,5

1,0

,5

0,0

-,5

-1,0

-1,5

-2,0

Average

mit 2 Clustern O

mit 3 Clustern O

Mit 4 Clustern O

5. Homogenitätsbeurteilung

)(

),(

JV

GJVF

mit: V(J,G): Varianz der Variablen J in Cluster GV(J): Varianz der Variablen J in der Erhebungs-gesamtheit

(Backhaus et al. 1994: 310)F-Wert:

Verfahren: F-Werte für alle Variablen bestimmen

Ergebnis: wenn alle F-Werte < 1, dann gilt Cluster als vollkommen homogen

6. Zusammenfassung

• Clusteranalyse dient der Gruppenbildung

• Vielfältige Methoden – welche, abhängig von Frage und Objekten

• Manipulationsmöglichkeiten;

Stichwort: Herbeiclustern

• Dokumentation der Methoden

• Gruppenbildung Generalisierung

Informationsverlust

• Cluster verbal interpretieren und charakterisieren