Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3....

23
Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně) Jiří Šafr jiri.safr(zavináč)seznam.cz poslední aktualizace 31.5. 2015 (13. 4. 2014) UK FHS Historická sociologie, Řízení a supervize (ZS 2012 – 2015)

description

UK FHS Historická sociologie, Řízení a supervize (ZS 2012 , 2013, 2014 ). Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně). Jiří Šafr jiri.safr(zavináč)seznam.cz. poslední aktualizace 13. 4. 2014. Nejprve připomenutí: Grafy třídění 1. a 2.stupně. - PowerPoint PPT Presentation

Transcript of Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3....

Page 1: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Analýza kvantitativních dat I. (II.)

Popisné statistiky v grafech 2.(třídění 2. a 3. stupně)

Jiří Šafr jiri.safr(zavináč)seznam.cz

poslední aktualizace 31.5. 2015 (13. 4. 2014)

UK FHSHistorická sociologie, Řízení a supervize

(ZS 2012 – 2015)

Page 2: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Nejprve připomenutí:Grafy třídění 1. a 2.stupně

Page 3: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Sloupcový graf (Barchart) pro třídění 1. stupně

v rámci příkazu Frequencies (pouze pro 1. stupeň)

FREQUENCIES q14b /BARCHART = PERCENT.nebo přes zadání grafu (zde lze i třídění 2 a vyššího stupně)

GRAPH /BAR(SIMPLE)=PCT BY q14b .

Page 4: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

2.st.: Vstupní data grafu → kontingenční tabulka• Stále platí pravidlo o orientaci procent: Sloupcová %, pokud

závislá proměnná je v řádcích a nezávislá ve sloupcích.(nebo obráceně: řádková % a závislá se sloupcích a v řádcích nezávislá)

• Pozor, SPSS umí sloupcový graf rovnou v rámci příkazu CROSSTABS, ale pouze pro absolutní četnosti (my chceme %).

muž ženaVelmi se zajímám 5,9% 3,3% 4,4%Spíše se zajímám 33,6% 20,0% 26,0%Moc se nezajímám 38,6% 37,3% 37,9%Vůbec se nezajímám 21,8% 39,5% 31,6%

100,0% 100,0% 100,0%Total

Zájem o politiku * Pohlaví Crosstabulation% within Pohlaví

Zájem o politikuPohlaví

Total

CROSSTABS q14b BY s30/cel col /BARCHART.

Page 5: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Barchart pro třídění 2.stupněPříklad: Zájem o politiku podle pohlaví

Zdroj: ISSP 2007

Nezávislá proměnná

Součet v kategoriích =

100 %

Závislá proměnná

Raději si vždy zkontrolujte, zda součet %, tj. typ/orientace % je správně, buď vložením hodnot nebo pomocí CROSSTABS.

Page 6: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Syntax: sloupcový graf třídění 2. stupněPříkaz GRAPH (jde o původní zadávání v SPSS, které je přehledné a lze jednoduše zadávat ze

syntaxu. Novější verze SPSS mají Chart Builder a Interactive, které je v podstatě možné zadávat pouze klikáním přes okna)

Vycházíme ze základního zadání třídění 1. stupně:GRAPH /BAR(SIMPLE)=PCT BY vekkat.

Přidat lze rozdělení do klastrů-rozdělených sloupců např. podle pohlaví (s30)

GRAPH /BAR(SIMPLE)=PCT BY q14b BY s30.Pozor ale na orientaci procent (sloupcová vs. řádková) !Frequency of cases in each category expressed as a percentage of the whole.

Parametr: COUNT → absolutní četnosti, PCT → procenta

Page 7: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Grafy třídění 3. stupně

Page 8: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Grafy třídění 3.stupně: Závislá proměnná kardinální

• Problém není pokud je závislá proměnná kardinální (číselná), pak ukazujeme průměry v pod / pod skupinách (2. a 3. kategoriální proměnné).

GRAPH /BAR(GROUPED)=MEAN(prijem) BY vzd4 BY s30. GRAPH /ERRORBAR(CI 95)=prijem BY vzd4 BY s30.

Page 9: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Grafy třídění 3.stupně: Závislá proměnná kardinální• Pokud je jedna vysvětlující proměnná ordinální (na ose X), pak lze i

liniový graf, který vyjadřuje trendy v podskupinách.

GRAPH /LINE(MULTIPLE)=MEAN(prijem) BY vzd4 BY s30.GRAPH /LINE(MULTIPLE)=MEAN(prijem) BY vzd4 BY s30

/INTERVAL CI(95.0).

Page 10: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

GRAPH /BAR(GROUPED)=MEAN(prijem) BY vzd4 BY s30.

Grafy třídění 3.stupně: Závislá proměnná kardinální

Page 11: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Jak v SPSS do grafu dostat třídění 3. stupně (pro %)?

Page 12: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Grafy třídění 3.stupně: Závislá proměnná je kategoriální

• Situace je komplikovanější, pokud všechny tři proměnné jsou kategoriální (tj. včetně závislé)

• S výhodou můžeme využít podobný princip jako pokud bychom měli kardinální proměnnou a ukazovali průměry v podskupinách.→ závislou proměnnou nejprve rekódujeme na dichotomii a pak ukazujeme % pro jednu – „pozitivní“ kategorii resp. pravděpodobnost (což je vlastně průměr z dichotomie 0/1).Alternativně lze v BARCHARTu (u ordinálních znaků) nechat zobrazit % nad/pod určitou hodnotou

• Jenže to jde pouze tam, kde lze závislou proměnnou vyjádřit dichotomií (tedy tam kde lze kategorie slučovat, většinou, pokud je ordinální) nebo vyjádřit jako určitou (krajní) hodnotu.

Page 13: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Grafické znázornění interakcí,zadání v syntaxu SPSS

Účast ve volbách (q34), data ISSP 2007.*PIN (1 1) → procento „inside“, zde pro kategoriie 1 až 1, tj. 1=volil

nebo lze PGT = % větší než (hodnota), PLT = % menší než (hodnota).

GRAPH /LINE(SIMPLE)=PIN(1 1)(volil) BY vek3.GRAPH /LINE(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd3.GRAPH /BAR(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd3.

*Pokud máme kontrolní proměnnou dichotomickou, lze ukázat rozdíl mezi jejími kategoriemi (zde vzdělání jen s/bez VŠ).

GRAPH /HILO(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd_VS. *Vždy si sestavte také kontingenční tabulku a a kontrolujte absolutní počty

případů v buňkách.

CROSSTABS q34 BY vek3 BY vzd3.CROSSTABS q34 BY vek3 BY vzd3 /CEL COL /STAT Phi.

Page 14: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Účast ve volbách (q34), data ISSP 20071 19-29 2 30-49 3 50+

1 ano 37% 41% 64% 55%2 ne 63% 59% 36% 45%

100% 100% 100% 100%1 ano 55% 73% 76% 69%2 ne 45% 27% 24% 31%

100% 100% 100% 100%1 ano 69% 83% 76% 78%2 ne 31% 18% 24% 22%

100% 100% 100% 100%1 ano 50% 59% 68% 63%2 ne 50% 41% 32% 37%

100% 100% 100% 100%

3 VŠ q34 Zúčastnil/a se posledních voleb do Poslanecké Total

Total q34 Zúčastnil/a se posledních voleb do Poslanecké Total

1 ZŠ+VY q34 Zúčastnil/a se posledních voleb do Poslanecké Total

2 SŠ q34 Zúčastnil/a se posledních voleb do Poslanecké Total

vzd3 Vzdělání (3k.)

vek3 Věk (kategorie)

Total

VÄk (kategorie)�50+30-4919-29

%in

(1,1

) v

oli

l

70

65

60

55

50

VÄk (kategorie)�50+30-4919-29

%in

(1,1

) vo

lil

90

80

70

60

50

40

30

VÅ 

SÅ ZÅ +VY

VzdÄlánà �(3k.)

VÄk (kategorie)�50+30-4919-29

%in

(1,1

) vo

lil

80

70

60

50

01

vzd_VS

% rozdíl pro VŠ /ostatní.GRAPH /HILO(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd_VS.

VÄk (kategorie)�50+30-4919-29

%in

(1,1

) vo

lil

100

80

60

40

20

0

76%83%

69%

76%73%

55%

64%

41%37%

VÅ SÅ 

ZÅ +VY

VzdÄlánà �(3k.)

GRAPH /BAR(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd3.

GRAPH /LINE(SIMPLE)=PIN(1 1)(volil) BY vek3 BY vzd3.

Bivariátní vztah: volil podle věku.

GRAPH /LINE(SIMPLE)=PIN(1 1)(volil) BY vek3.

q34 (1=volil, 2=nevolil) →PIN(1 1) = procento pro kategoriie 1 až 1, tj. 1=volil.

Volil podle věku s kontrolou vzdělání

Zdroj: [ISSP 2007]

Page 15: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Vstupní data = konting. tabulka třídění 3.stupně.Závislá p. dichotomická: ne/zájem o politiku

Jaký rozdíl v zájmu o politiku mezi muži a ženami uvnitř vzdělanostních kategoriích?

→ zájem o politiku (rekód na zájem/nezájem) podle pohlaví při kontrole vlivu vzdělání

Nejprve je třeba závislou proměnnou rekódovat na dichotomii (zde zájem/nezájem o politiku)

GRAPH /BAR(GROUPED)=PGT(0)(ZajPolit) BY s30 BY vzd3.

a odpovídající konting. tabulka: CROSSTABS ZajPolit BY s30 BY vzd3/cel col.

Page 16: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Graf pro závislou proměnnou (v %) a 2 vysvětlující

GRAPH /BAR(GROUPED)=PGT(0)(readEnj1) BY Egp3RO BY EU_3kat.

• Funguje ale pouze pro dichotomickou závislou proměnnou, zde Čte pro radost kódovanou (0=nečte/ 1=čte)→ ukazujeme podíl s hodnotou vyšší než 0 → PGT(0). → zobrazí procento případů s hodnotou vyšší než 0.

• Nebo obráceně pro „ne-čtenáře“ PLT(1) → zobrazí procento případů s hodnotou nižší než 1.

Page 17: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Graf se závislou a 2 vysvětlujícími proměnnýmiČtení pro radost (denně) u patnáctiletých žáků podle sociální třídy

rodičů v evropských zemích. PISA 2009.

Page 18: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Sloupcový graf (%) pro závislou a2 nezávislé proměnné.

Názory rodičů na důležitost dalšího studia po maturitěpodle vzdělání rodičů a typu studia, ČR 2003, procenta souhlasu

Zdroj: PISA 2003; N = min 3468

Page 19: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

To samé pomocí Chart Builder

* Chart Builder.GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=skoly COUNT()[name="COUNT"]

PA1_Vzd3[LEVEL=ORDINAL] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=INLINE.BEGIN GPL SOURCE: s=userSource(id("graphdataset")) DATA: skoly=col(source(s), name("skoly"), unit.category()) DATA: COUNT=col(source(s), name("COUNT")) DATA: PA1_Vzd3=col(source(s), name("PA1_Vzd3"), unit.category()) COORD: rect(dim(1,2), cluster(3,0)) GUIDE: axis(dim(3), label("Školy")) GUIDE: axis(dim(2), label("Percent")) GUIDE: legend(aesthetic(aesthetic.color.interior), label("Vzdělanostní aspirace žáků (dle ", "profese 1, přímý kód)")) SCALE: cat(dim(3), include("1", "2", "3", "4")) SCALE: linear(dim(2), include(0)) SCALE: cat(aesthetic(aesthetic.color.interior), include("1", "2", "3")) SCALE: cat(dim(1), include("1", "2", "3")) ELEMENT: interval(position(summary.percent(PA1_Vzd3*COUNT*skoly, base.coordinate(dim(3)))), color.interior(PA1_Vzd3), shape.interior(shape.square))END GPL.

Page 20: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

3D graf & panely: závislá proměnná a 3 nezávislé

Aspirace patnáctiletých na studium na VŠ podle aspirací rodičů a

jejich vzdělání, studenti ZŠ a VG, ČR 2003, procenta

Zdroj: PISA 2003

Page 21: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Heat map - graf tř. 3 st.: závislá kardinální (průměr) podle dvou kategoriálních proměnných.

Zdroj: PISA 2007

Page 22: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

Heat map - graf tř. 3 st.: závislá kardinální (průměr) podle dvou kategoriálních proměnných.

GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=vekkat[LEVEL=nominal] vzd4[LEVEL=ordinal] prijem[LEVEL=ratio] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=VIZTEMPLATE(NAME="Heat Map"[LOCATION=LOCAL] MAPPING( "color"="prijem"[DATASET="graphdataset"] "rows"="vekkat"[DATASET="graphdataset"] "columns"="vzd4"[DATASET="graphdataset"])) VIZSTYLESHEET="Traditional"[LOCATION=LOCAL] LABEL="Heat Map: vzd4-vekkat-prijem" DEFAULTTEMPLATE=NO.

Page 23: Analýza kvantitativních dat I. (II.) Popisné statistiky v grafech 2. (třídění 2. a 3. stupně)

3 D-density: vztah dvou číselných proměnných

GGRAPH /GRAPHDATASET NAME="graphdataset" VARIABLES=isei[LEVEL=ratio] prijem[LEVEL=ratio] MISSING=LISTWISE REPORTMISSING=NO /GRAPHSPEC SOURCE=VIZTEMPLATE(NAME="3-D Density"[LOCATION=LOCAL] MAPPING( "z"="prijem"[DATASET="graphdataset"] "x"="isei"[DATASET="graphdataset"])) VIZSTYLESHEET="Traditional"[LOCATION=LOCAL] LABEL="3-D Density: prijem-isei" DEFAULTTEMPLATE=NO.