Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media...

27
Hierarchický bayesovský model ekologické inference Kamil Gregor

description

Tato prezentace byla proslovena Kamilem Gregorem, datovým analytikem KohoVolit.eu, na konferenci New Media Inspiration na Univerzitě Karlově v Praze v roce 2013. Video z prezentace najdete zde: http://www.youtube.com/watch?v=PyPIQIuHQAc

Transcript of Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media...

Page 1: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Hierarchický bayesovský model ekologické inference

Kamil Gregor

Page 2: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Otázka: Kolik procent podnikatelů volí TOP09?

Page 3: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

To je snadné!

5

10

15

20

25

30

10 15 20 25 30

OSVČ v ORP (%)

TO

P0

9 v

PS

P 2

01

0 (

%)

Odpověď: (Asi) hodně.

Page 4: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Otázka: Kolik procent Romů volí DSSS?

Page 5: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Taky asi hodně…

WTF?

Page 6: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Ekologický klam

černoši běloši celkem

1000600 400

? ? 400 voliči

? ? 600 nevoliči

Page 7: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Ekologický klam

černoši běloši celkem

1000600 400

? ? 400 voliči

? ? 600 nevoliči

černoši běloši celkem

1000600 400

0 400 400 voliči

0 0 600 nevoliči

Page 8: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Ekologický klam

černoši běloši celkem

1000600 400

? ? 400 voliči

? ? 600 nevoliči

černoši běloši celkem

1000600 400

0 400 400 voliči

0 0 600 nevoliči

černoši běloši celkem

1000600 400

400 0 400 voliči

200 400 600 nevoliči

černoši běloši celkem

1000600 400

200 200 400 voliči

400 200 600 nevoliči

Page 9: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Základní statistická neurčitelnost

Pi = AiDi + Bi(1 – Di)

černoši bělošiCelkem

1Pi 1 – Pi

Ai Di – Ai Di voliči

Bi(1 – Di) – Bi 1 – Di nevoliči

Page 10: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak řešit neřešitelný problém?

1. Dotazníková šetření

Page 11: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak řešit neřešitelný problém?

1. Dotazníková šetření

2. Statistické modelování

Page 12: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Předpoklady modelů

• Populace obou pozorovaných proměnných je totožná

• Neexistuje prostorová autokorelace nepozorovaných proměnných

• Rozdělení nepozorovaných proměnných odpovídá námi zvolenému rozdělení

Page 13: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Dvourozměrné normální rozdělení

Page 14: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Bayesovské modelování

Page 15: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Bayesovské modelování

• Na začátku velmi obecné apriorní rozdělení hodnot nepozorovaných proměnných

• Podmíněné rozdělení je rozdělení hodnot pozorovaných proměnných

• Aposteriorní rozdělení se použije

Page 16: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

K čemu je to dobré?

• Pokaždé, když máme agregovaná data, ale ne individuální data

• Tedy když známe hodnoty dvou proměnných v populaci, ale ne hodnoty v jejich kontingenční tabulce

A B C

? ? ? α

? ? ? β

? ? ? γ

Page 17: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Například

• Sociální složení elektorátu (například podíl katolíků versus podíl voličů strany)

• Voličské přesuny (podíl voličů strany ve dvou volbách)

• Ticket-splitting

• Sociální složení populace (například národnost versus náboženské vyznání, nezaměstnanost versus vzdělání)

Page 18: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Nebo

• V řadě vědních oborů, jako je– Sociologie– Historie– Ekonomie– Marketing– Geografie– Epidemiologie– Ekologie

Page 19: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)
Page 20: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)
Page 21: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak přesné jsou tyto výsledky?

• Pořád čekáme na ekvivalent testu statistické signifikance

• Řešením je (zdá se) vyšetření robustnosti použitých rozdělení a výpočetních algoritmů

• Ještě si nikdo nedal tu práci s modelováním milionů simulovaných datových setů

• Ale existují rozsáhlé empirické studie (např. 113 švýcarských referend)

Page 22: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak přesné jsou tyto výsledky?

• Přesnost lze zatím měřit srovnáním s výsledky exit pollu

• Příklad: Voličské přesuny v rakouských parlamentních volbách mezi lety 2006 a 2008 (exit poll SORA)

Page 23: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak přesné jsou tyto výsledky?

model minus exit poll

SPÖ_08 FPÖ_08 ÖVP_08 G_08 BZÖ_08 ost._08 nev._08

SPÖ_06 2,31% 0,18% -0,47% -0,38% -0,54% -0,58% -0,54%

ÖVP_06 -0,80% 1,23% 1,29% -0,57% -1,89% 0,88% 2,26%

G_06 -0,29% -0,09% -0,28% 1,21% -0,08% -0,24% -0,46%

FPÖ_06 -0,35% 0,11% -0,09% 0,08% -0,14% -0,07% 0,06%

BZÖ_06 -0,14% -0,38% -0,09% -0,05% 1,44% -0,03% -0,11%

ost._06 -0,31% -0,61% -0,04% 0,13% -0,32% 0,42% 0,71%

nev._06 -0,42% -0,44% -0,29% -0,44% 1,53% -0,38% -1,92%

Zelená – model „přeceňuje“ voličské přesunyČervená – model „podceňuje“ voličské přesunyZávěr: Model je „konzervativnější“ než exit poll, vytváření falešný dojem stability

Page 24: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak přesné jsou tyto výsledky?

• P – přesnost, mi – výsledek model, ei – výsledek exit pollu

• Udává podíl voličů, které model „správně zařadil“

21 ii em

P

Page 25: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak přesné jsou tyto výsledky?

• Voličské přesuny při volbách do rakouského parlamentu:– 1999 → 2002: P = 82,84%– 2002 → 2006: P = 83,33%– 2006 → 2008: P = 86,15%

Page 26: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Jak přesné jsou tyto výsledky?

• Voličské přesuny při volbách do Poslanecké sněmovny Parlamentu ČR:– 2006 → 2010: P = 87,89%

• Je to hodně nebo málo?

• Neví někdo, jaká je statistická odchylka hodnot v buňkách kontingenční tabulky voličských přesunů při exit pollu?

Page 27: Kamil Gregor: Hierarchický bayesovský model ekologické inference (prezentace pro New Media Inspiration 2013)

Děkuji za pozornost