KÉPES BESZÉD
Szűcs Krisztina data visualization designer
@szucsi
Balogh Kitti statisztikus, adatelemző
TARTALOM
MI AZ A LÁTENS DIRICHLET ALLOKÁCIÓ?
HOGYAN NÉZ KI A HASZNÁLATA EGY NAGYJÁBÓL 10.000-ES KORPUSZON?
HOGYAN LEHET VIZUALIZÁLNI A TÉMÁKAT?
A TOPIK MODELLEK ÉS A LÁTENS DIRICHLET ALLOKÁCIÓ
MIÉRT?
Nagy mennyiségű címkézetlen dokumentumpl. jogi, üzleti dokumentumok, cikkek, emailek
Probléma: Miről szólnak? Milyen csoportokra oszthatók?
Klaszterezés?Sokszor nehezen értelmezhető csoportok
Topik modellek!Természetes tematikus csoportokLegegyszerűbb, legtöbbet használt: látens Dirichlet allokáció (LDA)
A LÁTENS DIRICHLET ALLOKÁCIÓ
MIT TUDUNK MEG?
OUTPUTINPUT dokumentumok témaeloszlásatémák szóeloszlása
dokumentumok szavaitémák száma (K)
Szeretem a narancsot és az almát.
Reggelire müzlit és almát készítek.
A lamantinok és a kutyák aranyosak.
A kutyám tegnap megevett egy narancsot a tállal együtt.
Nézd azt az aranyos sünit, hogyan rágcsálja az almát!
narancsalmareggeli
0.180.150.09
kutya aranyos lamantin
...
0.260.150.12
TOPIK 1
TOPIK 2
TOPIK K
A LÁTENS DIRICHLET ALLOKÁCIÓ
MIRE LEHET HASZNÁLNI?
dokumentumok szervezése
összegzés
szövegekben való keresés
diskurzuselemzés
témák időbeli változásának követése
gyűlöletbeszéd
romareprezentáció vizsgálat, romaellenes témák
kuruc.info szélsőjobboldali hírportál Cigánybűnözés rovata
10.304 db cikk, 2006-2015. február
LDA ALKALMAZÁSI PÉLDA
LDA ALKALMAZÁSI PÉLDA
HASZNÁLT ESZKÖZÖK
LDA EGYÉB ESZKÖZÖKBENMALLET LDA
Python adatgyűjtés, adatfeldolgozás
magyarlánc nyelvi elemzés
R témák időbeli változása
Python Gensim
R topicmodels és lda
Mahout
Spark
LDA ALKALMAZÁSI PÉLDA
ADATGYŰJTÉS, ADATFELDOLGOZÁS
cikkek legyűjtése
cikkekhez tartozó időbélyeg kinyerése
nyelvi elemzés magyarlánccal (sztemmelés, POS)
POS tagek szerinti szűrés
stopszavazás
LDA ALKALMAZÁSI PÉLDA
TOPIKOK SZÁMA
romareprezentációs szakirodalom
Messing – Bernáth (1998, 2003, 2012) által használt témastruktúra – 15 téma
harmonikus átlag módszere – 27 topik
LDA ALKALMAZÁSI PÉLDA
ÖSSZEVETÉS KVALITATÍV EREDMÉNYEKKEL ÉS KIÉRTÉKELÉS
témastruktúra megfeleltethető a szakirodalomban használtnak
humán kiértékelés 600 cikken, recall = 74%, precesion = 55%
2008 2010 2012
0
topikarányok összege az időszak cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
2008 2010 2012
0
topikarányok összege az időszak cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
2008 2010 2012
0
topikarányok összege az időszak cikkeiben
10
20
30
40
50
2014
SZOCIÁLIS SEGÉLY, KÖZMUNKA
Kolompár Orbán bírósági ügye
2008/09
Katapult Mentorprogramnál történt szabálytalanságok
2009/03
Kolompár Orbán és társainak bírósági ügye2009/07
Kolompár Orbán és társainak bírósági ügye2009/10
ROMA ÖNKORMÁNYZAT, ÖNSZERVEZŐDÉS
2008 2010 20120
10
20
30
40
50
2014
Cozma-gyilkosság2009/02
ROMA-NEM ROMA TÁRSADALMI PROBLÉMÁK, ELŐÍTÉLETESSÉG
2008 2010 20120
10
20
30
40
50
2014
Szebb Jövőért Polgárőr Egyesület
elkezd járőrözni Gyöngyöspatán
2011/03
Roma-nem roma konfliktusok Gyöngyöspatán2011/04
SZEBB JÖVŐÉRT POLGÁRŐR EGYESÜLET ÉS GYÖNGYÖSPATA
2008 2010 20120
10
20
30
40
50
2014
labs.precognox.com/kurucinfo_adatviz/
kereses.blog.hu precognox.com
krisztinaszucs.com