Slovak sentiment lexicon induction under restricted conditions (Master Thesis presentation)

21
Author: Bc. Adam Okruhlica Supervisor: RNDr. Martin Homola, PhD. Comenius University, Bratislava, 2013. Slovak sentiment lexicon induction in absence of labeled data (Thesis presentation)

Transcript of Slovak sentiment lexicon induction under restricted conditions (Master Thesis presentation)

Author: Bc. Adam Okruhlica

Supervisor: RNDr. Martin Homola, PhD.

Comenius University, Bratislava, 2013.

Slovak sentiment lexicon induction

in absence of labeled data

(Thesis presentation)

• Ambícia budovať inteligentné systémy schopné

rozpoznávať nálady a emócie.

Motivácia

• Ambícia budovať inteligentné systémy schopné

rozpoznávať nálady a emócie.

• Biznis sféra – kvantifikovanie spokojnosti

zákazníkov, sledovanie nálad cieľových skupín,…

• Predikčné úlohy – predpovedanie akciových

trhov podľa nálad, politické analýzy preferencii

v reálnom čase,...

Motivácia

• Využívajú sa slovníky sentimentu – DB slov s

priradenými charakteristikami sentimentu.

• Silne jazykovo špecifické a netriviálne rozsiahle.

Motivácia (2)

• Pripraviť skutočne využiteľný slovník sentimentu pre

slovenský jazyk.

• Sústrediť sa na prídavné mená a príslovky – čo

najväčšie pokrytie a kvalita.

• Umožniť rozvoj aplikácii na báze analýzy

sentimentu nad slovenskými textami.

Cieľ

• Slovenčina je silne flektívny jazyk (oproti napr. EN)

• Neexistencia (nedostupnosť) efektívnych nástrojov

na prácu so slovenským textom

• Značkovače slovných druhov

• Sémantické lexikóny

• Spoľahlivé lematizéry

• a.i.

Problémy

Problémy (2)

• Cieľ aj metódy sú v SK jazykovej doméne nové

• Základná idea Hatzivassiloglou-McKeown (1997):

• Spojky v koordinatívnych klauzulách majú

využiteľný predikčný potenciál, pokiaľ ide o

rovnakosť/rôznosť sentimentu koordinovaných

slov.

Indukcia slovníka (1)

voňavý a chutný vs. dobrý ale pomalý

P(rovnaké_en) = 0.78 P(rovnaké_en) = 0.26

1. Manuálne ohodnoť malú množinu slov. (napr. 20)

2. Extrahuj koordinatívne klauzy z korpusu.

3. Pre každý výskyt dvojice “SLOVO1 x SLOVO2”

vyhodnoť, či sú slová rovnako, alebo rôzne

orientované (s využitím apriórnych pravdepodobností)

4. Vytvor graf nerovnakosti (dissimilarity graph).

• Vrchol – slovo

• Hrana (u,v) – jej cena určuje nerovnakosť dvoch

slov – c(u,v) je z intervalu (0, 1)

Indukcia slovníka (2)

Indukcia slovníka (3)

dobrý

(SO: +)

zlý

(SO: -)

šťastný

(SO: ?)

1.0

0.1

1.0

1.0

0.0

Optimalizačný problém na grafe nerovnakosti P:

• Nájdi 2-rozklad grafu (P1,P2) = P taký, že

je minimálne.

• Toto zodpovedá minimalizácii nerovnakosti vrámci

partícii. Ide o analógiu max. hranového rezu.

Indukcia slovníka (4)

Riešime prostredníctvom multi-reštartovaného

horolezeckého algoritmu.

Lokálny krok optimalizácie: zámena partícii pre niektorý

z vrcholov v.

Počiatočný stav: Uniformné náhodné rozdelenie vrcholov

do partícii.

Efektivita: Teoreticky je stratégia konvergentná do

lokálneho minima. Naša prax ukazuje, že väčšina behov

končí v globálnom minime.

Indukcia slovníka (5)

Indukcia slovníka (6)

• Máme 2 partície. Čo teraz?

6. Môžeme povedať, ktorá z nich obsahuje pozitívne

slová, ktorá negatívne, na základe príslušnosti manuálne

ohodnotených slov.

• Realita: z ručne označených 20 slov -> 700 ozn. slov za

cca 10 minút.

Výstup: pozitívna partícia

• Slová zo štartovacieho lexikónu sú podčiarknuté.

Problémy (1)

• Negatívna partícia obsahuje množstvo neutrálnych

slov.

• Hatzivassiloglou-McKeown nereportujú podobný

problém.

• Využijeme spoľahlivosť pozitívnej partície.

Predpoklad: neutrálne slová nepreferujú jednu z

partícii pre niektorý typ hrany (rovnaké/rôzne).

Problémy (2)

• Negatívna partícia obsahuje množstvo neutrálnych

slov.

• Iná možnosť: využijeme automatický preklad a

existujúce anglické slovníky sentimentu na

vytriedenie neutrálnych slov.

Rozšírenia

• S využitím ďalších ad-hoc prístupov slovník ďalej

zväčšujeme:

1. Využitie synonymického slovníka – pridanie nových

slov z ohodnotených synonymických tried.

2. Doplnenie záznamov automatickým prekladom.

3. Manuálne skompletizovanie a revízia.

Výsledky (1)

• Slovenský slovník sentimentu s 3000+ prídavnými

menami a 3000+ príslovkami. Každý záznam obsahuje

aj všetky vyskloňované a stupňované formy. Hodnotenie

sentimentu na škále od -3 do 3.

Výsledky (2)

• Aplikácia na analýzu dejovosti a emocionality kníh.

Na časovom grafe s využitím s.l.s. vizualizuje priebeh

nálady vrámci diela.

J.G. Tajovský: Do konca

Výsledky (3)

• Overenie konjunkčnej hypotézy pre slovenčinu.