Yeseter: Přehled platformy

26
Yeseter: Pˇ rehled platformy aclav Nov´ ak Yellow Snow, Captaworks [email protected] Aplikace NLP, MFF UK, ´ unor 2012

Transcript of Yeseter: Přehled platformy

Page 1: Yeseter: Přehled platformy

Yeseter: Prehled platformy

Vaclav NovakYellow Snow, Captaworks

[email protected]

Aplikace NLP, MFF UK, unor 2012

Page 2: Yeseter: Přehled platformy

Obsah prezentace

• Funkce Yeseteru

• Uzivatele

• Technologie a jejich problemy

2 z 25

Page 3: Yeseter: Přehled platformy

Sber vybranych diskuzı, blogu, for a socialnıch sıtı

• Zpravodajske servery: clanky a diskuze◦ lidovky.cz, finmag.cz, lupa.cz, aktualne.cz?,komorkomania.pl

• Blogy a jejich diskuze◦ blog.respekt.cz, blogatu.ro, akka-xx.blogspot.com,dan-blog.ro

• Diskuznı fora◦ htc-club.ro, forum.ngs.ru, hojko.com, diskuze.libimseti.cz

• Socialnı sıte◦ LinkedIn, Facebook, Google+, Twitter, iWiW, YouTube?

3 z 25

Page 4: Yeseter: Přehled platformy

Zpusoby extrakce potrebnych informacı

• RSS kanaly◦ Resenı pro blogy, zpravodajske servery◦ Problem se zkracovanım prıspevku

• XPath skripty◦ Diskuznı fora, zpravodajske servery bez RSS◦ Oblıbena platforma phpBB casto RSS neposkytuje

• API◦ Facebook, Twitter, YouTube, Google+◦ Problem s kvotami a pokrytım relevantnıch statusu

• Skripty pouzıvajıcı autentifikaci◦ LinkedIn, iWiW

4 z 25

Page 5: Yeseter: Přehled platformy

Zpracovanı nalezenych dokumentu

Zmínka● detekce jazyka● stemming● analýza sentimentu● identifikace témat

Projekt ProjektProjekt Projekt

5 z 25

Page 6: Yeseter: Přehled platformy

Trıdenı zmınek do temat a tematickych skupin

Skupiny

Témata

Klíčová slova

Banky Produkty

ČSOB KB Hypotéky Europlatby

ČSOB Komerční banka komerčka Mojehypotéka

ČSOB KB Hypotéky Europlatby

Projekt

6 z 25

Page 7: Yeseter: Přehled platformy

Statistiky a grafy pro temata

7 z 25

Page 8: Yeseter: Přehled platformy

Statistiky a grafy pro zdroje

8 z 25

Page 9: Yeseter: Přehled platformy

Statistiky a grafy pro autory

9 z 25

Page 10: Yeseter: Přehled platformy

Statistiky a grafy pro sentiment

10 z 25

Page 11: Yeseter: Přehled platformy

Nejsdılenejsı odkazy

11 z 25

Page 12: Yeseter: Přehled platformy

Umoznuje pokrocile vyhledavanı a exporty

• Vyhledavanı s ”?”a ”*”

• Fuzzy matchovanı podobnych slov

• Hledanı frazı

• Omezenı na vzdalenost mezi hledanymi slovy

• Logicke operatory a zavorkovanı

12 z 25

Page 13: Yeseter: Přehled platformy

Prıdavne funkce

• Reporting (dennı reporty)

• Alerting (Uzivatelsky definovana temata)

• Workflow se zmınkami

• Detekce relevance (moznost rucnı anotace pro trenovanı)

• Sentiment

• Nastavitelna nastenka

• Vyrazenı zdroju pro urcity projekt

• Real-time API (JSON streaming)

13 z 25

Page 14: Yeseter: Přehled platformy

Uzivatele

• Firmy, o kterych se mluvı

• Marketing

• Veda, politia a vyzkum (sociologie, stranicke sekretariaty)

• Bezpecnostnı slozky (zakrytı zajmu pred prohledavanymi servery)

• Prıstup z yeseter.com, wlip.cz, mss-adv.newtonmedia.cz

14 z 25

Page 15: Yeseter: Přehled platformy

Technologie

• Stroje: Amazon EC2 instance s distribucı Ubuntu

• Webova aplikace: Java Tomcat + MongoDB + GWT

• Vizualizace dat: Google Chart Tools + Dojo

• Ovladanı vizualizacı a vyhledavanı: Perl + Starman + Tenjin +Dojo

• Uchovanı a indexace dat: CouchDB + ElasticSearch / Lucene +MySQL

• Zpracovanı a predavanı dat: Perl/Starman, JSON

15 z 25

Page 16: Yeseter: Přehled platformy

Uchovanı dokumentu

• Zhruba 500 tisıc zmınek denne, 60 milionu pro analyzu, zbytekv prohledavatelnem archivu

• Dokumentova databaze CouchDB (NoSQL)

• Vyhody: obousmerna replikace, rychly zapis novych dat

• Nevyhody: velikost souboru, nezralost, nemoznost dotazovanı,obrı ID

16 z 25

Page 17: Yeseter: Přehled platformy

Problem pro DB: chybne kodovanı na Facebooku

17 z 25

Page 18: Yeseter: Přehled platformy

Indexace a vyhledavanı

• ElasticSearch: distribuovana Java RESTsluzba vyuzıvajıcı index Lucene

• Opensource varianta serveru IDOL odAutonomy / HP, bez prıdavnychanalytickych funkcı

• Podobne projektu SOLR, distribuovane,mısto XML JSON

• Lze pouzıt i na jednodussı statistiky, alepak prestava byt skalovatelny

• Slozitejsı statistiky vyzadujıcı SELF JOINjsou reseny specializovanymi tabulkamiv MySQL

18 z 25

Page 19: Yeseter: Přehled platformy

Problemy rozpoznanı jazyka

• U diskuznıch for a blogu se lze rıdit domenou

• Nektere socialnı sıte rıkajı o uzivatelıch vse, jine ne

Problemove zdroje

• YouTube

• Twitter

• Google+

• Narecı, nespisovne tvary

• Chybejıcı diakritika

• Kratke texty, zkratky, #tagy, @jmena, exoticke ♥♥♥znaky♥♥♥

19 z 25

Page 20: Yeseter: Přehled platformy

Problemove texty

20 z 25

Page 21: Yeseter: Přehled platformy

Rozpoznanı jazyka

• Modul pro samotne rozpoznanı jazyka: Josef Toman, UFAL

• Nenı dostatecny, je nutne pridat i model uzivatele

• Jen Twitter ma ale 300 milionu uzivatelu

21 z 25

Page 22: Yeseter: Přehled platformy

Stemming

• Stemming umoznuje vyhledavat ruzne tvary tehoz slova

•”Nokie“,

”Nokiım“,

”Nokii“,

”Nokia“

• Nekdy nezadoucı:”Matrix“ ×

”Matrika“,

”Sportif“ ×

”Sportage“

• Pro tato slova majı uzivatele k dispozici moznost zakazanıstemmingu

• Ruzne typy jazyku (podle strukturnı typologie) vyzadujı ruznyprıstup

• Morfessor: nastroj pro automaticke nalezenı afixu jazyka nazaklade korpusu

22 z 25

Page 23: Yeseter: Přehled platformy

Specifika stemmingu v socialnıch mediıch

• Pravidla psana pro spisovnou cestinu nefungujı:◦ Znacky, zkratky (

”Ikea“ →

”Ikey“ vs.

”Nokia“ →

”Nokie“,

”HM“ →

”HMka“)

◦ Narecı (”votravujou“,

”nabızej“,

”kupujo“)

◦ Vıc chyb nez v novinach (statnı zpravy)◦ Interpunkce (

”kazdy tvuj dotek tu bolest hojı.Pritul se lasko jeste

blız,to jak te miluji“)◦ Diakritika (klıcova slova (

”CS“), koncovky)

23 z 25

Page 24: Yeseter: Přehled platformy

Smery resenı

• Dva alternativnı prıstupy:◦ Opravit a normalizovat text (u tweetu nekdy nedokaze bez sirsıho

kontextu ani clovek)◦ Rozvolnenı pravidel a klasifikace slov na zaklade podobnosti

Opravy a desambiguace

+ V principu lze dosahnout 100%− Narocne na implementaci+ V praxi lepsı presnost− V praxi horsı pokrytı

Fuzzy matching

− Nelze byt 100% uspesnı+ Lze rychle zlepsit baseline+ V praxi lepsı pokrytı− V praxi horsı presnost

24 z 25

Page 25: Yeseter: Přehled platformy

Dalsı vyvoj Yeseteru

• Ladenı parametru stemmingu pro jednotlive jazyky

• Mobilnı prıstup

• Automaticka extrakce diskuznıch for

• Dalsı vizualizace a moznosti nastavenı

Dekuji. Dalsı novinky a podrobnosti:

• twitter.com/hlidka

• yeseter.com

• wlip.cz

25 z 25

Page 26: Yeseter: Přehled platformy

Dalsı vyvoj Yeseteru

• Ladenı parametru stemmingu pro jednotlive jazyky

• Mobilnı prıstup

• Automaticka extrakce diskuznıch for

• Dalsı vizualizace a moznosti nastavenı

Dekuji. Dalsı novinky a podrobnosti:

• twitter.com/hlidka

• yeseter.com

• wlip.cz

25 z 25