Universālas metodes twitter datu analīzei

27
Universālas metodes Twitter datu analīzei Autors: Matīss Rikters Vadītājs: Dr. dat. Uldis Bojārs

description

 

Transcript of Universālas metodes twitter datu analīzei

Page 1: Universālas metodes twitter datu analīzei

Universālas metodes

Twitter datu analīzei

Autors: Matīss Rikters

Vadītājs: Dr. dat. Uldis Bojārs

Page 2: Universālas metodes twitter datu analīzei

Darba mērķis

• Izpētīt, kā tiek analizēti un kā vēl varētu

analizēt Twitter ziņu datus

• Atrastās metodes apkopot un pielietot

universāla Twitter datu analīzes rīka

izstrādē

Page 3: Universālas metodes twitter datu analīzei

Problēmas apraksts

• Twitter ir vērtīgs datu avots

• Nav viegli pieejama un ērti lietojama veida,

kā reālā laikā vākt un analizēt tvītus

Page 4: Universālas metodes twitter datu analīzei

Sociālais tīmeklis

Page 5: Universālas metodes twitter datu analīzei

Twitter

Mikroblogošanas tīkls

Īsas, koncentrētas ziņas

Plašas API iespējas

Milzīgs skaits lietotāju un satura

Viens no populārākajiem sociālajiem tīkliem

Page 6: Universālas metodes twitter datu analīzei

Darba uzdevumi

• Salīdzināt esošos Twitter analīzes rīkus

• Izstrādāt pilotprojektu

• Apkopot atrastās un izdomātās metodes

Twitter ziņu apstrādei

• Izstrādāt universālu Twitter datu

analīzes rīku

Page 7: Universālas metodes twitter datu analīzei

Twitter datu analīzes rīku

salīdzinājums • Cena

• Vide

• Vai ir atvērtā pirmkoda risinājums

• Vai ievāc reālā laika datus

• Vai ir iespēja eksportēt datus

• Analīzes metodes

• Tipiskais pielietojums

• Priekšrocības

• Trūkumi

Page 8: Universālas metodes twitter datu analīzei

Twitter datu analīzes rīki

Page 9: Universālas metodes twitter datu analīzei

The Archivist Kritērijs Vērtība

Cena Bezmaksas

Vide Pieejama gan tīmekļa programmas versija, gan Windows versija.

Atvērtā pirmkoda risinājums Nē

Spēja vākt reālā laika datus Nē

Iespēja eksportēt datus Jā (tikai Windows versijā)

Analīzes metodes Windows versijā grafiski attēlo ziņu skaitu laika gaitā un aktīvākos lietotājus.

Tīmekļa versijā ziņas izanalizē plašāk, tajā skaitā arī nedaudz no paša ziņas teksta.

Arhīvu iespējams saglabāt kā XML vai teksta failu.

Tipiskais pielietojums Statistikas izpēte

Priekšrocības Dažu sekunžu laikā uzkrāj un izanalizē pēdējā laika tvītus par ievadītajiem

atslēgvārdiem.

Attēlo rezultātus sešos (tīmekļa versijā) vai divos (Windows versijā) pārskatāmos

grafikos.

Trūkumi Windows versijā attēlo ļoti maz rezultātus.

Tīmekļa versija analizē samērā maz no ziņas teksta – tikai populārākos vārdus.

Windows versija vispār neanalizē pašu tekstu.

Page 10: Universālas metodes twitter datu analīzei

The Archivist

Page 11: Universālas metodes twitter datu analīzei

Row Feeder Kritērijs Vērtība

Cena Pamata versija pieejama bez maksas, PRO versija - sākot no $35 mēnesī.

Vide Tīmekļa programmatūra

Atvērtā pirmkoda risinājums Nē

Spēja vākt reālā laika datus Jā

Iespēja eksportēt datus Jā

Analīzes metodes Tvītu skaita laika gaitā attēlošana.

Sarunu analīze starp tvītotjiem.

Atrašanās vietas analīze.

Vairāku atslēgvārdu salīdzināšana.

Ietekmes analīze (ar datiem no Klout)

Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte

Priekšrocības Piedāvā atskaites saglabāt kā Excel dokumentus.

Bezmaksas ievācamo tvītu skaitu iespējams papildināt, piesaistot citus

lietotājus.

Trūkumi Bezmaksas versijā ļauj ievākt tikai 500 ziņas mēnesī un tikai pēc viena

atslēgvārda.

Atskaites pieejamas tikai Excel dokumentu formā un nekā citādi.

Page 12: Universālas metodes twitter datu analīzei

Row Feeder

Page 13: Universālas metodes twitter datu analīzei

Pilotprojekts

TwitĒdiens - www.twitediens.tk

Page 14: Universālas metodes twitter datu analīzei

TwitĒdiens

Page 15: Universālas metodes twitter datu analīzei

Twitter ziņu apstrādes process

• Datu vākšana

• Datu priekšapstrāde

• Twitter ziņas analīze

Page 16: Universālas metodes twitter datu analīzei

Datu vākšana

• Twitter API

– Streaming API

– Search API

– Rest API

Page 17: Universālas metodes twitter datu analīzei

Datu priekšapstrāde

• Teksta attīrīšana

• Morfoloģiskā analīze

• Tokenizācija

• Twitter ziņas temata noteikšana

Page 18: Universālas metodes twitter datu analīzei

Twitter ziņas analīze

• Metadati

• Vārdi un kolokācijas

• Atslēgvārdu efektivitāte

• Emotikoni

Page 19: Universālas metodes twitter datu analīzei

Universāls Twitter datu analīzes rīks

GitHub – http://ej.uz/riks-github

Testēšanai – www.twitediens.tk/tool

Page 20: Universālas metodes twitter datu analīzei

Universāls Twitter datu analīzes rīks

Datu analīze

Atrašanās vietas

Birkas

Pieminētie lietotāji

StatistikaEmotikoni

WWW saites

Kalendārs

TOP lietotāji

Datu vākšana

Ar Streaming API Datu bāzes ielāde no faila

Datu priekšapstrāde

Teksta attīrīšana

Teksta tokenizācija

Page 21: Universālas metodes twitter datu analīzei

Universāls Twitter datu analīzes rīks

Page 22: Universālas metodes twitter datu analīzei

Kritērijs Vērtība

Cena Bezmaksas

Vide Tīmekļa programmatūra

Atvērtā pirmkoda risinājums Jā

Spēja vākt reālā laika datus Jā

Analīzes metodes Attēlo tvītu skaita izmaiņu laika gaitā

Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte

Priekšrocības Piedāvā eksportēt ievāktos datus uz .csv

dokumentu.

Piedāvā diezgan plašu skatījumu uz datiem.

Trūkumi Pie milzīgiem datu apjomiem patērē daudz

servera resursu.

Universāls Twitter datu analīzes rīks

Page 23: Universālas metodes twitter datu analīzei

Secinājumi

• Sasniegts darba sākumā izvirzītais mērķis

• Apskatīts sociālais tīmeklis un izpētīts

sociālais tīkls Twitter

• Apgūtas Twitter datu analīzes iespējas,

salīdzinot dažādus rīkus un izstrādājot

pilotprojektu

• Izveidots universāls Twitter datu

analīzes rīks

Page 24: Universālas metodes twitter datu analīzei

Paldies par uzmanību! Tvītojiet daudz, lai ir ko analizēt ;)

www.twitediens.tk http://ej.uz/riks-github

Page 25: Universālas metodes twitter datu analīzei

TweetReach Kritērijs Vērtība

Cena Pamata versija pieejama bez maksas, PRO versija sākot no $84 mēnesī

Vide Tīmekļa programmatūra

Atvērtā pirmkoda risinājums Nē

Spēja vākt reālā laika datus Jā (PRO versijā)

Iespēja eksportēt datus Jā

Analīzes metodes Uzskaita iespējamo ziņas ekspozīciju skaitu, kā arī lietotājus ar lielāko

ietekmi par tēmu, visvairāk pārpublicētās ziņas

Attēlo tvītu skaita izmaiņu laika gaitā

Tipiskais pielietojums Statistikas izpēte / Biznesa izpēte

Priekšrocības Piedāvā atskaites saglabāt kā Excel vai PDF dokumentus.

Par nelielu samaksu piedāvā arī bezmaksas (ne PRO) lietotājiem

saglabāt pilna izmēra atskaiti – līdz 1500 ziņām.

Trūkumi Bezmaksas versijā apskata tikai 50 jaunākās ziņas.

Lai vāktu reālā laika datus, arī jāmaksā.

Page 26: Universālas metodes twitter datu analīzei

ThinkUp Kritērijs Vērtība

Cena Bezmaksas

Vide Tīmekļa programmatūra

Atvērtā pirmkoda risinājums Jā

Spēja vākt reālā laika datus Nē

Iespēja eksportēt datus Jā

Analīzes metodes Analizē lietotāja aktivitāti sociālajos tīklos un attēlo to

grafikos.

Spēj attēlot citu lietotāju atbildes uz ziņām kartē.

Ļauj meklēt tvītos un eksportēt tos kā .csv failu.

Tipiskais pielietojums Personīgā konta pārskats

Priekšrocības Sākuma skatā jeb darbvirsmā (Dashboard) ērti pārskatāmas

svarīgākās pēdējā laika aktivitātes.

Spēj analizēt ne vien Twitter, bet arī Facebook un Google+.

Trūkumi Analizē tikai autentificētā lietotāja datus.

Twitter ziņas tekstu sīkāk neanalizē, vienīgi atpazīst, kuras

ziņas bijušas jautājumi.

Page 27: Universālas metodes twitter datu analīzei

IBM BigSheets Kritērijs Vērtība

Cena Pamata versija pieejama bez maksas

Vide Tīmekļa programmatūra (nepieciešama vai nu Red Hat Enterprise Linux vai

SUSE Linux Enterprise Server servera operētājsistēma)

Atvērtā pirmkoda risinājums Nē

Spēja vākt reālā laika datus Jā

Iespēja eksportēt datus Jā

Analīzes metodes Piedāvā pievienot spraudņus, kas spēj analizēt valodu, tajā skaitā –

sentimentu.

Kopā ar IBM Many Eyes vai kādu citu spraudni izveido datiem dažādas

vizualizācijas, kā, piemēram, birku mākoni.

Tipiskais pielietojums Biznesa izpēte

Priekšrocības Kopā ar spraudņiem ļoti plašas un spēcīgas iespējas.

Spēj tikt galā ar ļoti lieliem datu daudzumiem.

Spēj ložņāt arī pa tīmekļa lapām vai ielādēt analizējamos datus no datora.

Trūkumi Diezgan sarežģīti uzstādīt.

Samērā neērta lietošana - ar datiem jādarbojas kā ar izklājlapām.