Duomenų vizualizavimas · 2012-03-20 · • 14 amžiuje pasirodė darbai, kuriuose vaizduojami...

77
Duomenų vizualizavimas 1

Transcript of Duomenų vizualizavimas · 2012-03-20 · • 14 amžiuje pasirodė darbai, kuriuose vaizduojami...

Duomenų vizualizavimas

1

Paskaitos ir laboratoriniai darbai

Paskaitos laikas: Paskaitos vieta: 601 aud. Elektroninė paskaitos valanda: ketvirtadieniais 13.00-14.00 Laboratorinių darbų laikas: ketvirtadieniais 19.00-19.45 Atsiskaitymai: kolokviumas 17%, egzaminas 50%, laboratoriniai

darbai 33%. Laboratorinių darbų vertinimas: kiekvieną savaitę auditorijoje

pristatomi savaitės darbo rezultatai. Kiekvienas atsiskaitymas vertinamas pažymiu.

2

Laboratoriniai darbai Pirmoji užduotis: Pasirinkti duomenų rinkinį; sugalvoti įdomų klausimą

susijusį su pasirinktais duomenimis; pamėginti atsakyti į klausimą atliekant duomenų vizualizaciją pasirinktomis priemonėmis.

Duomenų rinkinių pavyzdžiai: 1. krepšinis 2. futbolas 3. tenisas 4. Lietuvos Respublikos Seimas - balsavimai, stenogramos, lankomumas,

… 5. Rinkimai - įvairūs žemėlapiai, ir pan. 6. LR biudžetas, yra gražių pvz. USA ar UK 7. Viešo valdymo organizacijų dinamika 8. ....

3

Vizualizavimas –

• tai galimybė pamatyti nematomus dalykus

• vaizdo, kuris perteikia informaciją apie duomenis ir procesus, formavimas

• duomenų pateikimas suvokiamai

• vizualizavimo veiksmas bei rezultatas; mintyse esančio vaizdo formavimas – Vaizdas čia gali būti grafikas, grafas, diagrama, paveiksliukas

4

Kodėl vizualizuojama?

• Vizualizacijos tikslas – perteikti žmonėms informaciją grafinėmis priemonėmis.

• Vaizdų suvokimas yra viena tobuliausių ir pajėgiausių, skaičiavimų prasme, žmogaus smegenų sistemų.

• Duomenų vizualizavimas suteikia galimybę pateikti gaunamą informaciją pavidalu, suprantamu vaizdų suvokimo sistemai.

• Pateikiant daugiau informacijos šiai vaizdų suvokimo sistemai atlaisvinamos kitos smegenų sritys, kurios gali būti panaudojamos kitiems tikslams.

5

Vizualizavimo tikslai

• Makro-tikslai – Aprašyti

– Analizuoti

– Pristatyti

• Rezultatas – Atvaizdavimas

– Reziumavimas

– Paaiškinimas

– Sąveikavimas

– Komunikavimas

– Atradimas

• Išgauti svarbiausią/užslėptą informaciją (požymius) • Aiškiai/suprantamai pateikti išgautą informaciją • Interaktyvus išgautos informacijos pateikimo modifikavimas

• Parametrų peržiūra • Parametrų atvaizdavimas • Parametrų tyrinėjimas/gavyba

6

Vizualizavimo tikslai

• Susidaryti vaizdą apie nagrinėjamus duomenis – Atsakant į klausimus

• Kiekybinius – Kokios duomenų reikšmės ir kokie jų pasiskirstymai?

• Kokybinius – Ar tam tikras požymis būdingas nagrinėjamiems duomenims?

– Atrandant ką nors nežinoma/nauja • Kas sudaro duomenų aibę?

7

Konkrečių vizualizavimo tikslų pavyzdžiai

• Vizualizacija moksle – Identifikuoti objektus, palyginti reikšmes, atskirti objektus,

skirstyti objektus į klases – klasifikuoti

• Programinės įrangos vizualizacija – Koncentruotis į tekstą / arba į duomenų struktūras / arba į

programos vykdymą / arba į algoritmą

• Informacijos vizualizacija – Koncentruotis į detales atsižvelgiant į bendrą kontekstą, peržiūrėti

ryšius

8

Atvaizdavimas

9

Atvaizdavimas

10

Aprašymas

11

Aprašymas

http://www.youtube.com/watch?v=D9_MMwBNJVI 12

Reziumavimas

http://www.psych.utoronto.ca/users/spence/Spence_Wainer_2005.pdf 13

Reziumavimas

14

Atradimai

15

Paaiškinimai

16

Paaiškinimas

17

Paaiškinimas

18

Sąveikavimas

19

Sąveikavimas

20

Komunikavimas

21

Kuo naudingas vizualizavimas?

Komunikavimas – vizualizavimas suteikia galimybę sparčiai keistis dideliu kiekiu informacijos.

Atradimai/tyrinėjimai – vizualizavimas suteikia galimybę pavaizduoti didelius kiekius informacijos ir gautame vaizde įžvelgti naujus sąryšius, dėsningumus ir pan.

Supratimas – vizualizavimas suteikia galimybę įžvelgti kažką daugiau mums jau žinomuose dalykuose.

23

Kodėl vizualizuojama?

• Informacijos gausa

• Technologijų augimas

24

Informacijos gausa

25

Technologijos

26

Technologijos

27

Komunikavimas

• Napoleono žygis 1812 – 1812 metais, Prancūzų imperatorius Napoleonas su 400,000

kareivių armija įsiveržė į Rusiją.

– Prancūzai pasiekė Maskvą, bet turėjo trauktis žiemos metu.

– Žiemos šalčiai (iki -30oC) ir partizaninis Rusijos puolimas sunaikino Prancūzijos armiją

– Tik 10,000 žmonių grįžo atgal į Prancūziją

28

Minard’o žemėlapis

• Praėjus 50 metų po šio Napoleono žygio, Prancūzų inžinierius Charles Joseph Minard sudarė žemėlapį, kuriame apibendrinamas Prancūzų žygis

• Sudarytas žemėlapis yra labai iškalbus ir paprastas, todėl vizualizavimo srities tyrėjų buvo pripažintas kaip geriausiu kada nors sukurtu statistiniu grafiku

29

Minard’o žemėlapis • http://strangemaps.wordpress.com/2007/12/31/229-vital-statistics-of-a-deadly-campaign-the-minard-map/

30

Žemėlapio sudėtingumas

• Žemėlapis perteikia sudėtingą, daugiamatį procesą. • Jame vaizduojami duomenys iš 6 duomenų aibių:

– Geografija: duomenys žemėlapyje atitinka tikrovę, t.y. pavaizduoti miestai, upės, jų tikrieji pavadinimai taip, kaip tikrame žemėlapyje

– Armijos žygiavimo maršrutas – Armijos žygiavimo kryptis (oranžinė spalva – puolimas, juoda –

atsitraukimas) – Karių skaičius žygio metu. 1mm atkarpos storio atitinka 10,000 karių – Oro temperatūra – Data

• Sudėtingumas čia pasižymi tame, kad labai didelis kiekis svarbios informacijos yra pateikiamas paprasta grafine forma.

31

Pastebėjimai

• Loterijos rezultatų analizė – Žaidėjas pasirenka skaičių iš intervalo 0-999

– Lošimas vyksta kas savaitę, o laimėjęs skaičius sudaromas iš 3 skaičių, atsitiktinai parenkamų iš intervalo 0-9.

– Atspėjusieji skaičių pasidalina prizinį fondą.

32

Kokią strategiją pasirinkti?

• Loterijos rezultatai viešai publikuojami

• Ar šie duomenys gali suteikti informacijos pasirenkant spėjimo strategiją?

33

254 lošimų rezultatai (810, $190.0), (156, $120.5), (140, $285.5), (542, $184.0), (507, $384.5), (972, $324.5), (431, $114.0), (981, $506.5), (865, $290.0), (499, $869.5), (020, $668.5), (123, $83.0), (356, $188.0), (015, $449.0), (011, $289.5),

(160, $212.0), (507, $466.0), (779, $548.5), (286, $260.0), (268, $300.5), (698, $556.5), (640, $371.5), (136, $112.5), (854, $254.5), (069, $368.0), (199, $510.0), (413, $102.0), (192, $206.5), (602, $261.5), (987, $361.0), (112, $167.5), (245, $187.0), (174, $146.5), (913, $205.0), (828, $348.5), (539, $283.5), (434, $447.0), (357, $102.5), (178, $219.0), (198, $292.5), (406, $343.0), (079, $332.5), (034, $532.5), (089, $445.5), (257, $127.0), (662, $557.5), (524, $203.5), (809, $373.5), (527, $142.0), (257, $230.5), (008, $482.5), (446, $512.5), (440, $330.0), (781, $273.0), (615, $171.0), (231, $178.0), (580, $463.5), (987, $476.0), (391, $290.0), (267, $176.0), (808, $195.0), (258, $159.5), (479, $296.0), (516, $177.5), (964, $406.0), (742, $182.0), (537, $164.5), (275, $137.0), (112, $191.0), (230, $298.0), (310, $110.0), (335, $353.0), (238, $192.5), (294, $308.5), (854, $287.0), (309, $203.5), (026, $377.5), (960, $211.5), (200, $342.0), (604, $259.0), (841, $231.0), (659, $348.0), (735, $159.0), (105, $130.5), (254, $176.0), (117, $128.5), (751, $159.0), (781, $290.0), (937, $335.0), (020, $514.0), (348, $191.0), (653, $304.5), (410, $167.0), (468, $257.0), (077, $640.0), (921, $142.0), (314, $146.0), (683, $356.0), (000, $96.0), (963, $295.0),

34

Kaip parinkti “teisingą” skaičių?

• Iš turimų duomenų galima paanalizuoti sėkmingų skaičių pasiskirstymą

• Vienas iš būdų – skaičius atvaizduoti histograma

35

Loterijos rezultatai

36

Analizė

• Atrodytų, kad skaičiai tarp 100 ir 300 dažniau laimi, nei kad kiti

• Tai lyg ir reikštų, kad norint laimėti, reikia pasirinkti iš vieną iš šių skaičių

• Tačiau reikia įvertinti tai, kad skaičius “laimėtojas” parenkamas atsitiktinai...

• Tai, ką matome histogramoje reikėtų vertinti pasitelkiant statistikos teoriją

37

Statistinis variantiškumas

• Turime 254 reikšmes, paskirstytas 10-tyje histogramos stulpelių. Kiekviename stulpelyje reikšmių yra:

• Statistikos teorija teigia, kad jeigu skaičius pasirenkamas atsitiktinai, variantiškumas kiekviename histogramos stulpelyje yra:

38

Statistinis variantiškumas

• Nukrypimai dvigubo dydžio (t.y. 4.78x2=9.56) ribose kiekviename iš histogramos stulpelių leidžia laikyti duomenis atsitiktinai pasiskirsčiusius

39

40

Loterijos rezultatų analizė

• Nėra jokios priežasties netikėti, kad skaičiai “laimėtojai” yra atsitiktiniai

• Tai reiškia, kad nėra jokio labiau tikėtino skaičiaus

• Jeigu negalima nustatyti labiausiai tikėtino “laimingo” skaičiaus, galima paanalizuoti laimėtąsias sumas

41

42

Loterijos rezultatų analizė

• Histograma parodo laimėtų sumų įvairovę

• Grafikas sako, kad galbūt galima tuomet pasirinkti skaičių, kuris laimėjimo atveju turėtų didesnę vertę

• Tam reikia išanalizuoti ar yra koks nors ryšys tarp pasirenkamo numerio ir laimėjimo dydžio

• Išsibarstymą vaizduojantis grafikas (angl. scatter) padeda tai identifikuoti

43

44

Grafiko analizė

• Galima įžvelgti, kad skaičiai, prasidedantys skaitmeniu 0 lyg ir turi didesnes laimėtų sumų reikšmes nei, kad kiti skaičiai

• Patogiau būtų analizuoti grafiką sugrupuojant rezultatus pagal pirmąjį skaitmenį

45

46

Loterijos rezultatų analizė

• Vienintelis dalykas, ką galima įžvelgti iš šių grafikų yra tai, kad pasirinkti skaičių reikia tokį, kurio nepasirinktų kiti loterijos dalyviai

• Laimėjimo atveju prizinį fondą pasidalinti reikėtų su mažiau laimėjusiųjų žmonių.

• Iš atliktos analizės galima rekomenduoti – Pasirinkti skaičių, prasidedantį 0

– Pasirinkti skaičių su pasikartojančiais skaitmenimis

47

Vizualizavimo istorija

48

Vizualizavimo istorija

• Yra manoma, kad duomenų vizualizavimas – tai sąlyginai nauja kryptis statistikoje.

• Grafinis informacijos atvaizdavimas turi gilias šaknis – Pradžia siekia 16 amžių – žemėlapių vaizdavimas – Kartografija, statistika, medicina ir kitos sritys

• Tobulėjant spausdinimo technologijoms, matematikos teorijai ir praktikai, empiriniams stebėjimams bei informacijos registravimo priemonėms tobulėjo ir plėtėsi grafikos taikymo sritys, grafikos formos ir turinys.

49

Milestone projektas - http://datavis.ca/milestones/

50

51

... - 16 amžius: Ankstyvieji žemėlapiai ir Diagramos

• Pirmosios diagramos - žvaigždžių bei kitų dangaus kūnų išsidėstymo žemėlapiai, vietovių žemėlapiai.

• Koordinatės žemėlapių vaizdavimui Egiptiečių buvo naudojamos 200 metais prieš Kristų.

• Žemės rutulio sferinės formos projekcijos žemėlapiai buvo sudaromi 85-165 metais Aleksandrijoje ir tokia žemės vaizdavimo forma buvo kaip standartas iki 14 amžiaus.

52

53

54

... - 16 amžius:

• 14 amžiuje pasirodė darbai, kuriuose vaizduojami funkcijų grafikai stulpelių pavidalu, atstumo priklausomybės nuo greičio grafikai

• 16 amžiuje buvo sukurti trianguliacijos bei kiti metodai tiksliam žemėlapių sudarymui,

• Idėja vaizdų stebėjimui kameros principu – 1545 metais panaudota saulės užtemimui užregistruoti

• Šie žingsniai buvo duomenų vizualizavimo mokslo pradžia

55

17 amžius: Matavimai ir teorija

• Pagrindinės 17 amžiaus duomenų vizualizavimo srities problemos buvo susijusios su fizikiniais matavimais – laiko, atstumo, erdvės – astronomijoje, žemėlapių sudaryme.

• Vystėsi sritys kaip geometrija, matavimo paklaidų skaičiavimo teorija, tikimybių teorija (Paskalis ir Fermatas), demografinė statistika

56

Įdomesni 17 a. vizualizavimo darbai

57

Įdomesni 17 a. vizualizavimo darbai

• 1644 m. astronomas M.F. Langren manoma kad pirmasis grafiškai pavaizdavo statistinius duomenis

• Grafiškai pavaizduota 12 astronomų atstumo ilgumos kryptimi įvertinimai tarp miestų Toledo ir Romos

• “Tikrajam” atstumui buvo pasirinktas matavimų vidurkis. (Tikrasis atstumas yra 16o30’)

58

18 a. – naujos grafikų formos

• Statistikos teorijos užuomazgos, atsirandanti įvairių duomenų įvairovė skatino tobulėti vizualizavimo metodams – Žemėlapiuose pradėta vaizduoti ne tik geografinę padėtį, bet ir

izolinijas, kontūrus

– Bandoma grafiškai vaizduoti fizikinius dydžius

– Amžiaus pabaigoje pasirodė diagramos,vaizduojančios geologinius, ekonominius, medicininius duomenis

59

60

Moses Harris' Prismatic spalvų maišymas

Johann’o Heinrich’o Lambert’o Spalvų piramidė

1731-1785

1728-1777

61

18 a. – naujos grafikų formos

• J. Lambert [1728-1777] pateikė idėją kaip interpoliuoti empirinius duomenis ir per gautus taškus nubrėžti kreives.

• J.Lambertas buvo vienas pirmųjų , kuris naudojo grafikus eksperimentų rezultatų tyrimui, skaičiavo kreivių nuožulnumus, kitimo greitį

62

18 a. – naujos grafikų formos

63

19 a. – Modernios grafikos pradžia

• Iki laikotarpio pabaigos buvo sukurti visi šiandieną naudojami grafikų tipai – Stulpeliai (angl. bar), – Skritulinės diagramos (angl. pie), – Histogramos, – Atkarpų grafikai (angl. line graphs), – Laiko (angl. time series plots), – Kontūrų (angl. contour plots), – Išsibarstymo (angl. scatterplots)

64

19 a. – Modernios grafikos pradžia

• Žemėlapiuose vaizduojami duomenys iš ekonominių, socialinių, medicinos, fizinės geografijos sričių

• Grafinė analizė gamtos ir fizikinių reiškinių

65

Vidutinė vandens temperatūra pagal lygumos ir plokštumos koordinates, 1849 m. Alexander von Humboldt (1769-1859), Vokietija

66

19 a. – Modernios grafikos pradžia

67

Trimatės lentelės (temperatūra x valandos x mėnesiai) kontūrų žemėlapis (1845) - Léon Lalanne (1811-1892), Prancūzija

68

Grafike vaizduojamas prekių transportavimas, kur stulpelio plotis žymi transportavimo atstumą, stulpelio aukštis – prekių kiekį, spalvos stulpelyje žymi prekių rūšis, plotas atspindi transportavimo kaštus, rodyklės žymi transportavimo kryptį. 1844 m. C.J.Minard. Grafikas yra laikomas vienu pirmųjų mozaikinių grafikų

69

Atskirų grafikų vaizdavimas žemėlapiuose

70

Statistiniai atlasai

71

1900-1950 – tamsusis amžius

• Tamsusis – nes per šį laikotarpį vizualizavimo srityje ryškių naujovių nebuvo

• Išaugo publikacijų duomenų vizualizavimo tema skaičius, išleista daug knygų, aprašančių vizualizavimo metodus.

• Grafinių vizualizavimo metodų dėka pasiekta įvairių atradimų fizikos, astronomijos ir kt. srityse.

• Grafikai pradėti naudoti eksperimentų palyginimams

72

1950-1975

• Duomenų vizualizavimas dvimatėje, trimatėje erdvėje • Technologijos

– Programinė įranga, C kalba, UNIX – Duomenų analizės įrankiai – Vaizdavimo ir išvesties įrenginiai

• Vizualizavimo metodai – Daugiamačių duomenų vizualizavimo metodai – Duomenų matmenų mažinimo technikos – Statistinių procesų animacija

73

74

Hierarchinis grafų vizualizavimas Hierarchinis grafų vizualizavimas

75

PĮ autorių indėlio vizualizavimas

Programinės įrangos autorių indėlio vizualizavimas

76

77

http://www.visual-literacy.org/periodic_table/periodic_table.html 78