Duomenų vizualizavimas · 2012-03-20 · • 14 amžiuje pasirodė darbai, kuriuose vaizduojami...
Transcript of Duomenų vizualizavimas · 2012-03-20 · • 14 amžiuje pasirodė darbai, kuriuose vaizduojami...
Paskaitos ir laboratoriniai darbai
Paskaitos laikas: Paskaitos vieta: 601 aud. Elektroninė paskaitos valanda: ketvirtadieniais 13.00-14.00 Laboratorinių darbų laikas: ketvirtadieniais 19.00-19.45 Atsiskaitymai: kolokviumas 17%, egzaminas 50%, laboratoriniai
darbai 33%. Laboratorinių darbų vertinimas: kiekvieną savaitę auditorijoje
pristatomi savaitės darbo rezultatai. Kiekvienas atsiskaitymas vertinamas pažymiu.
2
Laboratoriniai darbai Pirmoji užduotis: Pasirinkti duomenų rinkinį; sugalvoti įdomų klausimą
susijusį su pasirinktais duomenimis; pamėginti atsakyti į klausimą atliekant duomenų vizualizaciją pasirinktomis priemonėmis.
Duomenų rinkinių pavyzdžiai: 1. krepšinis 2. futbolas 3. tenisas 4. Lietuvos Respublikos Seimas - balsavimai, stenogramos, lankomumas,
… 5. Rinkimai - įvairūs žemėlapiai, ir pan. 6. LR biudžetas, yra gražių pvz. USA ar UK 7. Viešo valdymo organizacijų dinamika 8. ....
3
Vizualizavimas –
• tai galimybė pamatyti nematomus dalykus
• vaizdo, kuris perteikia informaciją apie duomenis ir procesus, formavimas
• duomenų pateikimas suvokiamai
• vizualizavimo veiksmas bei rezultatas; mintyse esančio vaizdo formavimas – Vaizdas čia gali būti grafikas, grafas, diagrama, paveiksliukas
4
Kodėl vizualizuojama?
• Vizualizacijos tikslas – perteikti žmonėms informaciją grafinėmis priemonėmis.
• Vaizdų suvokimas yra viena tobuliausių ir pajėgiausių, skaičiavimų prasme, žmogaus smegenų sistemų.
• Duomenų vizualizavimas suteikia galimybę pateikti gaunamą informaciją pavidalu, suprantamu vaizdų suvokimo sistemai.
• Pateikiant daugiau informacijos šiai vaizdų suvokimo sistemai atlaisvinamos kitos smegenų sritys, kurios gali būti panaudojamos kitiems tikslams.
5
Vizualizavimo tikslai
• Makro-tikslai – Aprašyti
– Analizuoti
– Pristatyti
• Rezultatas – Atvaizdavimas
– Reziumavimas
– Paaiškinimas
– Sąveikavimas
– Komunikavimas
– Atradimas
• Išgauti svarbiausią/užslėptą informaciją (požymius) • Aiškiai/suprantamai pateikti išgautą informaciją • Interaktyvus išgautos informacijos pateikimo modifikavimas
• Parametrų peržiūra • Parametrų atvaizdavimas • Parametrų tyrinėjimas/gavyba
6
Vizualizavimo tikslai
• Susidaryti vaizdą apie nagrinėjamus duomenis – Atsakant į klausimus
• Kiekybinius – Kokios duomenų reikšmės ir kokie jų pasiskirstymai?
• Kokybinius – Ar tam tikras požymis būdingas nagrinėjamiems duomenims?
– Atrandant ką nors nežinoma/nauja • Kas sudaro duomenų aibę?
7
Konkrečių vizualizavimo tikslų pavyzdžiai
• Vizualizacija moksle – Identifikuoti objektus, palyginti reikšmes, atskirti objektus,
skirstyti objektus į klases – klasifikuoti
• Programinės įrangos vizualizacija – Koncentruotis į tekstą / arba į duomenų struktūras / arba į
programos vykdymą / arba į algoritmą
• Informacijos vizualizacija – Koncentruotis į detales atsižvelgiant į bendrą kontekstą, peržiūrėti
ryšius
8
Kuo naudingas vizualizavimas?
Komunikavimas – vizualizavimas suteikia galimybę sparčiai keistis dideliu kiekiu informacijos.
Atradimai/tyrinėjimai – vizualizavimas suteikia galimybę pavaizduoti didelius kiekius informacijos ir gautame vaizde įžvelgti naujus sąryšius, dėsningumus ir pan.
Supratimas – vizualizavimas suteikia galimybę įžvelgti kažką daugiau mums jau žinomuose dalykuose.
23
Komunikavimas
• Napoleono žygis 1812 – 1812 metais, Prancūzų imperatorius Napoleonas su 400,000
kareivių armija įsiveržė į Rusiją.
– Prancūzai pasiekė Maskvą, bet turėjo trauktis žiemos metu.
– Žiemos šalčiai (iki -30oC) ir partizaninis Rusijos puolimas sunaikino Prancūzijos armiją
– Tik 10,000 žmonių grįžo atgal į Prancūziją
28
Minard’o žemėlapis
• Praėjus 50 metų po šio Napoleono žygio, Prancūzų inžinierius Charles Joseph Minard sudarė žemėlapį, kuriame apibendrinamas Prancūzų žygis
• Sudarytas žemėlapis yra labai iškalbus ir paprastas, todėl vizualizavimo srities tyrėjų buvo pripažintas kaip geriausiu kada nors sukurtu statistiniu grafiku
29
Minard’o žemėlapis • http://strangemaps.wordpress.com/2007/12/31/229-vital-statistics-of-a-deadly-campaign-the-minard-map/
30
Žemėlapio sudėtingumas
• Žemėlapis perteikia sudėtingą, daugiamatį procesą. • Jame vaizduojami duomenys iš 6 duomenų aibių:
– Geografija: duomenys žemėlapyje atitinka tikrovę, t.y. pavaizduoti miestai, upės, jų tikrieji pavadinimai taip, kaip tikrame žemėlapyje
– Armijos žygiavimo maršrutas – Armijos žygiavimo kryptis (oranžinė spalva – puolimas, juoda –
atsitraukimas) – Karių skaičius žygio metu. 1mm atkarpos storio atitinka 10,000 karių – Oro temperatūra – Data
• Sudėtingumas čia pasižymi tame, kad labai didelis kiekis svarbios informacijos yra pateikiamas paprasta grafine forma.
31
Pastebėjimai
• Loterijos rezultatų analizė – Žaidėjas pasirenka skaičių iš intervalo 0-999
– Lošimas vyksta kas savaitę, o laimėjęs skaičius sudaromas iš 3 skaičių, atsitiktinai parenkamų iš intervalo 0-9.
– Atspėjusieji skaičių pasidalina prizinį fondą.
32
Kokią strategiją pasirinkti?
• Loterijos rezultatai viešai publikuojami
• Ar šie duomenys gali suteikti informacijos pasirenkant spėjimo strategiją?
33
254 lošimų rezultatai (810, $190.0), (156, $120.5), (140, $285.5), (542, $184.0), (507, $384.5), (972, $324.5), (431, $114.0), (981, $506.5), (865, $290.0), (499, $869.5), (020, $668.5), (123, $83.0), (356, $188.0), (015, $449.0), (011, $289.5),
(160, $212.0), (507, $466.0), (779, $548.5), (286, $260.0), (268, $300.5), (698, $556.5), (640, $371.5), (136, $112.5), (854, $254.5), (069, $368.0), (199, $510.0), (413, $102.0), (192, $206.5), (602, $261.5), (987, $361.0), (112, $167.5), (245, $187.0), (174, $146.5), (913, $205.0), (828, $348.5), (539, $283.5), (434, $447.0), (357, $102.5), (178, $219.0), (198, $292.5), (406, $343.0), (079, $332.5), (034, $532.5), (089, $445.5), (257, $127.0), (662, $557.5), (524, $203.5), (809, $373.5), (527, $142.0), (257, $230.5), (008, $482.5), (446, $512.5), (440, $330.0), (781, $273.0), (615, $171.0), (231, $178.0), (580, $463.5), (987, $476.0), (391, $290.0), (267, $176.0), (808, $195.0), (258, $159.5), (479, $296.0), (516, $177.5), (964, $406.0), (742, $182.0), (537, $164.5), (275, $137.0), (112, $191.0), (230, $298.0), (310, $110.0), (335, $353.0), (238, $192.5), (294, $308.5), (854, $287.0), (309, $203.5), (026, $377.5), (960, $211.5), (200, $342.0), (604, $259.0), (841, $231.0), (659, $348.0), (735, $159.0), (105, $130.5), (254, $176.0), (117, $128.5), (751, $159.0), (781, $290.0), (937, $335.0), (020, $514.0), (348, $191.0), (653, $304.5), (410, $167.0), (468, $257.0), (077, $640.0), (921, $142.0), (314, $146.0), (683, $356.0), (000, $96.0), (963, $295.0),
34
Kaip parinkti “teisingą” skaičių?
• Iš turimų duomenų galima paanalizuoti sėkmingų skaičių pasiskirstymą
• Vienas iš būdų – skaičius atvaizduoti histograma
35
Analizė
• Atrodytų, kad skaičiai tarp 100 ir 300 dažniau laimi, nei kad kiti
• Tai lyg ir reikštų, kad norint laimėti, reikia pasirinkti iš vieną iš šių skaičių
• Tačiau reikia įvertinti tai, kad skaičius “laimėtojas” parenkamas atsitiktinai...
• Tai, ką matome histogramoje reikėtų vertinti pasitelkiant statistikos teoriją
37
Statistinis variantiškumas
• Turime 254 reikšmes, paskirstytas 10-tyje histogramos stulpelių. Kiekviename stulpelyje reikšmių yra:
• Statistikos teorija teigia, kad jeigu skaičius pasirenkamas atsitiktinai, variantiškumas kiekviename histogramos stulpelyje yra:
38
Statistinis variantiškumas
• Nukrypimai dvigubo dydžio (t.y. 4.78x2=9.56) ribose kiekviename iš histogramos stulpelių leidžia laikyti duomenis atsitiktinai pasiskirsčiusius
39
Loterijos rezultatų analizė
• Nėra jokios priežasties netikėti, kad skaičiai “laimėtojai” yra atsitiktiniai
• Tai reiškia, kad nėra jokio labiau tikėtino skaičiaus
• Jeigu negalima nustatyti labiausiai tikėtino “laimingo” skaičiaus, galima paanalizuoti laimėtąsias sumas
41
Loterijos rezultatų analizė
• Histograma parodo laimėtų sumų įvairovę
• Grafikas sako, kad galbūt galima tuomet pasirinkti skaičių, kuris laimėjimo atveju turėtų didesnę vertę
• Tam reikia išanalizuoti ar yra koks nors ryšys tarp pasirenkamo numerio ir laimėjimo dydžio
• Išsibarstymą vaizduojantis grafikas (angl. scatter) padeda tai identifikuoti
43
Grafiko analizė
• Galima įžvelgti, kad skaičiai, prasidedantys skaitmeniu 0 lyg ir turi didesnes laimėtų sumų reikšmes nei, kad kiti skaičiai
• Patogiau būtų analizuoti grafiką sugrupuojant rezultatus pagal pirmąjį skaitmenį
45
Loterijos rezultatų analizė
• Vienintelis dalykas, ką galima įžvelgti iš šių grafikų yra tai, kad pasirinkti skaičių reikia tokį, kurio nepasirinktų kiti loterijos dalyviai
• Laimėjimo atveju prizinį fondą pasidalinti reikėtų su mažiau laimėjusiųjų žmonių.
• Iš atliktos analizės galima rekomenduoti – Pasirinkti skaičių, prasidedantį 0
– Pasirinkti skaičių su pasikartojančiais skaitmenimis
47
Vizualizavimo istorija
• Yra manoma, kad duomenų vizualizavimas – tai sąlyginai nauja kryptis statistikoje.
• Grafinis informacijos atvaizdavimas turi gilias šaknis – Pradžia siekia 16 amžių – žemėlapių vaizdavimas – Kartografija, statistika, medicina ir kitos sritys
• Tobulėjant spausdinimo technologijoms, matematikos teorijai ir praktikai, empiriniams stebėjimams bei informacijos registravimo priemonėms tobulėjo ir plėtėsi grafikos taikymo sritys, grafikos formos ir turinys.
49
... - 16 amžius: Ankstyvieji žemėlapiai ir Diagramos
• Pirmosios diagramos - žvaigždžių bei kitų dangaus kūnų išsidėstymo žemėlapiai, vietovių žemėlapiai.
• Koordinatės žemėlapių vaizdavimui Egiptiečių buvo naudojamos 200 metais prieš Kristų.
• Žemės rutulio sferinės formos projekcijos žemėlapiai buvo sudaromi 85-165 metais Aleksandrijoje ir tokia žemės vaizdavimo forma buvo kaip standartas iki 14 amžiaus.
52
... - 16 amžius:
• 14 amžiuje pasirodė darbai, kuriuose vaizduojami funkcijų grafikai stulpelių pavidalu, atstumo priklausomybės nuo greičio grafikai
• 16 amžiuje buvo sukurti trianguliacijos bei kiti metodai tiksliam žemėlapių sudarymui,
• Idėja vaizdų stebėjimui kameros principu – 1545 metais panaudota saulės užtemimui užregistruoti
• Šie žingsniai buvo duomenų vizualizavimo mokslo pradžia
55
17 amžius: Matavimai ir teorija
• Pagrindinės 17 amžiaus duomenų vizualizavimo srities problemos buvo susijusios su fizikiniais matavimais – laiko, atstumo, erdvės – astronomijoje, žemėlapių sudaryme.
• Vystėsi sritys kaip geometrija, matavimo paklaidų skaičiavimo teorija, tikimybių teorija (Paskalis ir Fermatas), demografinė statistika
56
Įdomesni 17 a. vizualizavimo darbai
• 1644 m. astronomas M.F. Langren manoma kad pirmasis grafiškai pavaizdavo statistinius duomenis
• Grafiškai pavaizduota 12 astronomų atstumo ilgumos kryptimi įvertinimai tarp miestų Toledo ir Romos
• “Tikrajam” atstumui buvo pasirinktas matavimų vidurkis. (Tikrasis atstumas yra 16o30’)
58
18 a. – naujos grafikų formos
• Statistikos teorijos užuomazgos, atsirandanti įvairių duomenų įvairovė skatino tobulėti vizualizavimo metodams – Žemėlapiuose pradėta vaizduoti ne tik geografinę padėtį, bet ir
izolinijas, kontūrus
– Bandoma grafiškai vaizduoti fizikinius dydžius
– Amžiaus pabaigoje pasirodė diagramos,vaizduojančios geologinius, ekonominius, medicininius duomenis
59
Moses Harris' Prismatic spalvų maišymas
Johann’o Heinrich’o Lambert’o Spalvų piramidė
1731-1785
1728-1777
61
18 a. – naujos grafikų formos
• J. Lambert [1728-1777] pateikė idėją kaip interpoliuoti empirinius duomenis ir per gautus taškus nubrėžti kreives.
• J.Lambertas buvo vienas pirmųjų , kuris naudojo grafikus eksperimentų rezultatų tyrimui, skaičiavo kreivių nuožulnumus, kitimo greitį
62
19 a. – Modernios grafikos pradžia
• Iki laikotarpio pabaigos buvo sukurti visi šiandieną naudojami grafikų tipai – Stulpeliai (angl. bar), – Skritulinės diagramos (angl. pie), – Histogramos, – Atkarpų grafikai (angl. line graphs), – Laiko (angl. time series plots), – Kontūrų (angl. contour plots), – Išsibarstymo (angl. scatterplots)
64
19 a. – Modernios grafikos pradžia
• Žemėlapiuose vaizduojami duomenys iš ekonominių, socialinių, medicinos, fizinės geografijos sričių
• Grafinė analizė gamtos ir fizikinių reiškinių
65
Vidutinė vandens temperatūra pagal lygumos ir plokštumos koordinates, 1849 m. Alexander von Humboldt (1769-1859), Vokietija
66
Trimatės lentelės (temperatūra x valandos x mėnesiai) kontūrų žemėlapis (1845) - Léon Lalanne (1811-1892), Prancūzija
68
Grafike vaizduojamas prekių transportavimas, kur stulpelio plotis žymi transportavimo atstumą, stulpelio aukštis – prekių kiekį, spalvos stulpelyje žymi prekių rūšis, plotas atspindi transportavimo kaštus, rodyklės žymi transportavimo kryptį. 1844 m. C.J.Minard. Grafikas yra laikomas vienu pirmųjų mozaikinių grafikų
69
1900-1950 – tamsusis amžius
• Tamsusis – nes per šį laikotarpį vizualizavimo srityje ryškių naujovių nebuvo
• Išaugo publikacijų duomenų vizualizavimo tema skaičius, išleista daug knygų, aprašančių vizualizavimo metodus.
• Grafinių vizualizavimo metodų dėka pasiekta įvairių atradimų fizikos, astronomijos ir kt. srityse.
• Grafikai pradėti naudoti eksperimentų palyginimams
72
1950-1975
• Duomenų vizualizavimas dvimatėje, trimatėje erdvėje • Technologijos
– Programinė įranga, C kalba, UNIX – Duomenų analizės įrankiai – Vaizdavimo ir išvesties įrenginiai
• Vizualizavimo metodai – Daugiamačių duomenų vizualizavimo metodai – Duomenų matmenų mažinimo technikos – Statistinių procesų animacija
73
http://www.visual-literacy.org/periodic_table/periodic_table.html 78