Chi controlla l'integrità dei dati?
-
Upload
matteo-fortini -
Category
Technology
-
view
2.396 -
download
0
description
Transcript of Chi controlla l'integrità dei dati?
Chi controlla l’integritàdei dati?
Matteo Fortini
28 Marzo 2014
#SOD14 Barcamp
Bologna
La bontà di un lavoro di data
analysis non può superare la
bontà dei dati su cui si basa
La bontà di un lavoro di data
analysis non può superare la
bontà dei dati su cui si basa
oppure no?
Il percorso
Acquisizione
Organizzazione/Pulizia
Analisi
Dataviz
Storia
Li raccolgo io
Me li ha forniti qualcuno
Conservare
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
◮ In un sistema di versioning: GIT, SVN, . . .
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
◮ In un sistema di versioning: GIT, SVN, . . .
◮ In un container con checksum: ZIP, RAR, 7Z, . . .
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
◮ In un sistema di versioning: GIT, SVN, . . .
◮ In un container con checksum: ZIP, RAR, 7Z, . . .
◮ In una cartella separata . . .
Conservare
Conservare◮ Registrare la fonte: url, ufficio, persona, . . .
Conservare◮ Registrare la fonte: url, ufficio, persona, . . .
◮ Registrare data e ora
Conservare◮ Registrare la fonte: url, ufficio, persona, . . .
◮ Registrare data e ora
◮ Registrare un checksum: md5sum, SHA, . . .
Checksum
Checksum
Integritài dati sono rimasti uguali
Checksum
Integritài dati sono rimasti uguali
Ripudionon sono i miei dati!
Checksum “analogici”
◮ Codice Fiscale
◮ Carte di credito
◮ Gli altri dati?
Coerenza
Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,
temperature. . . )
Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,
temperature. . . )
◮ Fanno parte di un insieme noto? (es. Persone, Seriestoriche. . . )
Outliers
Outliers
Il nostro
problema?
Outliers
Il nostro
problema?
La nostra
notizia?
Elaborazione◮ Come verificare che non ci siano stati errori?
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
◮ Separare Raw->Cooked->Elaborazione
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
◮ Separare Raw->Cooked->Elaborazione
◮ Documentare le trasformazioni
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
◮ Separare Raw->Cooked->Elaborazione
◮ Documentare le trasformazioni
◮ Trasformazioni ripetibili
Portali Opendata:
l’esempio di
http://dati.gov.it
◮ Non hanno un checksum dei dati
◮ Non dichiarano la versione
◮ Mostrano la storia, ma non permettono di accedere alpassato
◮ Il problema dei dati continuamente aggiornati
Riferimenti◮ Broken egg photo by Stewart Butterfield http://www.flickr.com/photos/stewart/
◮ Rubbish emergency in Campania by Chiara Marra https://www.flickr.com/photos/chiaramarra/
◮ Winding road by Wayne Silver https://www.flickr.com/photos/psycho-pics/
◮ US Customs and Border Protection Agriculture Specialist inspects flower by US Customs and Border Protectionhttps://www.flickr.com/photos/cbpphotos/
◮ Decision by Cristi B https://www.flickr.com/photos/cristib/
◮ Thing in a jar by Windell Oskay https://www.flickr.com/photos/oskay/
◮ Darwin Center by Adam Foser https://www.flickr.com/photos/twosevenoneonenineeightthreesevenatenzerosix/
◮ Bubble by Ali T https://www.flickr.com/photos/77682540@N00/
◮ Fowl storm by JD Hancock https://www.flickr.com/photos/jdhancock/
◮ Codice Fiscale by krypt http://openclipart.org/detail/129043/codice-fiscale---tax-code-by-krypt
◮ Dress by Michael http://www.flickr.com/photos/helloturkeytoe/
◮ Outlier by Robert S. Donovan http://www.flickr.com/photos/booleansplit/8482641188/
◮ Bad Apples Fallen Apples Grass by Emilian Robert Vicol http://www.flickr.com/photos/free-stock/
◮ Pot of Gold by Jeremy Schultz http://www.flickr.com/photos/tao_zhyn/
◮ Meat grinder by Anfuehrer http://www.flickr.com/photos/planetbene/
◮ Logo http://dati.gov.it
◮ Chain by SFU Marcin https://www.flickr.com/photos/svoo/