DJS3 - Quando il Dato non c'è
-
Upload
marco-montanari -
Category
Education
-
view
284 -
download
1
description
Transcript of DJS3 - Quando il Dato non c'è
Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
Quando il dato non c’è
Ovvero come partire senza dati ma con
un’idea
Guido RomeoMarco Montanari
@ingmmo, [email protected], sirmmo.blogspot.com
• Sviluppatore, Appassionato di giochi, Nerd…
– passione per i dati
• “I am a journalist looking for coder friends.”– Jens Finnäs (HacksHackers Helsinki)
• “I am a coder with journalist friends.”– Marco Montanari
Scopo del gioco
• Volete scrivere un articolo su un trend che avete percepito
• Vi servono dati per corroborare la vostra tesi
• Contattate l’ente che potrebbe avere quei dati....
... E ...
ARGH!!!! :/
• Ci mancano i dati
• Chi dovrebbe fornirceli non sa come trovarli
• «Ma c’è una pagina on-line»
– con i dati in tabelle scomodissime
– o in PDF
– o in grafici strani
Programmazione, si…
• I dati possono trovarsi sul web in tanti formati
– Tabellari• xls xlsx csv tsv ods dbf
– Strutturati• xml json (shp)
– Linked data• RDF
– Altro…• HTML
75%
20%
5
50%
Programmazione, si…
• I dati possono trovarsi sul web in tanti formati
– Tabellari• xls xlsx csv tsv ods dbf
– Strutturati• xml json (shp)
– Linked data• RDF
– Altro…• HTML
75%
20%
5
50%
Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
Dove si analizza una pagina web
Scraping via browser
• https://chrome.google.com/webstore/detail/table-capture/iebpjdmgckacbodjpijphcplhebcmeop
• https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd
Scraping via browser
Estrazione di dati tramite Table Capture
Scraping
…ma semplice…
Programmazione, si…
• I dati possono trovarsi sul web in tanti formati
– Tabellari• xls xlsx csv tsv ods dbf
– Strutturati• xml json (shp)
– Linked data• RDF
– Altro…• HTML
http://stackoverflow.com/questions/2861/options-for-html-scraping
75%
20%
5
50%
… e in ogni caso…
… chiamate l’amico sviluppatore!!
Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
HTTP://SIRMMO.GITHUB.IO/DATABOULDER/
Dove si costruisce un semplice scraper di una pagina
Struttura del dato
• 5W
– Who is it about?
– What happened?
– When did it take place?
– Where did it take place?
– Why did it happen?
Dimensioni dei dati
• Ogni «W» è una dimensione
• Ogni dimensione mette in correlazione un aspetto
• Più aspetti implicano più sfaccettature della storia
Fatto
Chi
Cosa
QuandoPerché
Dove
Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
Dove si prende il dataset e si analizzano i dati
Uso del dato
• Dati tabellari – Amati dai
manager
– Non ideali per una «storia»
• Nemmeno ai manager piacciono i dati «puri», ma degli aggregati– Magari in forma
grafica (Dashboard)
Pivoting
• Tabella Pivot– Aggregazioni
semplici
– Fattibile con Excel e/o Libreoffice
Cubi di dati
• Datacube (Big Data?)
– Aggregazioni complesse
– Strumenti più specializzati (Excel le supporta)
Roma,
Scuola superiore di statistica
e di analisi sociali ed
economiche
06/06/2013
DEMO
Dove si prende la tabella e la si analizza attraverso aggregazioni
That’s all Folks!
GRAZIE!
Per qualsiasi domanda:
@[email protected], …sirmmohttp://it.linkedin.com/in/montanarim/https://www.facebook.com/marco.montanarimarco.montanari