Datos internet
-
Upload
fernando-tricas-garcia -
Category
Technology
-
view
5.157 -
download
0
description
Transcript of Datos internet
Datos e Internet
Fernando Tricas
Informatica y periodismo en la sociedad electronica. Curso avanzado de nuevastecnologıas y comunicacion
Walqa, Huesca. 26 y 27 de julio de 2010
¿Y Usted que opina?
http://www.flickr.com/photos/sugarpond/3060011206/
Indice
1. La gente
2. Datos no estructurados
3. Datos estructurados
4. APIs
5. Sentimiento
6. Analisis de redes sociales
7. Mundo fısico
Colaboracion
¿Puede tener sentido resolver algunos problemas usandoprocesadores de la gente?
I SETI@homeI Publico el 17 de mayo de 1999I Analisis de senales recibidas en el radiotelecopio de Arecibo
I Berkeley Open Infrastructure for Network ComputingI Supercomputador voluntario de proposito ‘general’I 435,000 computadores, 521 TFlops (12 marzo de 2007)I Un monton de proyectos . . .
I Supercomputador ciudadano ibercivisI Confinamiento de partıculas en un campo magneticoI Unos 18,000 ordenadores
La gente esta dispuesta . . .
I Bitacoras (blogs), wikis, fotos, vıdeos . . . web 2.0 . . . compartir
I Incluso hay iniciativas que tratan de sacar partido de ello
http://www.mturk.com/mturk/welcome
Y otras mas voluntariosas
I Por unos motivos . . .
http://stardustathome.ssl.berkeley.edu/
Y otras mas voluntariosas
I O por otros:
http://www.texasborderwatch.com/
Tratamiento de los datos
Soluciones de baja tecnologıa
I Web ScrapingI Bajar las paginas web y buscar lo que hay dentroI No todos los sitios lo permiten/ lo ven bien
Herramientas:
I Descargar: wget, HTTrack, ...
I Procesar: expresiones regulares, sed, Perl, Python ...
¿Que es una pagina web?
...
Ejemplo. ¿Como son los blogueros ’populares’?El nombre de las cosas
Premios Blogoteca Tops Premios20 Minutos 20 Minutos Wikio Bitacoras Blogia** de (231) ** de (226) ** de (256) ** de (279) ** de (8380)blog (47) blog (74) blog (129) blog (112) blog (2075)** un (37) ** un (26) cine (34) ** un (36) ** un (982)** mi (21) ** mi (22) linux (23) ** del (29) ** mi (942)** una (21) mundo (19) ** un (23) podcast (24) ** una (544)mundo (20) ** una (18) moda (21) viajes (20) vida (525)vida (16) vida (14) cocina (16) recetas (17) mundo (521)twitter (13) diario (13) ciencia (15) ** mi (16) diario (292)diario (12) cosas (9) mundo (14) mundo (16) bienvenidos (270)
madrid (10) digital (7) salud (13) fotos (13) web (250)cine (10) madrid (6) motor (13) vida (13) club (199)rincon (7) rincon (5) viajes (10) digital (12) juan (189)digital (6) cocina (5) futbol (10) cocina (12) san (182)
. . .ies (113 + 24)
1000 1000 1546 1381 131112
Ejemplo: ¿Como son los blogueros ’populares’?¿Y la blogosfera?
Premios Blogoteca Tops Premios20 Minutos 20 minutos Wikio Bitacoras.com
blogspot (602) blogspot (651) blogspot (463) blogspot (371)twitter (41) wordpress (43) wordpress (70) twitter (97)wordpress (41) twitter (12) diariomedico (13) wordpress (68)blogia (5) lacoctelera (10) elpais (10) salleurl (8)lacoctelera (5) clarin (5) madrimasd (7) fotolog (6)elpais (3) live (4) elleblogs (6) lacoctelera (5)tumblr (2) ecosistemaurbano (2) rtve (5) elpais (5)espacioblog (2) blogcindario (2) 20minutos (5) blogia (4)fotolog (2) blog (2) elcorreodigital (5) bitacoras (3)blogaliza (2) blip (2) publico (5) turincon (3)
Ejemplo. La lista WIP (2010-07-20)http://www.lalistawip.com/
EjemplosI Los buscadoresI Google NewsI Otros...
http://www.blogrunner.com/
Datos estructurados, APIs
¿Que es una pagina web?
...
...
Datos estructurados
I XML (Extensible Markup Language)
Y otros ...
I JSON (JavaScript Object Notation)
I CSV (Comma Separated Values)
(Hay mas)
Y derivados...RSS
Rich Site Summary // RDF Site Summary // Really SimpleSyndication
O relacionados
Microformatos
O relacionados
Microformatos
Un calendario
http://elmcity.cloudapp.net/services/a2cal/html
http://elmcity.cloudapp.net/
APIs. Application Programming Interface
[Bill Joy, Cofundador de Sun Microsystems] ”Most of thesmart people in the world don’t work for you”
[Ley de Joel Spolsky] ”Most customers use 20 % of thefeatures. This leads many naive startups to think theycan deliver a product with 20 % of the features and stillcapture the market. Then they crash and burn when theydiscover that actually everybody is using a different20 % subset of the features of the market leader.”
[Dan Gillmor] ”My readers know more than I do”
APIs. Dejar que otros programen nuestros sistemas
I Permitir el acceso a los datos de nuestro sistema
I Utilizacion bienvenida
I Condiciones controladas
I Resultados predecibles y estructurados
Ejemplo. API Flickr
Estudio sobre los turistas en las Islas Canarias (con Vıctor R. Ruızhttp://linotipo.es).
I Flickr es un sitio (de Yahoo!) para publicar fotografıas
I Alojaba en 2008 mas de 3 mil millones de imagenes.I Usuarios
I 40 % de usuarios entre 25 y 44 anosI 40 % de usuarios mas de 44 anos
Ejemplo. Flickr
Ejemplo. Flickr
Ejemplo. Flickr
Ejemplo. Flickr
Ejemplo. Flickr
I API de Flickr
I Descargar meta-informacion de las fotografıas realizadasentre 2004 y 2008
I Y los datos del perfil de los usuarios
Ejemplo. Flickr
Resultados:
I 150.000 imagenesI 4.000 fotografos
I Y sus datos (en algunos casos, geolocalizados)
I 217.000 etiquetasI 34.000 diferentes
I media 14 etiquetas por fotoI mediana 8 etiquetas por foto
Ejemplo. Flickr
Ejemplo. Flickr
Sabemos mas:
I La hora. (Hora punta: las 12.00)
I Vistas
I Paıs de orıgen de los fotografos (incluso a nivel de region,comunidad, ciudad, en algunos casos).
I A lo largo del tiempo.
Ejemplo. Flickr
Ejemplo. FlickrSabemos:
I A donde van los visitantes britanicosI Los holandeses prefieren LanzaroteI Los madrilenos tambien. Y La Palma.
No sabemos:
I ¿Los visitantes repiten?I ¿A que otros sitios viajan?I ¿Sus amigos vienen despues?I ¿Y en otros destinos?
http://rvr.linotipo.es/2009/10/
redes-sociales-y-turismo-flickr-y-canarias.html
—————-
Hay mas gente mirando estas cosas...D. Crandall, L. Backstrom, D. Huttenlocher, J. Kleingerg,‘Mapping the World’s Photos’
Ejemplo. FlickrSabemos:
I A donde van los visitantes britanicosI Los holandeses prefieren LanzaroteI Los madrilenos tambien. Y La Palma.
No sabemos:
I ¿Los visitantes repiten?I ¿A que otros sitios viajan?I ¿Sus amigos vienen despues?I ¿Y en otros destinos?
http://rvr.linotipo.es/2009/10/
redes-sociales-y-turismo-flickr-y-canarias.html
—————-
Hay mas gente mirando estas cosas...D. Crandall, L. Backstrom, D. Huttenlocher, J. Kleingerg,‘Mapping the World’s Photos’
Ejemplo. Interes turıstico
http://www.bluemoon.ee/~ahti/touristiness-map/
(fotos de Panoramio)
¿Solo fotos? Los sentimientos
Menciones (Facebook – New York Times)
Menciones (Facebook – New York Times)
Durante la final ...
I Iniesta: 0,9 % de las menciones en Facebook
I Villa: 0.47 %
I Casillas: 0.45 %
I Torres: 0.36 %
I Robben: 0.27 %
I Forlan: 0.19 %
I Sneijder: 0.16 %
http://www.nytimes.com/interactive/2010/07/02/sports/soccer/facebook-worldcup.html
Ejemplo. Google Trends
http://www.google.org/trends?q=Contador
¿Como es la gente?
[Consulta en Google (y sugerencias)] “Tengo 20 anos”
20 30 40 50 60 70 80 TotalNunca he tenido novio X 1Nunca he besado X 1Nunca he tenido novia X X 2No tengo amigos X X 2Mi novia 15 X 1No se que hacer con mi vida X 1Se me cae el pelo X 1Estoy embarazada X X 2Nunca he trabajado X X 2Tengo acne X 1Vivo con mis padres X 1Me siento vieja X 1Quiero estudiar X 1No se que hacer con mi vida X 1No puedo bajar de peso o quiero bajar de peso X X 2Quiero embarazarme X 1Estoy sola X 1Busco trabajo X 1¿Que? X 1Me puedo jubilar X 1Me estoy muriendo X 1
http://elaragon.wordpress.com/2010/05/12/sugerencias-de-google-por-espectro-de-edad/
Datos que no son publicos. Telefonıa
Datos O2 en UK, volumen de SMSshttp://flowingdata.com/2010/06/29/
texting-volume-during-world-cup-matches/
Ejemplo. El iPad
No muy bien recibido...
Ejemplo. El iPad en TwitterLa gente vota (http://www.fiascoawards.com/)
Ejemplo. El iPad
La gente puede comprarlo
Ejemplo. El iPadPasa el tiempo
Ejemplo. El iPad
En resumen
http://twittersentiment.appspot.com/search?query=ipad
O el iPhone
En blogs
http://www.blogpulse.com/trend?query1=ipad&label1=&query2=iphone&label2=&query3=&label3=&days=
180&x=28&y=8
Datos privados. El futbol en Tuenti
http://www.flickr.com/photos/tuenti/4786282298/
Datos privados. Google tambien lo sabe
25 de junio. Partido Espana – Chile.http://googleblog.blogspot.com/2010/07/
most-world-cup-crazy-countries.html
‘Futbolosidad’
http://googleblog.blogspot.com/2010/07/
most-world-cup-crazy-countries.html
Mas deporte
http://blogpulse.com/trend?query1=casillas&label1=
&query2=contador&label2=&query3=alonso&label3=&days=
90&x=31&y=14 (2010-07-21)
Lo mas
I Lo mas visto
I Lo mas comentado
I Lo mas ...
Lo mas e internet
¡Enlaces!http://www.nytimes.com/gst/mostblogged.html
http://www.blogrunner.com/
No es bueno que el hombre este solo
[Analisis de redes sociales] Estudio de la estructura socialde las personas (organizaciones, cosas, ...) conectadasmediante relaciones (amistad, parentesco, interes, ...).Las relaciones, los contactos influyen en nosotros.
I No confundir con el grafo social (representacion visual de lasrelaciones)
I No confundir con los sitios sociales (Facebook, Tuenti)
Relaciones en internet
Blogs
http://atalaya.blogalia.com/historias/8149
(Con JJ. Merelo)
Relaciones en internet
http://www.deugarte.com/la-topologia-de-la-blogsfera-segun-feevy
(David de Ugarte)
Relaciones en el ‘mundo real’
http://arxiv.org/abs/physics/0610104
Structure and tie strengths in mobile communication networks. Authors: J.-P.Onnela, J. Saramaki, J. Hyvonen, G. Szabo, D. Lazer, K. Kaski, J. Kertesz,A.-L. Barabasi
http://www.flickr.com/photos/pietermorlion/2127296477/http://www.flickr.com/photos/anaypacosancho/2357581936/
¿Podemos conocer mejor a lagente?
Ejemplo. TwitterLo que dicen de sı mismas las personas (Bio)
Por ejemplo, en TwitterLo que dicen de sı mismas las personas (Bio) ‘Tuiteros’geolocalizados (A. Rivero) + Zaragozanos (J.A. Biel)
¿Como te sientes?
Pulse of the Nation: U.S. Mood Throughout the Day inferred fromTwitter. (Verde feliz)
http://www.ccs.neu.edu/home/amislove/twittermood/
Volvemos a las IslasLos nombres de las cosas
Propagacion de Informacion. El meme de enjut@mojamut@
El objetivo del meme es conocer los usos y costumbres delos blogosferianos y ver como es la relacion de loshombres y las mujeres en Internet.
Pregunta: ¿Cuantas horas al dıa de media pasas conectad@ a Internet?
Pregunta: ¿Cuantas cuentas de correo tienes?
Pregunta: ¿De cuantas redes sociales eres?
Pregunta: ¿Que te gusta mas para expresarte el blog, el wiki, Flickr oTwiter?
Pregunta: ¿A cuantas mujeres blogueras conoces personalmente?
Pregunta: ¿A cuantas mujeres blogueras lees habitualmente?
Pregunta: ¿A quien le paso el meme?
Propagacion de Informacion. El meme de enjut@mojamut@
http://seccionfemenina.blogspot.com/2008/05/
informe-del-meme-de-enjut-mojamut.html
Propagacion de Informacion. El meme de enjut@mojamut@
Y diversificacion
Propagacion de Informacion. El meme de enjut@mojamut@
http://vimeo.com/9532646
http://www.barriblog.com/wiki/index.php/Resultados_enjuta_mojamuta
Por influencia (TIER-5 el mas influyente)
En todo caso, el mundo es mas complicado
http://fernand0.blogalia.com/historias/64929#570323
Mundo fısico
Las cosas y la red
http://www.dailymail.co.uk/sciencetech/article-1036931/
Bluetooth-Big-Brother-uses-mobiles-laptops-track-thousands-Britons.
html
http:
//www.technovelgy.com/ct/Science-Fiction-News.asp?NewsNum=1781
Las cosas y la red y nosotrosMezclando informacion
Vassilis Kostakos y Panos A. Kostakos, “Intelligence gathering by capturing thesocial processes within prisons”
“How Bluetooth Surveillance Works”
http://electronics.howstuffworks.com/bluetooth-surveillance.htm/
printable
Las cosas y la red y nosotrosPronto, en su tienda mas cercana
http://p10.hostingprod.com/@spyblog.org.uk/blog/2008/05/
path-intelligence-phorm-for-shopping-centres.html
“Shops track customers via mobile phone”http://technology.timesonline.co.uk/tol/news/tech_and_web/
article3945496.ece
Path Intelligence FootPath(TM) // http://www.pathintelligence.com/
Pachube en Walqa
http://www.pachube.com/feeds/6289
http://www.flickr.com/photos/min0n/4389892262
Los programas
J.M. Gonzalez-Barahona, G. Robles, M. Mirchlmayr, JJ. Amor,D.M German, “Macro-level software evolution: a case study of alarge software compilation”
La Wikipedia
Felipe Ortega “Wikipedia: A quantitative analysis.Evolucion delnumero de autores en las 10 Wikipedias mayores. Numero deautores en el ‘core’ (10 % mas activos).
Software libre
I La libertad de usar el programa, con cualquier proposito(libertad 0).
I La libertad de estudiar como funciona el programa, yadaptarlo a tus necesidades (libertad 1). El acceso al codigofuente es una condicion previa para esto.
I La libertad de distribuir copias, con lo que puedes ayudar a tuvecino (libertad 2).
I La libertad de mejorar el programa y hacer publicas lasmejoras a los demas, de modo que toda la comunidad sebeneficie. (libertad 3). El acceso al codigo fuente es unrequisito previo para esto.
¿Y los datos?
Software libre
I La libertad de usar el programa, con cualquier proposito(libertad 0).
I La libertad de estudiar como funciona el programa, yadaptarlo a tus necesidades (libertad 1). El acceso al codigofuente es una condicion previa para esto.
I La libertad de distribuir copias, con lo que puedes ayudar a tuvecino (libertad 2).
I La libertad de mejorar el programa y hacer publicas lasmejoras a los demas, de modo que toda la comunidad sebeneficie. (libertad 3). El acceso al codigo fuente es unrequisito previo para esto.
¿Y los datos?
Datos y gente
http://www.dndzgz.com/
http://www.zaragoza.es/ciudad/servicios/conjuntodatos.htm
Pero ... ¿Que reutilizar?
Pero ... ¿Que reutilizar?
¡Cuidado!
Sobre los datos
I Si es posible, en formatos adecudos
I Si no lo es, al menos en forma y formatos predecibles (URLs,no cambiar las cosas de sitio, ...)
I Invitar a reutilizar
I Si hay restricciones, que esten claras
La verdad esta ahı afuera...
http://www.flickr.com/photos/kofoed/2879669528/
¿Y ustedes como lo ven?
http://www.flickr.com/photos/hryckowian/2484286303/
@fernand0http://fernand0.blogalia.com/
¿Y ustedes como lo ven?
http://www.flickr.com/photos/hryckowian/2484286303/
@fernand0http://fernand0.blogalia.com/