Silf2012lw3

39
大数据时代的图书馆 big data: From the Library of Books to the Library of Data 上海图书馆 刘 炜 kevenlw @ gmail.com 1 12718日星期三

description

Big Data: From the Library of Books to the Library of Data

Transcript of Silf2012lw3

Page 1: Silf2012lw3

大数据时代的图书馆big data:

From the Library of Books to the Library of Data

上海图书馆 刘 炜kevenlw @ gmail.com

112年7月18日星期三

Page 2: Silf2012lw3

There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing.

从开天辟地至2003年,人类大约总共生产了5 exabytes的信息。现在我们每两天就制造这么多信息。

----Eric Schmidt, Former Google CEO, Techonomy Conference, August 4, 2010

212年7月18日星期三

Page 3: Silf2012lw3

Data is becoming the new raw material of business: an economic input almost on a par with capital and labour. “Every day I wake up and ask, ‘how can I flow data better, manage data better, analyse data better?”

数据正在成为一种新的原材料,与资本和劳动力几乎同等重要。每天清晨我一醒来就会问自己:我能如何使数据运行得更顺畅、管理得更有效、分析得更透彻?

--Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The Economist, February 25, 2010

312年7月18日星期三

Page 4: Silf2012lw3

大纲 Outline

大数据概念 What is Big Data?

大数据的缘起 Where it comes from?

大数据为什么重要 Why Big Data?

大数据实例 Two Case Studies

大数据与数字图书馆 Big Data and Digital Librarianship

大数据时代图书馆员的角色 Library role to Tame the Big Data

412年7月18日星期三

Page 5: Silf2012lw3

什么是大数据 What is BD?

数量庞大 Volume

变化迅速 Velocity

类型众多 Variety

价值巨大 Value

From IBM

当每个人都拥有不止⼀一台电脑,每个手机都是⼀一台传感器;当摄像头无所不在,每件东西都有⼀一个RFID标签;当每个人的每个活动、甚至每个心情都记载于社会性网络,而互联网把所有这⼀一切都连结在⼀一起的时候,每时每刻产生的信息可能是⼀一个巨大的矿藏。它不仅勾画出现实世界正在发生的图景,而且蕴藏着惊人的秘密。这是在过去的岁月中采取任何方式都无法获知的。

512年7月18日星期三

Page 6: Silf2012lw3

泥板文书 Cuneiform

612年7月18日星期三

Page 7: Silf2012lw3

大数据来自何处 Where BD comes from?

Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)(Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)

712年7月18日星期三

Page 10: Silf2012lw3

YottabyteZettabyteExabytePetabyte

兆、京(吉)、太、拍、艾、泽、尧字节

1012年7月18日星期三

Page 11: Silf2012lw3

大数据来自何处 Where BD comes from?

科学计算 The large data collections of “big science” projects

网络应用 The data holdings of a Google, Facebook or other large Web company (Taobao, Twitter)

企业数据 The enterprise data of large, non-Web-based companies (IBM, TATA, etc.)

From Jim Hendler

1112年7月18日星期三

Page 12: Silf2012lw3

清醒认识大数据Why BD?

多大才大 How BIG is big?

大意味着什么 What BIG means?

为什么要大数据 Why BIG so attractive?

谁来驯服大数据 Who deal with BIG Data?

1212年7月18日星期三

Page 13: Silf2012lw3

大数据特点New Characteristics

结构化程度不高 NoSQL, weak structural

向第三方应用开放 Third party application and extension (open for mashup)

向语义化方向发展 Semantics (e.g.. schema.org, RDF)

From Jim Hendler

1312年7月18日星期三

Page 14: Silf2012lw3

大数据是一项颠覆性技术,继信息高速公路、数字图书馆、赛百基础设施之后的新热点,一脉相承。Tame the Web到Tame the Big Data

大数据研究有助于释放复杂数据中的智能。

大数据的价值并不在于能帮我们做出神奇的事情,而是成为我们日常社会生活的基础设施。

对于图书馆而言,大数据是Data Preservation和Data Curation的自然延伸

1412年7月18日星期三

Page 15: Silf2012lw3

对大数据的需求New Requirements

全网搜索 (Web-scale) data search

众包建模 “Crowd-sourced” modeling

快速虚拟整合 Rapid (and potentially ad hoc) integration of datasets

可视化及局域建模分析Visualization and analysis of only-partially modeled datasets

数据开放、复用及联结政策,Policies for data use, reuse and combination.

From Jim Hendler

1512年7月18日星期三

Page 16: Silf2012lw3

大数据解决方案示意

Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png1612年7月18日星期三

Page 17: Silf2012lw3

举例:两个领域Two Case Studies

数据驱动型研究(数据密集型科学)Data Driven Research (Data Intensive Science)

开放政府(信息公开服务)Open Government (Information Services)

1712年7月18日星期三

Page 18: Silf2012lw3

数据驱动型研究Data Driven Research

逐渐涌现:数据驱动

模拟 预测驱动自动试验

虚拟团队研究等等新型研究模式

假设驱动型研究

From:  Carole  Goble  “the  Future  of  Research”1812年7月18日星期三

Page 19: Silf2012lw3

科学研究的第四范式The Fourth Paradigm

1.上千年前:经验描述

2.数百年前:理论总结

3.几十年前:现象模拟

4.当前:eScience,融合经验总结、理论与模拟;数据由仪器采集或模拟得到;经云端或众包处理;由数据科学家和计算机专家参与管理并可视化,最终交科学家分析总结。

1912年7月18日星期三

Page 20: Silf2012lw3

科学的摸样The Map of Science

From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP72012年7月18日星期三

Page 21: Silf2012lw3

Tetherless World Constellation

Government Data Sharing: “Year 1” Ja

nuar

y 1,

200

9

�Openness will strengthen our democracy and promote efficiency and effectiveness in Government.�

--- President Obama

Putting Govt Data online- Data.gov.uk beta

May

21,

200

9

Janu

ary

19, 2

010

data.gov.uk online

May

21,

201

0 data.gov online data.gov relaunch with semantic web featured

June

30,2

009

Dec

embe

r 8, 2

009 �Open Government

Directive� released

2009 2010 …

57 Data Sets

~6000 Data Set

~2000 Data Sets >305,000 Data Sets

政府信息公开Open-Gov

From Jim Hendler

2112年7月18日星期三

Page 22: Silf2012lw3

Tetherless World Constellation

Government Data Sharing: Year 2 政府信息公开Open-Gov

From Jim Hendler

2212年7月18日星期三

Page 23: Silf2012lw3

Tetherless World Constellation

Government Data in the linked open data cloud

http://linkeddata.org/

Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without)

政府信息公开Open-Gov

From Jim Hendler2312年7月18日星期三

Page 24: Silf2012lw3

Tetherless World Constellation

政府信息公开Open-Gov

From Jim Hendler2412年7月18日星期三

Page 25: Silf2012lw3

Tetherless World Constellation

Linking GDP of the US and China

GDP of China (Billion Chinese Yuan )

GDP of the US (Billion Dollar)

[Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn

政府信息公开Open-Gov

This mashup was built in less than 4 hours – including conversion of data, web interface, and visualization!

From Jim Hendler2512年7月18日星期三

Page 27: Silf2012lw3

大数据与图书馆Big Data enabled Library

Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html

2712年7月18日星期三

Page 28: Silf2012lw3

大数据与图书馆Big Data enabled Library

Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-series-of-big-data-reports/

2812年7月18日星期三

Page 29: Silf2012lw3

大数据对图书馆为什么重要?Why Library’s matter?

数据保存 Data Preservation

数据看护 Data Curation

大数据公共服务 Public Big Data Services

大数据是图书馆信息服务和资源发现必须面临的问题,是图书馆资源发现克服目前技术和模式的局限性,获得突破创新的关键。

2912年7月18日星期三

Page 30: Silf2012lw3

目前的图书馆“大数据”服务Current Library BD Services

数字图书馆 Digital Library

机构库 Institutional Repository

资源到所,服务到人,嵌入一线,融入过程。Ubiquitous Services

决策咨询服务 Think Tank Consultancy

3012年7月18日星期三

Page 31: Silf2012lw3

图书馆的大数据业务Library Powered BD ServicesSearch/Discover) Serendipitous)Finding)

Collabora&ve)Searching)Structural)Search)Keeping)Current)

Gather) Collec&ng)Manage)Organizing)

Create) Annota&ng)Review)&)Rate)Describe)Write)

Share) Publish)Sharing)Rights)

Integrated)search)Automa&c)paper)download)Con&nual)queries)Paper)recommenda&on)Alert))Project))and)Personal))Internal)search)Refereed)and)Grey)literature)

)Tag,)annotate,)rate))Templates)Mul&Lauthor)authoring)

Bibliography)management)Version)management)Copyright)tools)(CC)and)SC))Linking)up)data,)models)and)other)components)

From:  Carole  Goble  “the  Future  of  Research”3112年7月18日星期三

Page 32: Silf2012lw3

图书馆的大数据业务Library Powered BD ServicesSearch/Discover) Serendipitous)Finding)

Collabora&ve)Searching)Structural)Search)Keeping)Current)

Gather) Collec&ng)Manage)Organizing)

Create) Annota&ng)Review)&)Rate)Describe)Write)

Share) Publish)Sharing)Rights)

Integrated)search)Automa&c)paper)download)Con&nual)queries)Paper)recommenda&on)Alert))Project))and)Personal))Internal)search)Refereed)and)Grey)literature)

)Tag,)annotate,)rate))Templates)Mul&Lauthor)authoring)

Bibliography)management)Version)management)Copyright)tools)(CC)and)SC))Linking)up)data,)models)and)other)components)

最重要的:数据的有序组织和规范控制From:  Carole  Goble  “the  Future  of  Research”

3112年7月18日星期三

Page 33: Silf2012lw3

大数据时代图书馆员角色BD Librarian

可信的看护者 Trusted curator

可信的管理员Trusted data manager

质量审核Quality arbiter

知识播种机Knowledge disseminator

格式监管Format authority

内容增值Add value content provider

元数据/词表提供Metadata / controlled vocabulary provider

服务增值Add value service provider

From:  Carole  Goble  “the  Future  of  Research”

3212年7月18日星期三

Page 34: Silf2012lw3

新岗位,新称号New Position with New Requirements

From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”

3312年7月18日星期三

Page 35: Silf2012lw3

新岗位,新称号New Position with New Requirements

From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”3412年7月18日星期三

Page 36: Silf2012lw3

可视化:Twitter数据流

Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/3512年7月18日星期三

Page 38: Silf2012lw3

3712年7月18日星期三

Page 39: Silf2012lw3

大数据时代的图书馆big data:

From the Library of Books to the Library of Data

上海图书馆 刘 炜kevenlw @ gmail.com

3812年7月18日星期三