Silf2012lw3
-
Upload
keven-liu -
Category
Technology
-
view
2.727 -
download
2
description
Transcript of Silf2012lw3
大数据时代的图书馆big data:
From the Library of Books to the Library of Data
上海图书馆 刘 炜kevenlw @ gmail.com
112年7月18日星期三
There were 5 exabytes of information created between the dawn of civilization through 2003, but that much information is now created every 2 days, and the pace is increasing.
从开天辟地至2003年,人类大约总共生产了5 exabytes的信息。现在我们每两天就制造这么多信息。
----Eric Schmidt, Former Google CEO, Techonomy Conference, August 4, 2010
212年7月18日星期三
Data is becoming the new raw material of business: an economic input almost on a par with capital and labour. “Every day I wake up and ask, ‘how can I flow data better, manage data better, analyse data better?”
数据正在成为一种新的原材料,与资本和劳动力几乎同等重要。每天清晨我一醒来就会问自己:我能如何使数据运行得更顺畅、管理得更有效、分析得更透彻?
--Rollin Ford, the CIO of Wal-Mart. Source: Data, Data Everywhere, The Economist, February 25, 2010
312年7月18日星期三
大纲 Outline
大数据概念 What is Big Data?
大数据的缘起 Where it comes from?
大数据为什么重要 Why Big Data?
大数据实例 Two Case Studies
大数据与数字图书馆 Big Data and Digital Librarianship
大数据时代图书馆员的角色 Library role to Tame the Big Data
412年7月18日星期三
什么是大数据 What is BD?
数量庞大 Volume
变化迅速 Velocity
类型众多 Variety
价值巨大 Value
From IBM
当每个人都拥有不止⼀一台电脑,每个手机都是⼀一台传感器;当摄像头无所不在,每件东西都有⼀一个RFID标签;当每个人的每个活动、甚至每个心情都记载于社会性网络,而互联网把所有这⼀一切都连结在⼀一起的时候,每时每刻产生的信息可能是⼀一个巨大的矿藏。它不仅勾画出现实世界正在发生的图景,而且蕴藏着惊人的秘密。这是在过去的岁月中采取任何方式都无法获知的。
512年7月18日星期三
泥板文书 Cuneiform
612年7月18日星期三
大数据来自何处 Where BD comes from?
Source:(Mike(Driscoll,(CTO(Metamarkets:(The(Three(Sexy(Skills(of(Data(Scien;sts((&(Data(Driven(Startups)(Source: Mike Driscoll, CTO Metamarkets: The Three Sexy Skills of Data Scientists (& Data Driven Startups)
712年7月18日星期三
大数据有多大?
Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-infographic/ctlinfographic/
812年7月18日星期三
大数据有多大?
Source:http://siliconangle.com/blog/2011/11/22/are-you-ready-for-the-big-data-deluge-infographic/ctlinfographic/
912年7月18日星期三
YottabyteZettabyteExabytePetabyte
兆、京(吉)、太、拍、艾、泽、尧字节
1012年7月18日星期三
大数据来自何处 Where BD comes from?
科学计算 The large data collections of “big science” projects
网络应用 The data holdings of a Google, Facebook or other large Web company (Taobao, Twitter)
企业数据 The enterprise data of large, non-Web-based companies (IBM, TATA, etc.)
From Jim Hendler
1112年7月18日星期三
清醒认识大数据Why BD?
多大才大 How BIG is big?
大意味着什么 What BIG means?
为什么要大数据 Why BIG so attractive?
谁来驯服大数据 Who deal with BIG Data?
1212年7月18日星期三
大数据特点New Characteristics
结构化程度不高 NoSQL, weak structural
向第三方应用开放 Third party application and extension (open for mashup)
向语义化方向发展 Semantics (e.g.. schema.org, RDF)
From Jim Hendler
1312年7月18日星期三
大数据是一项颠覆性技术,继信息高速公路、数字图书馆、赛百基础设施之后的新热点,一脉相承。Tame the Web到Tame the Big Data
大数据研究有助于释放复杂数据中的智能。
大数据的价值并不在于能帮我们做出神奇的事情,而是成为我们日常社会生活的基础设施。
对于图书馆而言,大数据是Data Preservation和Data Curation的自然延伸
1412年7月18日星期三
对大数据的需求New Requirements
全网搜索 (Web-scale) data search
众包建模 “Crowd-sourced” modeling
快速虚拟整合 Rapid (and potentially ad hoc) integration of datasets
可视化及局域建模分析Visualization and analysis of only-partially modeled datasets
数据开放、复用及联结政策,Policies for data use, reuse and combination.
From Jim Hendler
1512年7月18日星期三
大数据解决方案示意
Source:http://jameskaskade.com/wp-content/uploads/2011/11/BigDataPaaS5.png1612年7月18日星期三
举例:两个领域Two Case Studies
数据驱动型研究(数据密集型科学)Data Driven Research (Data Intensive Science)
开放政府(信息公开服务)Open Government (Information Services)
1712年7月18日星期三
数据驱动型研究Data Driven Research
逐渐涌现:数据驱动
模拟 预测驱动自动试验
虚拟团队研究等等新型研究模式
假设驱动型研究
From: Carole Goble “the Future of Research”1812年7月18日星期三
科学研究的第四范式The Fourth Paradigm
1.上千年前:经验描述
2.数百年前:理论总结
3.几十年前:现象模拟
4.当前:eScience,融合经验总结、理论与模拟;数据由仪器采集或模拟得到;经云端或众包处理;由数据科学家和计算机专家参与管理并可视化,最终交科学家分析总结。
1912年7月18日星期三
科学的摸样The Map of Science
From:Carlos Morais Pires,Scientific Data Infrastructure: activities in the Capacities Programme of FP72012年7月18日星期三
Tetherless World Constellation
Government Data Sharing: “Year 1” Ja
nuar
y 1,
200
9
�Openness will strengthen our democracy and promote efficiency and effectiveness in Government.�
--- President Obama
Putting Govt Data online- Data.gov.uk beta
May
21,
200
9
Janu
ary
19, 2
010
data.gov.uk online
May
21,
201
0 data.gov online data.gov relaunch with semantic web featured
June
30,2
009
Dec
embe
r 8, 2
009 �Open Government
Directive� released
2009 2010 …
57 Data Sets
~6000 Data Set
~2000 Data Sets >305,000 Data Sets
政府信息公开Open-Gov
From Jim Hendler
2112年7月18日星期三
Tetherless World Constellation
Government Data Sharing: Year 2 政府信息公开Open-Gov
From Jim Hendler
2212年7月18日星期三
Tetherless World Constellation
Government Data in the linked open data cloud
http://linkeddata.org/
Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without)
政府信息公开Open-Gov
From Jim Hendler2312年7月18日星期三
Tetherless World Constellation
政府信息公开Open-Gov
From Jim Hendler2412年7月18日星期三
Tetherless World Constellation
Linking GDP of the US and China
GDP of China (Billion Chinese Yuan )
GDP of the US (Billion Dollar)
[Temporal Mashup] bea.gov + federalreserve.gov +stats.gov.cn
政府信息公开Open-Gov
This mashup was built in less than 4 hours – including conversion of data, web interface, and visualization!
From Jim Hendler2512年7月18日星期三
大数据与图书馆Big Data enabled Library
Source:http://blogs.loc.gov/loc/2009/02/how-big-is-the-library-of-congress/
2612年7月18日星期三
大数据与图书馆Big Data enabled Library
Source:http://radar.oreilly.com/2012/04/harvard-book-data-cloudera-hadoop-splunk-ipo.html
2712年7月18日星期三
大数据与图书馆Big Data enabled Library
Source:http://www.libraries.wright.edu/noshelfrequired/2012/04/11/overdrive-announces-a-series-of-big-data-reports/
2812年7月18日星期三
大数据对图书馆为什么重要?Why Library’s matter?
数据保存 Data Preservation
数据看护 Data Curation
大数据公共服务 Public Big Data Services
大数据是图书馆信息服务和资源发现必须面临的问题,是图书馆资源发现克服目前技术和模式的局限性,获得突破创新的关键。
2912年7月18日星期三
目前的图书馆“大数据”服务Current Library BD Services
数字图书馆 Digital Library
机构库 Institutional Repository
资源到所,服务到人,嵌入一线,融入过程。Ubiquitous Services
决策咨询服务 Think Tank Consultancy
3012年7月18日星期三
图书馆的大数据业务Library Powered BD ServicesSearch/Discover) Serendipitous)Finding)
Collabora&ve)Searching)Structural)Search)Keeping)Current)
Gather) Collec&ng)Manage)Organizing)
Create) Annota&ng)Review)&)Rate)Describe)Write)
Share) Publish)Sharing)Rights)
Integrated)search)Automa&c)paper)download)Con&nual)queries)Paper)recommenda&on)Alert))Project))and)Personal))Internal)search)Refereed)and)Grey)literature)
)Tag,)annotate,)rate))Templates)Mul&Lauthor)authoring)
Bibliography)management)Version)management)Copyright)tools)(CC)and)SC))Linking)up)data,)models)and)other)components)
From: Carole Goble “the Future of Research”3112年7月18日星期三
图书馆的大数据业务Library Powered BD ServicesSearch/Discover) Serendipitous)Finding)
Collabora&ve)Searching)Structural)Search)Keeping)Current)
Gather) Collec&ng)Manage)Organizing)
Create) Annota&ng)Review)&)Rate)Describe)Write)
Share) Publish)Sharing)Rights)
Integrated)search)Automa&c)paper)download)Con&nual)queries)Paper)recommenda&on)Alert))Project))and)Personal))Internal)search)Refereed)and)Grey)literature)
)Tag,)annotate,)rate))Templates)Mul&Lauthor)authoring)
Bibliography)management)Version)management)Copyright)tools)(CC)and)SC))Linking)up)data,)models)and)other)components)
最重要的:数据的有序组织和规范控制From: Carole Goble “the Future of Research”
3112年7月18日星期三
大数据时代图书馆员角色BD Librarian
可信的看护者 Trusted curator
可信的管理员Trusted data manager
质量审核Quality arbiter
知识播种机Knowledge disseminator
格式监管Format authority
内容增值Add value content provider
元数据/词表提供Metadata / controlled vocabulary provider
服务增值Add value service provider
From: Carole Goble “the Future of Research”
3212年7月18日星期三
新岗位,新称号New Position with New Requirements
From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”
3312年7月18日星期三
新岗位,新称号New Position with New Requirements
From: Dr Liz Lyon “The Informatics Transform: Re-engineering Libraries for the Data Decade”3412年7月18日星期三
可视化:Twitter数据流
Source: http://www.flickr.com/photos/walkingsf/6635655755/in/photostream/3512年7月18日星期三
DEMO演示:大数据可视化
3612年7月18日星期三
3712年7月18日星期三
大数据时代的图书馆big data:
From the Library of Books to the Library of Data
上海图书馆 刘 炜kevenlw @ gmail.com
3812年7月18日星期三