大數據環境下的圖書館 服務與應用 -...

37
大數據環境下的圖書館 服務與應用 黃明居 國立交通大學教授 兼圖書館副館長 7/11/2016

Transcript of 大數據環境下的圖書館 服務與應用 -...

Page 1: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

大數據環境下的圖書館

服務與應用

黃明居 國立交通大學教授 兼圖書館副館長 7/11/2016

Page 2: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

內容

大數據(Big Data)時代

圖書館的大數據在哪?

圖書館以讀者為中心的經營理念

大數據下的圖書館個人化服務

大數據分析案例

服務:館藏分析與讀者圖書推薦服務

應用:電子資源使用量分析,電子資源投入與產出關聯性分析

結論

2

Page 3: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

大數據(Big Data)時代 3

Big Data定義

大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理

Big data are high volume, high velocity, and/or high variety

information assets that require new forms of processing to enable

enhanced decision making, insight discovery and process

optimization. (Douglas & Laney, “The Importance of „Big Data‟: A Definition”, 2012

大數據分析

資料挖礦(Data Mining)…等技術

啤酒與尿布的案例

「大」是一個相對概念,圖書館館藏算大數據嗎?

Page 4: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

圖書館的大數據在哪? 4

館藏?

圖書、期刊、電子資源…

電子資源在何處?

館藏進來了嗎?讀者可以使用了嗎?讀者的需求為何?

館藏+Open Access?

讀者借閱記錄、使用的記錄資料?

圖書館大數據,能作什麼?

能提供給圖書館何種訊息?能為讀者帶來何種嶄新的服務?

館藏分析?隱藏何種訊息?

讀者需求?管理者需要?

讀者使用記錄分析?

推薦讀者有興趣的資料、圖書?

Page 5: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

讀者、館員與館藏大數據

過去

讀者所需資訊都由館員協助提供

館員角色(資訊代理)

目前

讀者找尋資料,以環境大數據為主

Google、FB…與館員的角色競爭

館員不用擔心,需「用心」

未來

創新的圖書館服務,需要深入(用心)了解讀者的資訊需求與行為

將環境的大數據間接導入圖書館大數據

讀者

館藏 館員

圖書館大數據

環境大數據

Page 6: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

大數據環境下的圖書館服務

以讀者為中心(個人化)服務的經營理念

知己知彼策略

知己:充分了解自己所擁有哪些館藏?在哪裡可以找到?

實體館藏放哪裡?哪裡找得到?

電子資源有哪些?何時有新的資料可以使用?

大環境的資訊變化為何?(如Open Access, IR…免費資源)

知彼:充分了解讀者的需求為何?

怎麼知道他們上網找哪些資料?

加強與讀者的互動

更強調個人化的服務,前提需要知道讀者的屬性,分析讀者的使用的行為

6

Page 7: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

服務:館藏分析與讀者圖書推薦服務

應用1:電子資源使用量分析

應用2:電子資源投入與產出關聯性分析

大數據分析實例 7

Page 8: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

Big Data 分析過程 8

. Overview of the analytics workflow for Big Data

Marcos D. Assunção, Rodrigo N. Calheiros, Silvia Bianchi, Marco A.S. Netto, Rajkumar Buyya , Big Data computing and clouds: Trends and

future directions, Journal of Parallel and Distributed Computing, Volumes 79–80, 2015, 3–15

Page 9: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

館藏分析與讀者圖書推薦服務1 9

實體館藏有許多書籍未被借閱過(冷門館藏)

近十年比率高?數位化環境的影響嗎?

如何提昇冷門館藏曝光度?

網路書店:Amazon引進推薦,產生長尾效應

圖書館界:不容易作推薦,因為副本最多3本

結合館藏借閱記錄與網路書店推薦資料

提升冷門館藏的曝光度

蒐集近十年圖書資料與所有借閱記錄

結合網路書店推薦資料,作圖書館圖書推薦基礎

Page 10: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

館藏分析與讀者圖書推薦服務2

網路書店推薦資料可為館藏進行推薦的數量

「重複」代表可推薦的圖書(約9萬3千本,56%)

將網路書店的推薦資料引進推薦模式中

無借閱記錄之館藏,增加約8%的曝光量

10

Page 11: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

(a) 館藏推薦高峰出版年:2009

(b) 最近三年的新書:網路>館藏

(c) 交叉走勢

(d) 舊書差異不大

網路推薦高峰出版年:2008

11

館藏分析與讀者圖書推薦服務3 (推薦模式中不同權重之結果分析)

Page 12: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

適用於推薦較新的出版物

12

館藏分析與讀者圖書推薦服務4

Page 13: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

館藏分析與讀者推薦服務_小結 13

館藏資料庫的整合與分析課題

館藏資料庫整合: 目前資源發現系統(RDS)已解決

館藏資料(庫)分析:未來Cloud Computing、Data

Mining等技術的成熟,應該是一個主要方向

圖書館如何做?

依照讀者或館方的需求,透過廠商提供的API,開發適合自己機構、圖書館或讀者所需的分析平台與系統

了解讀者使用行為:電子資源中,讀者使用的分析

機構典藏(產出)的分析:SCHOLARS@NCTU

Page 14: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

現況與需求分析

量身訂做的統計量

案例分析:以交大使用統計量為例

電子資源使用量分析 14

Page 15: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

電子資源(資料庫)使用統計量現況 15

各大廠商提供圖書館的使用統計資料

JR1-5、DB1-3、BR1-3…

各項統計量背後的意涵為何?

適合你自己的圖書館使用嗎?Why?

最常使用的指標

每篇下載的成本,當做續訂的依據(理想嗎?Why?)

此項指標背後隱藏著哪些課題?

需考量學校的領域與師生分布

使用統計量=使用的績效

投入與產出的關係為何?

Page 16: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

使用統計量與需求分析 16

深入了解讀者背景與需求

領域(人數)分布

系所、學院、研究者、學生背景分析

研究主題與趨勢

深入分析師生發表的文章

Scholars@NCTU

學院研究領域分布、Keyword分布、跨領域研究...

師生最新想找的主題

教學所需

開課情形分布

和熱情的老師(種子老師)合作

Page 17: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

量身訂做的使用統計量?目標為何? 17

學校面相:探討全校整體下載全文的現象

了解所有讀者共通的特性與下載文章的分佈

領域分布、期刊分布、文章分布...

讀者下載時間的分佈

學院面相:探討各學院下載全文的特性

了解各學院讀者使用的特性與下載文章的分佈

領域分布、期刊分布、文章分布…

經費分擔參考依據

學校研究成果產出分析

是否與下載量有正向關係?

Page 18: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

案例分析:資料的篩選與處理 18

資料庫廠商提供3年9個月的讀者下載全文記錄

2012 /1/1~ 2015/ 9/ 9 ,共 500,163 筆下載資料

透過doi再取得可使用的metadata

資料篩選與處理:重複下載情況

分析「同一 IP, 30分鐘內下載同一篇文章」情形

視為重複性下載,共有約10萬筆資料重複性高(why?)

以 393,466 筆作為後續分析基礎

以 IP 對照學院歸屬

可用的學院分析資料共 216,609 筆,作為分析基礎

共同IP:圖書館、計中與宿舍的ip

約有18萬筆(45%)

Page 19: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

重複下載時間區間分布 19

2分鐘內,下載同一篇文章比率

61.9%;4分鐘內,共77.4%。

Page 20: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

30分鐘內重複下載次數分佈 20

重複下載1次居多,占56.3%

原因:讀者下載後,不知全文

存放何處?

Page 21: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

整體分析1:研究領域與下載全文分布 21

4個領域,

累計百分之五十

Page 22: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

整體分析2:下載次數前百名期刊分佈 22

前6名累計占30%;

前30名累計占50%

Page 23: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

整體分析:讀者下載全文的時間分布 23

Page 24: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

學院分析1:各學院使用分佈 24

計中(無線網路)、圖書館、

宿舍共占45%

經費分擔參考指標

Page 25: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

學院分析2:研究領域下載分布 25

前4種領域累計77.4%下載量

Page 26: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

管理學院研究領域下載次數分布 26

前3種領域累計占50%

Page 27: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

各項使用統計量 27

資料庫廠商所給與的使用統計報告

需審視其背後使用行為

重複下載的次數偏高

整體使用型態:長尾分配

20:80法則

使用量集中於少數領域與期刊

單篇下載全文分布

下載次數多,被引用次數很少,代表是教學或實驗所需

學生下載時間分布

每年呈現相同規律性

Page 28: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

資料篩選與過濾

分析機構學術產出被引用的分析

機構學術投入與產出分析 28

Page 29: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

資料篩選與過濾 29

2010 年至 2015 年以交大名義發表且收錄於 WOS

資料庫文章

共 12,165 篇文章

所有文章之引用文獻數目為 339, 939 次

具有 DOI 者為 250,758 次, 163,414 篇

利用 CrossRef 提供之 API 取得引用文獻之Metadata,在

163,414 篇文章中可取得者為 158,281 篇

分析統計量目標

整體引用個出版商文獻之比率

是否與全文下載量成正向關係?

Page 30: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

引用次數分布(依出版社) 30

前6種出版社累計占64.7%

Page 31: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

引用篇數分布(依出版社) 31

前6種出版社累計占63.8%

Page 32: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

引用次數分布(依出版年分) 32

2009年最高峰

2015-1998年引用次數占80%

Page 33: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

引用前百大期刊分布 33

平均每篇被引用次數較高區域

Page 34: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

被引用累積20%的期刊(共14刊) 34

平均一篇被引用2次

平均一篇被引用4.8次

Page 35: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

產出分析的統計量 35

被引用的次數與文章篇數

前6大出版商都累積到64%

可深入分析其投入(購買金額)與產出的關係

CP值如何?

引用的文獻年度分布

平均以引用2008-2009年最多

引用1998以前文章,共約80%

被引用前14名期刊,引用次數占20%

第14名期刊,每篇文章被引用2次

Page 36: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

結論 36

大數據時代的圖書館服務

以讀者為中心的經營理念

知己知彼之經營策略

館藏的深入分析與推薦

館員一定要更用心地了解自己的館藏資源

新的電子資源何時可用?讀者是否知道?…

利用資訊分析工具,深入分析讀者的行為與需求

尤其機構研究者的產出分析

圖書館仍然具備無可取代的價值(無形勝有形!)

Page 37: 大數據環境下的圖書館 服務與應用 - CNKIgb.oversea.cnki.net/Seminar/2016Seminar/en/images/PPT/16.pdf2016_CDPDL_杭州 內容 大數據(Big Data)時代 圖書館的大數據在哪?

2016_CDPDL_杭州

敬請指教

37