大數據環境下的圖書館 服務與應用 -...
Transcript of 大數據環境下的圖書館 服務與應用 -...
大數據環境下的圖書館
服務與應用
黃明居 國立交通大學教授 兼圖書館副館長 7/11/2016
2016_CDPDL_杭州
內容
大數據(Big Data)時代
圖書館的大數據在哪?
圖書館以讀者為中心的經營理念
大數據下的圖書館個人化服務
大數據分析案例
服務:館藏分析與讀者圖書推薦服務
應用:電子資源使用量分析,電子資源投入與產出關聯性分析
結論
2
2016_CDPDL_杭州
大數據(Big Data)時代 3
Big Data定義
大數據是大量、高速、及/或多變的資訊資產,它需要新型的處理方式去促成更強的決策能力、洞察力與最佳化處理
Big data are high volume, high velocity, and/or high variety
information assets that require new forms of processing to enable
enhanced decision making, insight discovery and process
optimization. (Douglas & Laney, “The Importance of „Big Data‟: A Definition”, 2012
大數據分析
資料挖礦(Data Mining)…等技術
啤酒與尿布的案例
「大」是一個相對概念,圖書館館藏算大數據嗎?
2016_CDPDL_杭州
圖書館的大數據在哪? 4
館藏?
圖書、期刊、電子資源…
電子資源在何處?
館藏進來了嗎?讀者可以使用了嗎?讀者的需求為何?
館藏+Open Access?
讀者借閱記錄、使用的記錄資料?
圖書館大數據,能作什麼?
能提供給圖書館何種訊息?能為讀者帶來何種嶄新的服務?
館藏分析?隱藏何種訊息?
讀者需求?管理者需要?
讀者使用記錄分析?
推薦讀者有興趣的資料、圖書?
2016_CDPDL_杭州
讀者、館員與館藏大數據
過去
讀者所需資訊都由館員協助提供
館員角色(資訊代理)
目前
讀者找尋資料,以環境大數據為主
Google、FB…與館員的角色競爭
館員不用擔心,需「用心」
未來
創新的圖書館服務,需要深入(用心)了解讀者的資訊需求與行為
將環境的大數據間接導入圖書館大數據
讀者
館藏 館員
圖書館大數據
環境大數據
2016_CDPDL_杭州
大數據環境下的圖書館服務
以讀者為中心(個人化)服務的經營理念
知己知彼策略
知己:充分了解自己所擁有哪些館藏?在哪裡可以找到?
實體館藏放哪裡?哪裡找得到?
電子資源有哪些?何時有新的資料可以使用?
大環境的資訊變化為何?(如Open Access, IR…免費資源)
知彼:充分了解讀者的需求為何?
怎麼知道他們上網找哪些資料?
加強與讀者的互動
更強調個人化的服務,前提需要知道讀者的屬性,分析讀者的使用的行為
6
服務:館藏分析與讀者圖書推薦服務
應用1:電子資源使用量分析
應用2:電子資源投入與產出關聯性分析
大數據分析實例 7
2016_CDPDL_杭州
Big Data 分析過程 8
. Overview of the analytics workflow for Big Data
Marcos D. Assunção, Rodrigo N. Calheiros, Silvia Bianchi, Marco A.S. Netto, Rajkumar Buyya , Big Data computing and clouds: Trends and
future directions, Journal of Parallel and Distributed Computing, Volumes 79–80, 2015, 3–15
2016_CDPDL_杭州
館藏分析與讀者圖書推薦服務1 9
實體館藏有許多書籍未被借閱過(冷門館藏)
近十年比率高?數位化環境的影響嗎?
如何提昇冷門館藏曝光度?
網路書店:Amazon引進推薦,產生長尾效應
圖書館界:不容易作推薦,因為副本最多3本
結合館藏借閱記錄與網路書店推薦資料
提升冷門館藏的曝光度
蒐集近十年圖書資料與所有借閱記錄
結合網路書店推薦資料,作圖書館圖書推薦基礎
2016_CDPDL_杭州
館藏分析與讀者圖書推薦服務2
網路書店推薦資料可為館藏進行推薦的數量
「重複」代表可推薦的圖書(約9萬3千本,56%)
將網路書店的推薦資料引進推薦模式中
無借閱記錄之館藏,增加約8%的曝光量
10
2016_CDPDL_杭州
(a) 館藏推薦高峰出版年:2009
(b) 最近三年的新書:網路>館藏
(c) 交叉走勢
(d) 舊書差異不大
網路推薦高峰出版年:2008
11
館藏分析與讀者圖書推薦服務3 (推薦模式中不同權重之結果分析)
2016_CDPDL_杭州
適用於推薦較新的出版物
12
館藏分析與讀者圖書推薦服務4
2016_CDPDL_杭州
館藏分析與讀者推薦服務_小結 13
館藏資料庫的整合與分析課題
館藏資料庫整合: 目前資源發現系統(RDS)已解決
館藏資料(庫)分析:未來Cloud Computing、Data
Mining等技術的成熟,應該是一個主要方向
圖書館如何做?
依照讀者或館方的需求,透過廠商提供的API,開發適合自己機構、圖書館或讀者所需的分析平台與系統
了解讀者使用行為:電子資源中,讀者使用的分析
機構典藏(產出)的分析:SCHOLARS@NCTU
現況與需求分析
量身訂做的統計量
案例分析:以交大使用統計量為例
電子資源使用量分析 14
2016_CDPDL_杭州
電子資源(資料庫)使用統計量現況 15
各大廠商提供圖書館的使用統計資料
JR1-5、DB1-3、BR1-3…
各項統計量背後的意涵為何?
適合你自己的圖書館使用嗎?Why?
最常使用的指標
每篇下載的成本,當做續訂的依據(理想嗎?Why?)
此項指標背後隱藏著哪些課題?
需考量學校的領域與師生分布
使用統計量=使用的績效
投入與產出的關係為何?
2016_CDPDL_杭州
使用統計量與需求分析 16
深入了解讀者背景與需求
領域(人數)分布
系所、學院、研究者、學生背景分析
研究主題與趨勢
深入分析師生發表的文章
Scholars@NCTU
學院研究領域分布、Keyword分布、跨領域研究...
師生最新想找的主題
教學所需
開課情形分布
和熱情的老師(種子老師)合作
2016_CDPDL_杭州
量身訂做的使用統計量?目標為何? 17
學校面相:探討全校整體下載全文的現象
了解所有讀者共通的特性與下載文章的分佈
領域分布、期刊分布、文章分布...
讀者下載時間的分佈
學院面相:探討各學院下載全文的特性
了解各學院讀者使用的特性與下載文章的分佈
領域分布、期刊分布、文章分布…
經費分擔參考依據
學校研究成果產出分析
是否與下載量有正向關係?
2016_CDPDL_杭州
案例分析:資料的篩選與處理 18
資料庫廠商提供3年9個月的讀者下載全文記錄
2012 /1/1~ 2015/ 9/ 9 ,共 500,163 筆下載資料
透過doi再取得可使用的metadata
資料篩選與處理:重複下載情況
分析「同一 IP, 30分鐘內下載同一篇文章」情形
視為重複性下載,共有約10萬筆資料重複性高(why?)
以 393,466 筆作為後續分析基礎
以 IP 對照學院歸屬
可用的學院分析資料共 216,609 筆,作為分析基礎
共同IP:圖書館、計中與宿舍的ip
約有18萬筆(45%)
2016_CDPDL_杭州
重複下載時間區間分布 19
2分鐘內,下載同一篇文章比率
61.9%;4分鐘內,共77.4%。
2016_CDPDL_杭州
30分鐘內重複下載次數分佈 20
重複下載1次居多,占56.3%
原因:讀者下載後,不知全文
存放何處?
2016_CDPDL_杭州
整體分析1:研究領域與下載全文分布 21
4個領域,
累計百分之五十
2016_CDPDL_杭州
整體分析2:下載次數前百名期刊分佈 22
前6名累計占30%;
前30名累計占50%
2016_CDPDL_杭州
整體分析:讀者下載全文的時間分布 23
2016_CDPDL_杭州
學院分析1:各學院使用分佈 24
計中(無線網路)、圖書館、
宿舍共占45%
經費分擔參考指標
2016_CDPDL_杭州
學院分析2:研究領域下載分布 25
前4種領域累計77.4%下載量
2016_CDPDL_杭州
管理學院研究領域下載次數分布 26
前3種領域累計占50%
2016_CDPDL_杭州
各項使用統計量 27
資料庫廠商所給與的使用統計報告
需審視其背後使用行為
重複下載的次數偏高
整體使用型態:長尾分配
20:80法則
使用量集中於少數領域與期刊
單篇下載全文分布
下載次數多,被引用次數很少,代表是教學或實驗所需
學生下載時間分布
每年呈現相同規律性
資料篩選與過濾
分析機構學術產出被引用的分析
機構學術投入與產出分析 28
2016_CDPDL_杭州
資料篩選與過濾 29
2010 年至 2015 年以交大名義發表且收錄於 WOS
資料庫文章
共 12,165 篇文章
所有文章之引用文獻數目為 339, 939 次
具有 DOI 者為 250,758 次, 163,414 篇
利用 CrossRef 提供之 API 取得引用文獻之Metadata,在
163,414 篇文章中可取得者為 158,281 篇
分析統計量目標
整體引用個出版商文獻之比率
是否與全文下載量成正向關係?
2016_CDPDL_杭州
引用次數分布(依出版社) 30
前6種出版社累計占64.7%
2016_CDPDL_杭州
引用篇數分布(依出版社) 31
前6種出版社累計占63.8%
2016_CDPDL_杭州
引用次數分布(依出版年分) 32
2009年最高峰
2015-1998年引用次數占80%
2016_CDPDL_杭州
引用前百大期刊分布 33
平均每篇被引用次數較高區域
2016_CDPDL_杭州
被引用累積20%的期刊(共14刊) 34
平均一篇被引用2次
平均一篇被引用4.8次
2016_CDPDL_杭州
產出分析的統計量 35
被引用的次數與文章篇數
前6大出版商都累積到64%
可深入分析其投入(購買金額)與產出的關係
CP值如何?
引用的文獻年度分布
平均以引用2008-2009年最多
引用1998以前文章,共約80%
被引用前14名期刊,引用次數占20%
第14名期刊,每篇文章被引用2次
2016_CDPDL_杭州
結論 36
大數據時代的圖書館服務
以讀者為中心的經營理念
知己知彼之經營策略
館藏的深入分析與推薦
館員一定要更用心地了解自己的館藏資源
新的電子資源何時可用?讀者是否知道?…
利用資訊分析工具,深入分析讀者的行為與需求
尤其機構研究者的產出分析
圖書館仍然具備無可取代的價值(無形勝有形!)
2016_CDPDL_杭州
敬請指教
37