Post on 24-May-2015
description
2009年8月27日第114回ku‐librarians勉強会@京都大学附属図書館
Wikipediaをいかに使いこなすか?
~知識抽出 情報ナビゲ ション~知識抽出、情報ナビゲーション、そしてトピック発見見
東京大学情報基盤センタ東京大学情報基盤センター
学術情報研究部門 助教学術情報研究部門 助教
(兼 株式会社リッテル 上席研究員)
清 陽司清田 陽司
関心分野• 自然言語処理技術を応用した情報検索システム
– 対話的ヘルプシステム「ダイアログナビ」対話的 ルプシステム ダイア グナビ」• WindowsやOffice利用者向けの質問応答サービス
• 情報検索プロセスの解明– 対話(聞き返し)による情報探しニーズの明確化– 情報の組織化
• 聞き返しをするには何らかの知識構造が必要
– 情報検索手段の変遷• 人に聞く 図書館 データベース サーチエンジン 掲示板• 人に聞く、図書館、データベース、サーチエンジン、掲示板…
図書館レファレンスサービスの課題と共通• レファレンス支援システムの研究• レファレンス支援システムの研究
– タクソノミーとフォークソノミーの統合– 実用システムの研究開発– 実用システムの研究開発
リッテルナビゲーターとして実用化2
経緯経緯• もともと京大メディアセンターのヘルプシステムを手掛かりに博士の研究を始めた ( 年)を手掛かりに博士の研究を始めた (2000年)– 京大附属図書館レファレンスシステムもあった
– 利用できるデータはNDLSHだけだった
• その後 MSとの共同研究でダイアログナビを• その後、MSとの共同研究でダイアログナビを開発し、博士論文を提出
• 「次に何を研究しようか」と考えていたときに東大総合図書館内の研究室に赴任 (2004年)大総合図書館内の研究室に赴任 (2004年)– 図書館の豊富な情報リソースをうまく使えないか?
Wiki di のコンテンツが本格的に充実してきた– Wikipediaのコンテンツが本格的に充実してきた
ダイアログナビ(Dialog Navigator)( g g )
•マイクロソフト株式会社との共同研究• 2002年4月から運用開始
4
• 2002年4月から運用開始•いまは稼働していませんが
5
6
7
8
9
質問とテキストの間の
具体性のギャップ52件のテキストが見つかりました
Windowsでエラーが発生した
52件のテキストが見つかりました。• Windows 98を起動したときに、…というエラーが発生するWi d XPでアプリケ シ ンを• Windows XPでアプリケーションを
起動したときに、エラーが発生する•インターネットにダイアルアップで接続 うと たとき と う続しようとしたときに、…というエラーが発生する•印刷中にエラーが発生して印刷できない• …………………………..
10
質問とテキストの間の
52件のテキストが見つかりました
具体性のギャップ52件のテキストが見つかりました。
• Windows 98を起動したときに、…というエラーが発生するWi d XPでアプリケ シ ンを
Windowsでエラーが発生した
• Windows XPでアプリケーションを起動したときに、エラーが発生する•インターネットにダイアルアップで接続 うと たとき と う続しようとしたときに、…というエラーが発生する•印刷中にエラーが発生して印刷できない• …………………………..
11
エキスパートやコールセンター対話的に具体性のギャップを解消
Windowsでエラーが発生した
エラーが発生したのはいつですか?
お使いのWindowsは何でお使いのWindowsは何ですか?
どんなエラーメッセージが出ましたか?出ましたか?
12
もくじもくじ
l とは?1. Littel Navigatorとは?
2. 図書館の世界とWebの世界
3. 2つの分類体系の統合による分類自動導出
4 Wikipediaを使いこなす4. Wikipediaを使いこなす– 意外性のある情報の発見
– 言語間格差の抽出言語間格差の抽出
– 軽量解析ツールWik‐IEの紹介
– Hadoop MapReduceとは?– Hadoop, MapReduceとは?
5. まとめ
13
もくじもくじ
l とは?1. Littel Navigatorとは?
2. 図書館の世界とWebの世界
3. 2つの分類体系の統合による分類自動導出
4 Wikipediaを使いこなす4. Wikipediaを使いこなす– 意外性のある情報の発見
– 言語間格差の抽出言語間格差の抽出
– 軽量解析ツールWik‐IEの紹介
– Hadoop MapReduceとは?– Hadoop, MapReduceとは?
5. まとめ
14
こんなときどうしますか?• Winnyをテーマにしてレポートを書く
知的財産(著作権)に関する法律の観点から– 知的財産(著作権)に関する法律の観点から
– P2Pソフトウェアの技術について
匿名掲 板独特 文化– 匿名掲示板独特の文化
– 表現の自由との関連
• 「日本のアニメ」を研究したい– アニメ産業のあり方 (製作会社、分業制、…)ア メ産業のあり方 (製作会社、分業制、…)– アニメ製作技術 (セル画、CG、…)アニメの主題 キャラクターの描き方・・・ユニ– アニメの主題、キャラクターの描き方・・・ユニセックス…
– アニメの国際比較– アニメの国際比較…15
こんなときお役にたちますこんなときお役にたちます
リッテルナビゲーターリッテルナビゲ タ
=情報探しのヒント検索システム
「 探(1) 「切り口」探し
(2)情報の関連づけ(2)情報の関連づけ
情報そのものの発見、情報の関係との発見
16
リッテルナビゲ タ とは?リッテルナビゲーターとは?
「情報探索のヒント」検索システム
=パスファインダー自動生成システム=パスファインダ 自動生成システム
• さまざまな情報リソースの統合検索
– 件名標目、書架分類、レファレンスブック、Webサイト、オンライン百科事典、...
• 曖昧な質問(キーワード)から具体的な探し方へのナビゲーションし方へのナビゲ ション
– Wikipediaを用いた探索テーマの自動導出
17
リ テルナビゲ タ の主な機能リッテルナビゲーターの主な機能
• テーマグラフの自動生成– 分野の自動的な導出分野の自動的な導出
• 分野からの情報探し日本十進分類法(NDC)による資料検索– 日本十進分類法(NDC)による資料検索
→書架の特定、参考図書調べ
インタ ネ ト学術情報インデ クスの利用– インターネット学術情報インデックスの利用
• 関連キーワード探し
• 他のサーチエンジンとのリンク– OPAC JapanKnowledge Google ScholarなどOPAC、JapanKnowledge、Google Scholarなど
18
19
20
セキュリティへの脅威(情報漏洩など)
著作権法改正の議論に与えた影響は?
(情報漏洩など)
議論に与えた影響は被害額は?
ソフトウェアの開発モデルとしてのフリ ウェアルとしてのフリーウェア
21
P2Pネットワ クP2Pネットワーク技術の観点から特異な存在特異な存在
ソフトウェア=創作物
創作物を 開する と 逮捕され
匿名性により普及匿名掲示板独自の創作物を公開することで逮捕され
るのは表現の自由に反する?
匿名掲示板独自の文化 22
23
一大産業としてのアニメ
芸術としてのアニメ アニメ製作技術の
ア
芸術としてのアニメ
もはやサブカルチャーではない?
アニメ製作技術の高度化
24
25
26
•著作権法百年史•著作権法事典著作権法 ドブ ク•著作権法ハンドブック
•表現の自由・著作権・名誉毀損やさしく引ける判例総覧やさしく引ける判例総覧•著作権法のノウハウ•…
27
利用実績利用実績
導• 導入先
東京大学、東京電機大学、同志社大学、東邦大東 、東 機 、 、東学、亜細亜大学、千葉大学、神奈川工科大学
※2009年5月より国立国会図書館「リサーチ・ナビ※2009年5月より国立国会図書館 リサ チ ナビ」にコンポーネントとして導入
• マーケティング用途利用マ ケティング用途利用– ベクトル空間モデルによる関連KW抽出とWikipediaカテゴリの組み合わせでSEMワード候補を導出カテ リの組み合わせでSEMワ ド候補を導出
– 分野別辞書の作成• テレビ番組、ドラマ、タレント、映画、お菓子、…
32
ワード抽出例ワ ド抽出例
おでんおでん
鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん…涼宮 ルヒの憂鬱涼宮ハルヒの憂鬱
角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊少年エース、ねこマン、…
学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ学園小説 ご愁傷さま ノ宮くん、Missing、フルメタル・パニック!、…
独立UHF放送局→らき☆すた NHKにようこそ! 魔独立UHF放送局→らき☆すた、NHKにようこそ!、魔法少女リリカルなのはA‘s、ひぐらしのなく頃に、少年陰陽師 ゼロの使い魔年陰陽師、ゼロの使い魔、…
33
もくじ
1. Littel Navigatorとは?2 図書館の世界とW bの世界2. 図書館の世界とWebの世界3. 2つの分類体系の統合による分類自動導出4 Wiki di を使いこなす4. Wikipediaを使いこなす
– 意外性のある情報の発見言語間格差の抽出– 言語間格差の抽出
– 軽量解析ツールWik-IEの紹介Hadoop MapReduceとは?– Hadoop, MapReduceとは?
5. まとめ
34
情報検索の手段の変遷情報検索の手段の変遷
• 20世紀以前20世紀以前– 人に聞く
相談窓口– 相談窓口(無料: 図書館や公共機関, 有料: コンサルタントなど)
本屋に行く– 本屋に行く
– 図書館で調べる
デ ク 個人ブ ク ク 商– Webディレクトリ、個人ブックマーク、商用DB…
• 21世紀: 上に加えて– GoogleなどのWebサーチエンジンの利用
– 掲示板 人力検索エンジン ソーシャルブック
35
掲示板、人力検索エンジン、ソ シャルブックマーク…
情報探しのニーズ
• Web検索で探せる質問=事実を問う質問– 関東大震災はいつ発生しましたか?
– XXXってどんな病気?
• 本当に探し手が知りたいこと
– 大学の学生「関東大震災についてのレポートを書か– 大学の学生「関東大震災についてのレポ トを書かなきゃいけなんだけど、いったいどんな資料から調べたらいいの?」」
– 難病の患者「この病気について最先端の治療を行っている病院を探す方法は?」
情報探しのテーマが曖昧な場合が多い
→テーマの推薦(レコメンデーション)が必要!
36
→テ マの推薦(レコメンデ ション)が必要!
テーマ推薦の要件テ マ推薦の要件
カバレ ジ• カバレッジ– どんなキーワードに対しても何かをお薦めして欲しい欲しい
– これができないと結局使ってもらえない
• 組織化– 「これを見た人はこんな情報も見ています」では不十分!
分類ごとにお薦めすべき情報資源には定番が– 分類ごとにお薦めすべき情報資源には定番が存在
• 信頼性– 「ネットでググる」だけでは不十分!– 信頼できる情報資源が必要
37 Web情報の組織化の現状は?
Web情報の組織化の取り組みWeb情報の組織化の取り組み
ジ• サーチエンジンの性能向上
– PageRank (Web上の民主主義)age a ( eb の民主主義)– 自然言語処理分野の成果の活用
多数の 般利用者による情報組織化• 多数の一般利用者による情報組織化
– ブログ: トラックバック
– 掲示板: スレッド、まとめサイト
– ソーシャルブックマーク: 一般利用者によるタグソ シャルブックマ ク: 般利用者によるタグ(キーワード)の付与
Wikipedia: 百科事典の共同編纂38
– Wikipedia: 百科事典の共同編纂
情報検索におけるロングテール(?)情報検索におけるロングテール(?)• 難病の治療法難病の治療法
– 10万人に1人という難病にかかった。かかりつけの医者はXという治療法を勧めたが、深刻な副作用を伴うらしい。方 たまたまニ スで海外で普及しつつある治療法Y一方、たまたまニュースで海外で普及しつつある治療法Y
を知ったが、それを実践できる医者を知らない。さてどちらを選択すべきか?
• F社の期限切れ原料使用問題の背景– 過去の同様の事件との共通点は?– では他社の製品は安全なのか?– Web掲示板上での主流意見はあてになるのか?
• A市における過去100年間の犯罪発生率
39Webの利用で答えられるか?
Webの情報検索手段としての性質
利点
とんでもなく広いカバレ ジ• とんでもなく広いカバレッジ
• 多様性(マスメディアへのアンチテーゼ)( )欠点
• 価値・信頼性の判断基準を提供してくれない• 価値・信頼性の判断基準を提供してくれない– 利用者自身が知識体系をもっている必要がある
情報中心• フロー情報中心– ストック情報は残りにくい
– 注目されすぎた情報は突如姿を消してしまう
• ブラウジング指向の組織化40
ブラウジング指向の組織化
Web上での組織化の限界Web上での組織化の限界
ブ ジ グ がブラウジング指向に偏りがち
• ソーシャルブックマークやランキングを機能さソ シャルブックマ クやランキングを機能させているフィードバックは、ブラウジングを便利にしたい情報消費者のものが中心利にしたい情報消費者のものが中心
• 偏った探索になりがち
– 検証を経ていない二次情報への頼りすぎ
• 人類が積み重ねてきたストック情報とリンクさ• 人類が積み重ねてきたストック情報とリンクされていない(浅い組織化)
41
Webの可能性可能性• 探索手段としての間口の広さ
ド も ず– どんなキーワードを入力してもとりあえず何かヒット
– 情報探索の足がかりとしては最適
• 注目されていない情報も存在を許される– マスメディアにはない最大の特色マスメディアにはない最大の特色
– どうやって価値を判断するかが問題
• Wikipediaの可能性• Wikipediaの可能性– 膨大な項目数(日本語: 30万項目以上)
確な 的 「 科事典を構築する– 明確な目的: 「Web上に百科事典を構築する」
– 項目の組織化への取り組み(Wikipediaカテゴリ)42他のWebサイトにはない大きな特色
テーマ推薦の要件テ マ推薦の要件
カバレ ジ
Web• カバレッジ
– どんなキーワードに対しても何かをお薦めして欲しい
Wikipedia
欲しい– これができないと結局使ってもらえない
• 組織化
図書館
– 「これを見た人はこんな情報も見ています」では不十分!
分類ごとにお薦めすべき情報資源には定番が 図書館システム
– 分類ごとにお薦めすべき情報資源には定番が存在
• 信頼性
渡 情
– 「ネットでググる」だけでは不十分!– 信頼できる情報資源が必要
43
Wikipediaを橋渡しとして、信頼できる情報資源をお薦めできないか?
もくじもくじ
l とは?1. Littel Navigatorとは?
2. 図書館の世界とWebの世界
3. 2つの分類体系の統合による分類自動導出
4 Wikipediaを使いこなす4. Wikipediaを使いこなす– 意外性のある情報の発見
– 言語間格差の抽出言語間格差の抽出
– 軽量解析ツールWik‐IEの紹介
– Hadoop MapReduceとは?– Hadoop, MapReduceとは?
5. まとめ
44
オントロジーとフォークソノミーオントロジーとフォークソノミー
ジ フォークソノミー
• ボトムアップ的な分類
オントロジー
• トップダウン的な分類
• 複数の上位概念• ひとつの上位概念
再生可能 半導体電気化学
電離層 電池 磁気化学
電池再生可能エネルギー
半導体素子
電離層 電池 磁気化学
燃料電池 太陽電池 蓄電池 太陽電池燃料電池 トランジスタ
Web的な分類体系図書館的な分類体系
燃料電池 太陽電池 蓄電池 太陽電池燃料電池 トランジスタ
Web的な分類体系図書館的な分類体系45
Wikipediap• インターネット上で共
同編集されている多
価格価格(かかく)とは、有形・無形の各種の商品(サービスを含む)の取引に際して提示される金同編集されている多
言語百科事典
• 各記事にはカテゴリ
額を言う。基本的には需要と供給のバランスによって決定される。一般には、値段(ねだん)とも呼ばれる。
• 各記事にはカテゴリが付与されている– フォークソノミーの特
…カテゴリ: [マーケティング][経済学][市場]
社会フォ クソノミ の特徴を有する
– カテゴリにもカテゴリを付与できる(ゆるやか
経済
産業
社会科学社会
労働付与できる(ゆるやかな階層構造)複数の上位概念を与
商業
産業
ビジネススキル
労働
– 複数の上位概念を与えることができる(多重継承) マーケティング 経済学 市場
経営学 流通
価格
ケティング 経済学 市場
46
社会オントロジー型構造
経済社会科学
型構造
産業労働
商業
産業
ビジネ キ
労働
経営学 流通
商業ビジネススキル
グ 経済学 市場
経営学 流通
マーケティング 経済学 市場
フォークソノミー型価格
フォ クソノミ 型構造 47
提案: Wikipediaと図書館分類体系の対応づけ
図書館の分類体系をWiki di で拡張してみよう図書館の分類体系をWikipediaで拡張してみよう!
• Wikipedia– Webの汎用的な情報資源としては最も組織化されている(Wikipediaカテゴリ)
– Web上の他の情報資源との親和性をもつ
• 図書館分類体系(書架分類法、件名標目表)( )– 人類が営々と積み重ねてきた知識体系
– 価値判断に必要な情報資源への有力なポインタ
両者を組み合わせて利用することによって、キーワードから探索テーマ(=件名)を自動導出する
48
ワ ドから探索テ ( 件名)を自動導出する
→ 導出された件名に関連する情報資源を提示
経済(330) 社会(360)
社会科学(300)
建築学(520)
技術(500)
地球科学(450)
自然科学(400)
「地震防災の事典」(岡 「日本被害地震総覧」経済(330)
社会福祉(369)
社会(360)
地震学(453) 建築構造(524)
建築学(520)地球科学(450)
経済史(332)「経済学事典」(日本
(田恒男ほか, 2000年)
「日本被害地震総覧」(宇佐美龍夫, 2003年)
地震災害 地震誌(453.2)経済史-日本(332.1)
「経済学事典」(日本経済新聞社, 1996年)
耐震建築地震災害 地震予知経済史-日本-平成時代(332.107) 図書館オントロジー
経済史 災害
図書館オ ジ(NDC, BSH)
Wikipedia経済史
地震災害と防災の歴史
災害
日本の経済史
p震災がその後の防災対策に与えた影響歴史経済史
地震の歴史平成時代 震災を引き起こした地震(1995年兵庫県
与えた影響
阪神・淡路大震災
地震(1995年兵庫県南部地震)震災が日本経済に
与えた影響49
情報探索のスタート地点
情報資 ジ
スタ ト地点
Web情報資源(サーチエンジン)フォークソノミー
情報の
Wikipedia図書館分類体系
の専門性
•NDC•BSH
対応づけ→深い情報探
性・信頼
多様な情報資源•入門書レフ レンスブ ク
深い情報探索へ
頼性
•レファレンスブック•各種データベース•学術雑誌論文学術雑誌論文•過去の文献・資料 50
もくじもくじ
1 Litt l N i t とは1. Littel Navigatorとは?
2. 図書館の世界とWebの世界
3. 2つの分類体系の統合による分類自動導出
4 Wikipediaを使いこなす4. Wikipediaを使いこなす– 意外性のある情報の発見
– 言語間格差の抽出– 言語間格差の抽出
– 軽量解析ツールWik-IEの紹介
– Hadoop MapReduceとは?– Hadoop, MapReduceとは?
5. まとめ
51
最新の状況最新の状況
本 版が を超 た• 日本語版が60万項目を超えた (7/8)– XMLでダウンロード可能 (1.1Bytes)ダウン 可能 ( y )
• 英語版は300万項目を超えた (8/17)9 G b i 2圧縮– 9.4GBytes, bzip2圧縮
52
Wikipediaで何ができる?(1)Wikipediaで何ができる?(1)
パ• コーパスとしての利用
– 定義文の抽出→ 言い換え定義文 抽出→言 換え
• コーパスとは、電子化された自然言語の文章から成る巨大なテキストデータである。
– 翻訳用例の獲得 (言語間リンク)
• 文書集合としての利用• 文書集合としての利用
– 単語(Wikipediaエントリ)間の類似度計算
53
Wikipediaで何ができる?(2)Wikipediaで何ができる?(2)
表記揺れ辞書としての利用• 表記揺れ辞書としての利用– リダイレクト
ソフトウエア工学→ソフトウェア工学• ソフトウエア工学→ ソフトウェア工学
• モンティパイソンズ → モンティパイソン
• 線形代数学→ 線型代数学
• 国道17号線→ 国道17号• 業務上過失致傷罪 → 業務上過失致死傷罪
括弧表現– 括弧表現• アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である放散虫の一群である。
• 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST CORPORATION)は、日本最大手の電気通信事業者である。
54
Wikipediaで何ができる?(3)Wikipediaで何ができる?(3)
• シソーラスとしての利用
– Wikipediaカテゴリp カテ リ
• 固有表現辞書としての利用
地名 人名 組織名– 地名、人名、組織名
– 商品名
• 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッキー、チョコエッグ、…
• 自動車: カローラ、エスティマ、マーチ、ベンツ、…
• テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、…
55
Wikipediaの特徴Wikipediaの特徴
多数 参加者 る編集• 多数の参加者による編集
• 半定型データ半定型デ タ
• 外部情報リソースとの連携
• 項目の組織化
56
(1)多数の参加者による編集(1)多数の参加者による編集
基本方針 「誰 も編集 きる• 基本方針は「誰でも編集できる」
• 秩序維持の仕組みが存在する秩序維持の仕組みが存在する
– ガイドライン (5つの原則)
ペ ジ毎のノ ト (議論 合意形成の場)– ページ毎のノート (議論、合意形成の場)
– 管理者によるコントロール
• 保護 (編集合戦への対応)
• 削除
• 投稿ブロック
• 管理者の選任・解任
57
(2)半定型データ(2)半定型データ
ウ キプ ジ ク• ウィキプロジェクト
• 大学、スポーツチーム、芸能人、…
• テンプレート
• 大学、サッカー選手、映画、
58
(3)外部情報リソースとの連携(3)外部情報リソースとの連携
外部• 外部Webサイトへのリンク
– 緯度・経度 (Google Mapsなどへのリンク)緯度 経度 ( g p な リンク)
• 参考文献
S ( O Cなど のリンク)– ISBN (Amazon, OPACなどへのリンク)
59
(4)項目の組織化(4)項目の組織化
ゴ
価格価格(かかく)とは、有形・無形の各種の商品
• カテゴリシステム– フォークソノミーの特徴を有する
(サービスを含む)の取引に際して提示される金額を言う。基本的には需要と供給のバランスによって決定される。一般には、値段(ねだん)とも呼ばれる
特徴を有する
– カテゴリにもカテゴリを付与できる(ゆ
呼ばれる。…カテゴリ: [マーケティング][経済学][市場]
社会リを付与できる(ゆるやかな階層構造)
– 複数の上位概念を経済
社会科学社会
複数の 位概念を与えることができる(多重継承) 商業
産業
ビジネススキル
労働
マーケティング 経済学 市場
経営学 流通
価格
マ ケティング 経済学 市場
60
既存の情報リソースとの比較既存の情報リソースとの比較
タクソノミ とフ クソノミ の中間的性格タクソノミーとフォークソノミーの中間的性格
• 構造– 下位層はフォークソノミー的 (複数の上位概念)– 上位層はタクソノミー的(単一の上位概念)
• 信頼性– 既存のシソーラスよりはいい加減既存のシソ ラスよりはいい加減
– フォークソノミーよりは信頼できる?
• カバレッジカバレッジ– フォークソノミーほどではないが、多様な概念をカバーしているバ している
61
情報の価値評価情報の価値評価
信頼性 あるカテゴリ の重要な語彙を網羅性良く含む信頼性 あるカテゴリーの重要な語彙を網羅性良く含む
意外性 複数のカテゴリ の語彙を併せ 含むか意外性 複数のカテゴリーの語彙を併せて含むか
意 性 程度 複数 ゴ 離がど く 離れ意外性の程度 複数のカテゴリーの距離がどのくらい離れているか
従来は遠いと思われていた概念たちの架け橋従来は遠いと思われていた概念たちの架け橋
有用性 個人の目的によ て異なる 個々人の過去の興味を示有用性 個人の目的によって異なる。個々人の過去の興味を示す用語リストに適度に関連することが大切:機械学習による適応
62
意外性の少ない情報意外性の少ない情報Wikipediaのカテゴリー階層構造の場合の例
あるカテゴリとその直系の子孫の間では新規性、意
外性はない。外性はない。
イギリスの企業イギリスの企業
イギリスの鉄道事業
ユーロトンネル株式会社
63
カテゴリ関係から得られた結果が多くの人々にと て既知の例多くの人々にとって既知の例
共通項目カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目
共通項目数
category:イギリ category:イギリス6 あり
ユーロトネ 会 1
category:イギリスの企業
5category:イギリスの鉄道事業者
6 あり ンネル会社
1
t 医療 2category:伝統医
3 あり漢方医 1category:医療 2
g y 伝統医学
3 あり漢方医学
1
category:アメリ
カ合衆国の映 6category:恋愛映
4 なし卒業(1967年 55カ合衆国の映
画作品6
g y画
4 なし (1967年の映画)
55
category:アメリCategory:アメリカ
ビ ナcategory:アメリ
カ合衆国のオリンピック選手
6 合衆国のオリンピック金メダリスト
7 なしビーナス・ウィリアムズ
55
ト
category:日本の俳優
6category:東京都出身の人物
5 なし木村拓哉
208864
意外性のある知識情報意外性のある知識情報Wikipediaのカテゴリー階層構造の場合の例
離れたカテゴリー間の面白い架け橋は、情報アクセス
グラフ間の構造を利用して評価、選別できる。グラフ間の構造を利用して評価、選別できる。
カーボンナノチューブカ ボンナノチュ ブ
宇宙
軌道エレベータ
65
意外性のあるカテゴリ関係をもつ項目の例
カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目共通項目
数
category:日本の内閣総理大臣
5category:オリンピック
射撃競技日本代表選手
8 なし 麻生太郎 1
category:弁当 4 category:キャラクター 5 なし キャラ弁 1
category:呪術 4category:アメリカ合衆
6 なしテカムセ 1category:呪術 4
国の大統領6 なし
の呪い1
category:日本の経済学者
5category:オリンピック
サッカー日本代表選 8 なし 堀江忠男 1済学者
手
category:コンピュータウイルス
5 category:福田康夫 4 なし福田ウイルス
1
category:祭 3 category:大麻 3 なしカナビス・カップ
1
category:イリノイ州選出のアメリカ合衆国上院議員
7category:グラミー賞受賞者
4 なしバラク・オバマ
166
新規性、有用性のある知識はどこにいるかiki di の構造を機械学習Wikipediaの構造を機械学習
下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高いWikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から教師あり機械学習し、情報の評価、選別、発見、推奨に活用
カーボンナノチューブ
宇宙
このカテゴリーの記事に現れる語彙宇宙
このカテゴリーの記事に現れる語彙
軌道エレベータ
彙
67
用語の対訳取得用語の対訳取得
Wikipediaの対訳の利用(システム開発中)
Web上の多言語資源などから専門用語対訳Web上の多言語資源などから専門用語対訳辞書抽出
現在も進めており 日中 日英での成果あり現在も進めており、日中、日英での成果あり
多言語化により言語コミュニティのごとのモノの見方の相違を調べることができる
言語依存性の少ないシステム言語依存性の少ないシステム言語依存性の高いソフトの使用は最小限にし、多くの言語への拡張性を狙う言語への拡張性を狙う。
68
Wikipediaの言語間格差の解消Wikipediaの言語間格差の解消
参考文献が充実 数学関係が充実
英語のWikipedia 280万項目
参考文献が充実 数学関係が充実
英語 p 項目
日本語のWikipedia 50万項目
ロ カルな文ローカルな文
Wikipediaを補完する
対訳のある項目
技術用語な
ローカルな文化などで必ずしも対訳される必要はない
化などで必ずしも対訳される必要はない項目 技術用語な
ど対訳されるべき項目
る必要はない項目
項目
用語を翻訳し
選別
この境界線を見つける機械学習手法
Webページ
用語を翻訳し、対応する日本語Webページを検索この境界線を見つける機械学習手法
自然言語処理(固有名、地域名などの処理を利用) 69
を検索
Wikipediaのデータを活用するにはWikipediaのデータを活用するには
全デ タ ダウ ド 能• 全データはXMLでダウンロード可能
• ただし取り扱いは意外と面倒ただし取り扱いは意外と面倒
– データが巨大
iki記法の i– Wiki記法のparsing
– リンク切れの扱い
Wikipediaの軽量解析ツールを開発していますWikipediaの軽量解析ツ ルを開発しています
Wik‐IE: http://wik‐ie.sourceforge.jp/
70
Hadoopとは何か?Hadoopとは何か?
A large‐scale distributed batch processing infrastracture
• Large‐scale = Web規模のデータを扱える
1TB t (1兆バイト) 1PB t (1000兆バイト)• 1TBytes(1兆バイト)~1PBytes(1000兆バイト)
• Distributed = 分散型システム
• Batch = バッチ処理専用 (高速な処理)
I f t t インフラとしてのシステム• Infrastructure = インフラとしてのシステム
• つまり意識せずに使える
HadoopのアプローチHadoopのアプローチ
• 並列処理をするためにたくさんのコンピュータをつないで、大量の情報を効率的に処理
• コストの安いコンピュータをたくさん結びつけてひとつのクラスタを構成するてひとつのクラスタを構成する
• 1000個のCPUを積んだ1台のマシン(現実には存在しな が トは 個 を積んだ在しないが)のコストは、1個のCPUを積んだ1000台のマシンより高くつく
スケールアップとスケールアウトスケールアップとスケールアウト
1台の計算機1台の計算機の性能
性能を上げようとするとコストが飛躍的にコストが飛躍的に増大してしまう
この領域をうまく使いたい
コストコスト
既存技術との比較既存技術との比較
H d• Hadoop• 単純化されたプログラミングモデル
• ユーザは簡単に分散システムの実装とテストが可能• ユーザは簡単に分散システムの実装とテストが可能
• 与えられたデータとタスクを各マシンに効率的・自動的に分散
• 各マシンのCPUコアをフルに活用できる
• 既存技術の例: Condor • データの分散機能がない• 高価なストレージ(SAN)が必要各マシン間での同期システム( など)を実装する必• 各マシン間での同期システム(MPIなど)を実装する必要
データ分散データ分散
h d のクラスタ• hadoopのクラスタ• データを全ノードに分散
• Hadoop分散ファイルシステム(HDFS)• 大きなデータファイルは 管理された複数ノー• 大きなデ タファイルは、管理された複数ノドに分散
• 分散したファイルは、複数マシン間で複製分散したファイルは、複数マシン間で複製• マシン故障でもデータ損失がない• 故障に応じて データを再複製• 故障に応じて、デ タを再複製• 一つの名前空間で管理し、アクセス可能
MapReduce:各プロセスの自立性を高める
各プ 個 信頼性向• 各プロセスの個別化で信頼性向上
• 「MapReduce」プログラムモデルで記述「MapReduce」プログラムモデルで記述
• MapReduce• Mappers:分割するタスク
• Reducers:集約するタスク
• ノード間通信の制限で、データ転送を管理
分散システムの信頼性を向上• 分散システムの信頼性を向上
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
mapmap map map mapmap map map
ba 1 2 c c3 6 a c5 2 b c7 8
Shuffle and Sort: aggregate values by keysa 1 5 b 2 7 c 2 3 6 8
reduce reduce reduce
r1 s1 r2 s2 r3 s3
k1 k2 k3 k4 k5 k6v1 v2 v3 v4 v5 v6
mapmap map map
ba 1 2 c c3 6 a c5 2 b c7 8
combinecombine combine combine
Shuffle and Sort: aggregate values by keys
ba 1 2 c 9 a c5 2 b c7 8
partitioner partitioner partitioner partitioner
Shuffle and Sort: aggregate values by keysa 1 5 b 2 7 c 2 9 8
reduce
reduce
reduce
r1 s1 r2 s2 r3 s3
MapReduceの応用タスクMapReduceの応用タスク
検索 デ 作成• 検索インデックスの作成
• キーワードのカウントキ ワ ドのカウント
• ログの時系列解析
– 例) あるキーワードで探した人がどんな資料にあたっているのか?
• レコメンデーション(いわゆる協調フィルタリング)グ)
• グラフ探索
• 機械学習79
スケーラビリティスケーラビリティ
d の利点の は 単調なスケ ラビリテ• Hadoopの利点の1つは、単調なスケーラビリティカーブ
プ グ• Hadoopプログラム• 小規模データは不向き→他の分散システムで実行さ
た方が良 場合があるせた方が良い場合がある
• 他の分散システム• 大規模(10~1000台のマシンで実行)データでは、書き換えが必要
• 非常にフラットなスケーラビリティカーブ• マシン数と比例したパフォーマンス増加
もくじもくじ
1 Litt l N i t とは1. Littel Navigatorとは?
2. 図書館の世界とWebの世界
3. 2つの分類体系の統合による分類自動導出
4 Wikipediaを使いこなす4. Wikipediaを使いこなす– 意外性のある情報の発見
– 言語間格差の抽出– 言語間格差の抽出
– 軽量解析ツールWik-IEの紹介
– Hadoop MapReduceとは?– Hadoop, MapReduceとは?
5. まとめ
81
今後の展開今後 展開他言語版の開発
英語版 開発中 が検索 能• 英語版の開発中: LCSHが検索可能
分野別シソーラスの活用分野別シソ ラスの活用
• 医学分野: MeSHなどとの連携
情報リテラシー教育の題材として
• 大学の教育現場大学の教育現場
– シラバスとの連携
業 修 学 など• 企業研修、生涯学習など
– 検索の多様な側面を体験的に学べる検索の多様な側面を体験的に学 る
82
おわりに• Wikipediaと図書館分類体系の統合利用によって、
パスファインダーに近い「情報探索のヒント提示」をパスファインダ に近い「情報探索のヒント提示」を可能とした
情報探索の多様な「切り口」の提示– 情報探索の多様な「切り口」の提示
– 信頼性のある情報資源への誘導
「 書館 な 者• 「図書館かWebか」という二項対立ではなく、両者の役割を踏まえた見方が大事
– 図書館: 信頼性、組織化
– Web: どんなキーワードからでも探せるWeb: どんなキ ワ ドからでも探せる
83