読解支援@2015 08-10-5

6
Webコンテンツの信頼性分析 木俵豊, 赤峯享, 河原大輔, 加藤義清, 中川哲治, 黒橋禎夫, 中澤聡, 乾健太郎, 森辰則. 言語処理学会第15回年次大会発表論文集, pp. 308311, 2009 プレゼンテーション 関沢祐樹 2015/08/10 1

Transcript of 読解支援@2015 08-10-5

Page 1: 読解支援@2015 08-10-5

Webコンテンツの信頼性分析    

木俵豊,  赤峯享,  河原大輔,  加藤義清,  中川哲治,  黒橋禎夫,  中澤聡,  乾健太郎,  森辰則.  

 言語処理学会第15回年次大会発表論文集,  pp.

308-­‐311,  2009

プレゼンテーション  関沢祐樹

2015/08/10 1

Page 2: 読解支援@2015 08-10-5

概要

•  インターネット上の情報  – 莫大な量で、内容、品質が多種多様  – 検索結果も大量  

•  発信元、内容の分布に注意を払わずに信用しやすい  •  あるページが意図的に上位に出力されている可能性  

•  本論文での議論  – Webコンテンツの信頼性分析システム  

2015/08/10 2

Page 3: 読解支援@2015 08-10-5

信頼性につながる情報

•  情報の発信者情報  •  実社会の人々による評判情報  •  与えられた課題への、主要意見、対立意見  

•  言語処理技術で取り出せる?

2015/08/10 3

Page 4: 読解支援@2015 08-10-5

情報信頼性分析エンジンWISDOM  

•  クエリ検索をTSUBAKI  で行い、結果を分析  1.  主要表現の抽出、要約  2.  対立表現の抽出 (↑の否定、反義語を探す)  3.  発信者分類  

a)  単一タイプ:個人管理サイトで個人が発信  b)  所属タイプ:企業サイトで経営者、社員が発信  c)  掲載タイプ:新聞社、学会のサイトにある専門家の記事  d)  引用タイプ:引用者の責任で、他サイトの情報を引用  e)  サービスタイプ:コメント欄など、著者、サイト運営以外  

2015/08/10 4

Page 5: 読解支援@2015 08-10-5

意味内容の時系列分析技術の開発

•  論理的関係解析技術

– 分析対象文の論理的関係を分析  •  根拠・例示・詳細・矛盾など  

•  Webコンテンツの要約・整理技術

– TextRank  による要約 •  裁判員制度等の 3  トピックにおいて80%程度以上の抽出精度  

•  時系列分析技術  – 指定した言論を含むWebコンテンツ数の時間推移

を用いた、言論の変化、有効期限の判定

2015/08/10 5

Page 6: 読解支援@2015 08-10-5

•  本論文が紹介したこと  – 自然言語処理による信頼性分析  

•  他にある分析方法  – 検索エンジン、Webサービスの信頼性  – 画像を含むページの信頼性分析

2015/08/10 6