読解支援@2015 08-10-5
-
Upload
sekizawayuuki -
Category
Education
-
view
2 -
download
0
Transcript of 読解支援@2015 08-10-5
Webコンテンツの信頼性分析
木俵豊, 赤峯享, 河原大輔, 加藤義清, 中川哲治, 黒橋禎夫, 中澤聡, 乾健太郎, 森辰則.
言語処理学会第15回年次大会発表論文集, pp.
308-‐311, 2009
プレゼンテーション 関沢祐樹
2015/08/10 1
概要
• インターネット上の情報 – 莫大な量で、内容、品質が多種多様 – 検索結果も大量
• 発信元、内容の分布に注意を払わずに信用しやすい • あるページが意図的に上位に出力されている可能性
• 本論文での議論 – Webコンテンツの信頼性分析システム
2015/08/10 2
信頼性につながる情報
• 情報の発信者情報 • 実社会の人々による評判情報 • 与えられた課題への、主要意見、対立意見
• 言語処理技術で取り出せる?
2015/08/10 3
情報信頼性分析エンジンWISDOM
• クエリ検索をTSUBAKI で行い、結果を分析 1. 主要表現の抽出、要約 2. 対立表現の抽出 (↑の否定、反義語を探す) 3. 発信者分類
a) 単一タイプ:個人管理サイトで個人が発信 b) 所属タイプ:企業サイトで経営者、社員が発信 c) 掲載タイプ:新聞社、学会のサイトにある専門家の記事 d) 引用タイプ:引用者の責任で、他サイトの情報を引用 e) サービスタイプ:コメント欄など、著者、サイト運営以外
2015/08/10 4
意味内容の時系列分析技術の開発
• 論理的関係解析技術
– 分析対象文の論理的関係を分析 • 根拠・例示・詳細・矛盾など
• Webコンテンツの要約・整理技術
– TextRank による要約 • 裁判員制度等の 3 トピックにおいて80%程度以上の抽出精度
• 時系列分析技術 – 指定した言論を含むWebコンテンツ数の時間推移
を用いた、言論の変化、有効期限の判定
2015/08/10 5
• 本論文が紹介したこと – 自然言語処理による信頼性分析
• 他にある分析方法 – 検索エンジン、Webサービスの信頼性 – 画像を含むページの信頼性分析
2015/08/10 6