Multilingual Single Document Keyword Extraction for Information Retrieval

Multilingual Single Document Keyword

Extraction for Information Retrieval

指導教授：陳志達報告者：劉芸如

David B. Bracewell, Fuji REN, and Shingo KuriowaDepartment of Information Science and Intelligent Systems,Faculty of Engineering, The University of TokushimaTokushima, 770-0861Email: davidbgis.tokushima-u.acjp

目錄1. 介紹2. 背景3. 文集資訊4. 關鍵詞提取演算法5. 實驗結果6. 結論

1. 介紹• 關鍵字或索引條件是一種基本的資訊檢索的一部

分。• 為了確保所選擇的關鍵字，在大多數情況下是獨

立的，換句話說，所選用的關鍵字，經常出現在一個文件，但不是在其餘資料裡。

• 這種技術有助於詞識別文件，但需要預先完整收集。

• 使用 co-occurrence 和 machine learning 來實現從單一文件取出關鍵字。

• 利用資訊檢索來做關鍵字搜索，以確定獨特的關鍵字在他們的文件提取。

2. 背景 (1)

• 我們的目標是讓用戶搜索信息本國語言和從任何語言文件來檢索回答。

• 該系統將被設計用於在處理新聞和教育課題 ( 歷史，文學，藝術，音樂等 ) ，裡面包函日文、英文、中文當目標語言。這將是由以下幾個部分：– 關鍵字提取– 主題分析– 文章摘要– 機器翻譯– 知識獲得– 知識管理– 提問和回答– 報表生成

2. 背景 (2)

• 在知識獲取或管理模組將嘗試從問題中學習，以便將來詢問或報告的要求。

• 在這個系統是要建立一個有效的關鍵字提取演算法。

3. 文集資訊• 這個語料庫內有 17000 文件，而這些文件是從

Wired 從每天的文章被翻譯成日文。

4. 關鍵詞提取演算法 (1)

• 關鍵字提取演算法設計盡可能語言的獨立。

• 三個演算法模組為：– 型態分析– 名詞片語提取與評分– 名詞片語叢集與評分


• 型態的分析 (Morphological Analysis)– 型態的分析是識別詞的詞幹 (word stems) 、句

法種類 (Parts-of-Speech) 。– 自然語言處理 (Natural Language Processing

NLP) 是一個十分重要的基本組成部分。– 在形態分析部分算法的產生，部分詞性標註和文

字進行分割。– 模組過程如下：

• 詞的分段• 句法種類 (Part-of-Speech) 標籤• 詞幹 (Stemming)• Unigram 頻率計算


• 名詞片語提取 (NP Extraction and Scoring)– 關鍵字只限於名詞片語，名詞片語往往包含最重

要的信息。– 每一個新的語言所需要做改變的事情是改變詞序– 此論文是使用簡單的 CFG(Context Free

Grammar) 來做名詞片語。– 名詞片語是要被標記和從文章提取，非檢所用字

需要被刪除。


• 名詞片語叢集 (NP Clustering and Scoring)– 叢集是防止關鍵字重複提取


• 選擇關鍵字 (Choosing Keywords)– 關鍵字是以叢集中評分順序作為關鍵字的選擇– 而這些選出來字是一個短詞叢集

5. 實驗結果 (1)

• 測試有效的關鍵字有兩個方法：– 人類協議產生關鍵字– 產生關鍵字在資訊檢索

• REL 是一套可以做信息檢索的全文，使用多個關鍵字與布爾運算符。

5. 實驗結果 (2)

6. 結論• 本文介紹了多國語言能力的算法提取關鍵

字從一個單一的文件進行資料檢索。 • 唯一的要求是演算法的語言是有形態分析

器和規則，這是為了尋找簡單名詞片語。• 最短的名詞詞組從評分最高的叢集作關鍵

字。 • 該演算法測試英文與日文的語料庫，結果顯示該演算法優於基準演算法。也表明該演算法提取有效的關鍵字在獨特的描述文件。

Multilingual Single Document Keyword Extraction for Information Retrieval

Documents

Transcript of Multilingual Single Document Keyword Extraction for Information Retrieval