運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... ·...

15
運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名 陸承志 元智大學資訊管理研究所 [email protected] 楊盛安 元智大學資訊管理研究所 [email protected] 黃挺立 元智大學資訊管理研究所 [email protected] 林昱呈 元智大學資訊管理研究所 [email protected] 摘要 本研究針對中文搜尋引擎的搜尋結果,利用潛在語意分析找出與查詢關鍵詞 有語意關聯的相關詞及其權重,並且利用文件元素權重的不同組合,計算文件的 分數來重新排名。本研究的重點在於計算中文關鍵詞、關鍵詞的短詞組合以及語 意相關詞,在搜尋結果網頁的標題、網頁簡短描述與網址出現的方式。我們利用 15 個關鍵詞在中文 Google 與中文 Yahoo 的搜尋結果進行實驗。實驗驗結果顯 示,在加入基因演算法調整文件元素權重前後, Google Yahoo 資料的 R-precision 平均值從 0.49 進步到 0.59 Kendall Tau Coefficient 0.056 進步到 0.125,顯示利用基因演算法的成效不錯。同時,實驗數據也顯示,查詢關鍵字出 現在 Title 的位置所造成的差異很小;本研究提出的方法在中文 Google 中文 Yahoo R-Precision 表現相當; Google Kendall Tau 值會比 Yahoo 的數 值表現好,顯示我們使用的逼近方法比較接近 Google 的排序函數。 關鍵詞:搜尋引擎、排名因素、排序函數、語意相關詞、潛在語意分析

Transcript of 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... ·...

Page 1: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名

陸承志

元智大學資訊管理研究所

[email protected]

楊盛安

元智大學資訊管理研究所

[email protected]

黃挺立

元智大學資訊管理研究所

[email protected]

林昱呈

元智大學資訊管理研究所

[email protected]

摘要

本研究針對中文搜尋引擎的搜尋結果,利用潛在語意分析找出與查詢關鍵詞

有語意關聯的相關詞及其權重,並且利用文件元素權重的不同組合,計算文件的

分數來重新排名。本研究的重點在於計算中文關鍵詞、關鍵詞的短詞組合以及語

意相關詞,在搜尋結果網頁的標題、網頁簡短描述與網址出現的方式。我們利用

15 個關鍵詞在中文 Google 與中文 Yahoo 的搜尋結果進行實驗。實驗驗結果顯

示,在加入基因演算法調整文件元素權重前後,Google 和 Yahoo 資料的

R-precision 平均值從 0.49 進步到 0.59,Kendall Tau Coefficient 從 0.056 進步到

0.125,顯示利用基因演算法的成效不錯。同時,實驗數據也顯示,查詢關鍵字出

現在 Title 的位置所造成的差異很小;本研究提出的方法在中文 Google 和 中文

Yahoo的 R-Precision 表現相當; 但 Google 的 Kendall Tau 值會比 Yahoo的數

值表現好,顯示我們使用的逼近方法比較接近 Google 的排序函數。

關鍵詞:搜尋引擎、排名因素、排序函數、語意相關詞、潛在語意分析

Page 2: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

壹、 緒論

搜尋引擎是網路使用者最常用來查詢資訊的工具。使用者在鍵入關鍵詞查詢

之後,會得到大量的查詢結果,使用者通常只會瀏覽前面幾個搜尋結果頁面。若

仔細觀察這些搜尋結果,我們可以發現在網頁的標題、網頁的短文敘述、網頁的

URL通常包含輸入的查詢關鍵詞或者是其短詞組合。如何利用前面幾項因素來

提高網頁的排名,增加網頁曝光程度,便成為搜尋引擎網路行銷關注的焦點。

搜尋引擎網路行銷 (Search Engine Marketing,SEM)是一種透過搜尋結果來

提升網站曝光度的網路行銷模式,其又分為兩種模式:搜尋引擎最佳化(Search

Engine Optimization, SEO)與付費排名。搜尋引擎最佳化利用搜尋引擎的搜尋規則

來提高網站的排名,付費排名則是利用競價和網站品質分數來爭取較好的排名。

使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

業者並沒有將他們搜尋引擎排序的規則公布出來, 而且眾多的排序因素 (例如

Google 考慮的因素超過 200 個) 的數值並不容易搜集。因此如何利用有限排序

數據逼近搜尋引擎的排序函數是研究搜尋引擎最佳化的一個重要議題。

本研究的目的主要在探討繁體中文搜尋引擎排序的因素以及其權重。我們

衡量的因素只有網頁上可見的標題(title)、短文(snippet)、和網址(URL)三個,

而非所有可能的排序因素。本研究針對繁體中文搜尋引擎市場佔有率前兩名的

Google 和 Yahoo 進行探討,我們從 Google 和 Yahoo的搜尋結果分析出和查詢

關鍵詞共同出現的相關詞及其權重,考慮關鍵詞和相關詞出現在標題、短文和網

址出現的方式和位置,並且以基因演算法來取得合適的網頁元素權重,綜合起來

為每一筆搜尋結果計算出一個分數。最後,依此分數為每個查詢關鍵詞對應的搜

尋結果重新排序,並且評估重新排名結果和搜尋引擎原始排名的接近程度,以驗

證這些排序的因素及其權重的可用性。

貳、文獻探討

一、搜尋引擎使用者行為

隨著網際網路越發達,使用者在找尋資訊時,通常第一個選擇是使用搜尋引

擎 (Purcell 2011)。但我們一般使用搜尋引擎時,使用者通常只會瀏覽搜尋結果

頁的前面幾頁,而瀏覽後面頁數的使用者會隨著網站排名而遞減。iProspect Study

(2008; 2010) 的調查結果指出,只看第一頁的使用者從 2002年的 48%, 一路提

升到 2008 年的 68%;而使用者會看超過三頁以上搜尋結果的比例,則從 2002

年的 19%,一路降為 2009 年的 8%。由此可見,使用者瀏覽的搜尋結果頁面逐

年遞減。此外,幾項使用者眼球追蹤的研究也顯示,使用者幾乎完全相信搜尋引

擎的排序結果,會依照搜尋引擎建議的順序來瀏覽網頁 (Pan et al. 2007;Guan &

Page 3: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

Cutrell 2007)。

依據這些使用行為,高排名就代表著高流量,這就是為何許多網站擁有者希

望拉高自己網站在搜尋結果的排名,以增加網站的曝光度。除了花錢買關鍵字廣

告外,就是對自身的網站進行搜尋引擎最佳化 (SEO)。

二、搜尋引擎最佳化

搜尋引擎業者對其排序因素、權重與演算法均視為最高商業機密,很少對外

透露。Google (2008) 有一份簡單的 SEO Starter Guide,其中提及的 Title, Meta

Description, Anchor text, Image Alt Structure…等這些因素通常稱為 On-page

factors。其他的相關研究認為,SEO還需要考慮 Off-page factors,例如 PageRank,

External links 等。

在 on-page factors 方面,Zhang & Dimitroff (2005a) 指出,在網頁的 title

和內文同時增加關鍵字出現的次數對提升排名有幫助,但在 title部分關鍵字重複

次數不可超過 4次。Zhang & Dimitroff (2005b) 又指出,有 metadata 元素的網頁

排名會比沒有 metadata 元素的網頁來得好,而在 Metadata用的 keywords 最好來

自網頁的 title和內文。Google的一項專利文件 (Patterson 2009) 指出,網頁 Title

和內文除了要有關鍵詞之外,還要有相關詞 (related phrases)。

在 off-page factors 方面,文獻上大都認為 Google的 Page Rank 是最重要的

因素(Agichtein et al. 2006; Bifet et al. 2005; Fortunato et al. 2008; Richardson et al.

2006), 不過 Google從來沒有承認他們使用 Page Rank 於網頁排序上; Bifet et al.

(2005) 認為我們查到的 PageRank 似乎跟 Google 實際用的不一樣;Evans (2007)

也認為,具有特定 PageRank 的網站不一定比其他較低 PageRank 的網站排名來

得高。由於本研究針對 Google 和 Yahoo 做計較,因此暫時不考慮 Google專屬

的 PageRank 對排名的影響。

在文件計分方面,Haveliwala (2003)提出, 以線性方式將多個維度的權重分

數組合成一個情境總分比使用單一 PageRank 可以得到更精確的排序結果。我們

之前的研究 (陸承志 & 廖良珩 2011) 亦顯示, 將文件的標題,短文, 網址,

和其他因素的線性組合,可以得到不錯的排序結果,而且可以辨別各個因素的相

對重要性。不過,中文和英文搜尋結果不同的是,中文會有斷詞的議題需處理,

而且每家搜尋引擎的斷詞法不盡相同。在比對四字詞以上的關鍵詞時,除了關鍵

詞的完全比對之外,也要考慮其短詞組合的部分比對議題。

三、 潛在語意分析 (Latent Semantic Analysis)

潛在語意分析用來分析文件與文件所包含的詞彙之間的關係的一個技術。

這個方法使用向量空間模型,將文件以向量的方式表現,每一個維度則反映文件

的不同特徵。它可以解決在處理自然語言常會遇到的兩個問題:一詞多義

Page 4: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

(polysemy) 或同義詞 (synonymy) 的問題 (Deerwester et al., 1990)。LSA已經被

廣泛的運用在文件分類、文件自動評分、文件主題萃取等研究。

經過 LSA處理後,我們可以用一個低維度的詞文矩陣來表示原始的文件與

文件所包含的詞之間的關係。一般的作法將文件與其所包含的詞彙建立一個詞文

矩陣 A,矩陣的元素 (i, j) 是詞 i 在文件 j 的 TFIDF值 (Salton et al., 1988)。 接

著,我們將此矩陣做奇異值分解 (Single Value Decomposition, SVD),將 A分解

成矩陣 U、S、VT三個矩陣。矩陣 U代表的為詞的向量空間;矩陣 V

T代表的為

文件的向量空間;矩陣 S 為一個 r維的奇異值矩陣,所有的奇異值分布在左上

到右下的對角線上,其他位置的元素皆為 0。

Uk

Sk Vk

Ak

r*r

m*r

r*n

m*n

=

圖 1 奇異值分解示意圖

我們需要從 S 矩陣的 r 個維度中選擇最重要的 k個維度, 並刪除不需要的

雜訊維度。Wall et al. (2003) 提出,利用每個奇異值的 relative variance,亦即每

個奇異值的平方除以所有奇異值的平方和,來決定每一個維度的相對重要性,並

且利用前 k個累積的相對變異數 (cumulated relative variance, CRV)來顯示前 k

個維度的貢獻度。當到達某個 K的 CRV 值大於預設門檻值時,這個 K 就是我

們的目標 k值。

叁、研究方法

本研究的架構共分成四部分:(1)文件抓取以及斷詞;(2) LSA處理;(3)文件

計分以及重新排名;(4) 效度評估。流程如圖 2所示:

Page 5: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

文件抓取及斷詞

LSA處理

文件計分與

重新排名

效度評估

維度篩選

相關詞權重計算

R-Precision

Kendall-Tau

圖 2 系統流程圖

一、文件抓取以及斷詞

這個步驟將查詢關鍵詞送到中文 Google與中文 YAHOO網站進行搜尋,撈取

前 20筆搜尋結果回來, 然後對每一筆搜尋結果,剖析出網頁的標題(title)、網

頁的簡短描述 (snippet)、網址 (URL),並記錄下每一個網頁的原始排名。接著,

我們將網頁的標題與描述進行中文斷詞,採用的斷詞方法是林渝翔 (2011) 所撰

寫的混合斷詞器,這個斷詞器包含中研院的 CKIP 斷詞法與高頻長詞優先斷詞法

的優點,可適當地斷出常用的長詞。本研究將每一筆搜尋結果視為一個文件,20

筆搜尋結果的集合則統稱為文件集。

二、 LSA 處理

我們使用向量空間模型把原始文件和斷詞後的詞彙轉換成詞文矩陣

(Term-document matrix),這個矩陣中位於(i,j)元素數值為詞彙 ti 在文件 dj 的

TFIDF值。接著, 我們使用 Latent Semantic Analysis (LSA) 的方法來發掘詞彙

和文件集的潛在語意,並利用縮減維度後重新計算的新矩陣,來找出和查詢關鍵

詞高度相關的詞彙。重要的步驟有維度篩選以及詞彙對查詢關鍵詞的相對權重。

1. 維度篩選

LSA運算利用奇異值分解(SVD),將原本屬於高維度的詞文矩陣 A分解成

U、S、VT,三個矩陣,如下:

其中 S 是一個對角線矩陣,即其對角線的數值是由左上向右下遞減的奇異值,範

例如圖二 。我們會保留 S 矩陣中重要的 K個維度,並刪除其它剩餘的維度,以

重新計算縮減過維度的新矩陣 Ak。

Page 6: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

圖 3 S 矩陣範例

我們利用奇異值的 relative variance來決定每一個維度的相對重要性,以選取最

重要的 k個維度。第 i個奇異值 Si的 relative variance定義 (Wall et al. 2003) 如下:

(1)

接著,我們利用累積的相對變異數 (cumulated relative variance, CRV)來顯示前

k個維度的貢獻度:

(2)

我們選擇 CRV(k)值最接近 0.7的 k值為目標 k值。以圖 3的 S 矩陣為例, 當 k

= 1..6 時, 它的 CRV 值分別為:

CRV={0.393, 0.589,0.691,0.773, 0.833,0.88}

其中 CRV(3)=0.691, 最接近 0.7,所以我們會選擇 K=3。取完 K之後(矩陣縮減

完畢),LSA會重新產生一個縮減後的新矩陣 Ak。

2. 相關詞權重計算

重建完 LSA矩陣之後,我們再利用這個矩陣去計算所有的詞與查詢關鍵詞

之間的相關程度。本研究稱這些詞為查詢關鍵詞的相關詞。

我們使用詞文矩陣中每個詞的向量和查詢關鍵詞向量的 cosine similarity, 當

成每個詞相對於查詢關鍵詞的權重。所謂詞的向量就是詞在詞文矩陣中對應列的

數值所形成。

(3)

其中 , 分別為第 i 個詞和查詢關鍵詞在詞文矩陣中對應列的向量。由於

cosine similarity是以查詢關鍵詞為比較基礎,所以查詢關鍵詞自己會有最大值1。

三、文件分數計算與重新排名

Page 7: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

我們依據上述的詞彙對查詢關鍵詞的相關權重,來計算每個文件相對於查詢

關鍵詞的總分,再依照這個總分對文件重新排名。單一文件的總分為其 title、

snippet、URL三部份加權後分數的線性組合,公式如下:

(4)

其中 ωT、ωS、ωu分別為文件的 Title、Snippet 和 URL的分數的權重倍率,三

者皆為 0 到 1 之間的實數;ST (d,q)、SS (d,q)、Su (d,q)分別為 Title、Snippet、

URL的原始分數。在權重倍率的部份, 預設值為 1;然後,我們使用基因演算

法來調整權重,預期文件集的重新排名結果和原始排名結果更接近。

1. 文件標題分數計算

文件標題權重計算分為兩部份,第一部分為查詢關鍵詞和其短詞組合出現在

標題的權重,第二部份為非查詢關鍵詞的其他相關詞出現在文件標題的權重。

(5)

其中 αi 是一個二元變數, 以 1 或 0 分別表示 ti 出現在文件標題與否。

Keyword in title 的算法如下:

(6)

其中 q’為出現在 Title 中最接近查詢關鍵詞的短詞組合。例如 Google 的斷詞器

會將 “未上市櫃股票” 斷成 {未, 上市, 櫃, 股票}, 所以可能的短詞組合會有

{未上市櫃股票, 未上市股票, 上市櫃股票, 未上市櫃, 上市股票, 未上市…}。我

們選擇長度最長而且前面短詞有出現的組合為最接近的短詞組合。如果這個短詞

也是一個相關詞,那麼我們就使用它的相關詞權重做為 Wq’;反之, 若這個短

詞組合不是一個相關詞,那麼 Wq’= 短詞組合長度/查詢關鍵詞長度。

Keyword prominence(關鍵詞突出程度)則是衡量查詢關鍵詞靠近文件標題

開頭的程度, 公式如下:

(7)

其中|Title(d)|為文件 d標題的總字數,Position(d, q’)為查詢關鍵詞或其短詞組合 q’

的第一個字在文件標題中出現的位置。當查詢關鍵詞或其短詞組合正好出現在文

件標題的開頭,它的 Keyword Prominence值就是 1。表一為 “未上市櫃股票”的

關鍵字突出度計算範例。

表 1 關鍵字突出度計算範例

Page 8: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

標題 算法 數值

文件一 未上市櫃股票查詢 (8-(1-1))/8 1

文件二 尚揚未上市股票,未上市公司 (12-(3-1))/12 0.833

文件三 興仁貿易公司未上市櫃 Q&A (13-(7-1))/13 0.53

文件四 未上市公司的股票查詢 (10-(1-1)/1)/10 1

2. Snippet 分數計算

Snippet 權重計算是則是簡單地將有出現的相關詞之權重相加。這裡我們只

考慮每個詞是否出現,不計算出現的次數。

1,

( , )i

i

n

S q q i t

i t q

S d q W W

(8)

其中 αi 是一個二元變數, 以 1 或 0 分別表示 查詢關鍵詞 q 或者相關詞 ti 出

現在文件的 snippet 與否。

3. URL分數計算

Keyword in URL計算關鍵詞在URL中的分數。 URL語法含有 domain、 path、

filename三部分,URL: http://<domain>/<path>/<filename>。在計算關鍵詞在網址

中的分數,我們考慮關鍵詞出現在文件網址中的位置,關鍵字符合的程度以及網

址領域 (陸承志 & 廖良珩 2011) 。由於我們處理的是繁體中文網頁,所以我們

給予 .com.tw 和 .com 一樣的權重值。

四、效度衡量指標

本研究採用兩個指標來衡量我們重新計算的文件排名是否逼近搜尋引擎原

始的文件排名。第一個指標是 R-Precision (Manning et al. 2009),它計算原始排

在 1 - R 名的 R 個文件在重新計算之後,還留在 R 名之內的比例。這個指標通常

可做為 SEO 從業人員預測 SEO 成效的參考。另一個指標為 Kendall Tau

coefficient, 衡量文件集重新排名序列和原始排名序列的關聯度,其值介於 -1 和

1 之間。 -1 表示兩個序列的排序完全相反;1表示兩個序列的排序完全吻合。

R-Precision 的定義如下:

(9)

Page 9: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

di為重新排名後第 i 個文件,若它的原始排名小於 R,則 Rel(di)為 1,否則為 0。

實驗時, 我們取 R=10。

Kendall Tau coefficient (Abdi 2007) 的定義如下:

(10)

其中 n 為觀察排名的文件個數。假設 (x1, y1), (x2, y2), …, (xn, yn)是我們對同樣 n

筆文件排序的觀察。對任兩個組合 (xi, yi) 和 (xj, yj),我們稱 (xi, yi) 和 (xj, yj) 是

concordant, 如果 xi > xj 而且 yi > yj 或者 xi < xj 而且 yi < yj.;反之,則稱 (xi,

yi) 和 (xj, yj) 是 discordant。我們以下列範例說明:

原始排名:1,2,3,4,5

重新排名:1,3,2,4,5

原始排名的組合有 (1,2) (1,3) (1,4) (1,5) (2,3) (2,4) (2,5) (3,4) (3,5) (4,5);重新排名

組合(1,3) (1,2) (1,4) (1,5) (3,2) (3,4) (3,5) (2,4) (2,5) (4,5)。 在全部 10 個組合中,

相同(concordant)的組合有 9個,相異(discordant)的組合有 2個,,所以 τ =

(9-2)/10= 0.7。

肆、實驗評估

本研究採用 15 個查詢關鍵詞 (詳如表 2),向中文 Google和 中文 Yahoo撈

取每個關鍵詞的前 20 筆搜尋結果回來,經過中文斷詞與 LSA 分析後,取出前

30個相關詞來做文件的計分。

表 2實驗用的查詢關鍵詞集

1. 未上市櫃股票 6. 人工植牙 11. 門禁系統

2. 近視雷射手術 7. 辦公室出租 12. 名片印刷

3. 苗栗住宿 8. 商務中心 13. 大圖輸出

4. 室內設計 9. 家事服務 14. 研究所考試

5. 舊屋翻新 10. 清潔中心 15. 英國遊學

本研究採用公式 (4)來計算文件的總分。為了比較查詢關鍵詞出現在標題的

位置對排名的影響,我們預設標題計分公式(6)的 Keyword Prominence=1,亦即不

考慮查詢關鍵詞的位置;另外一種標題計分則依公式 (7)計算 Keyword

Prominence。我們稱採用預設 Keyword Prominence 的文件總分為 S1; 第二種採

用浮動 Keyword Prominence 的文件總分為 S2。

Page 10: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

依據上述定義,對於採用 Google搜尋結果,使用相關詞 Cosine Similarity權

重的文件總分算法,我們命名為 GCS1及 GCS2。使用 Yahoo 搜尋結果,用相關

詞 Cosine Similarity權重的文件計分法,我們命名為 YCS1及 YCS2。

一、實驗 1: 使用預設的文件成分權重

在這個實驗中,我們使用預設的文件成分權重, 亦即在公式 (4) 中,文件

Title, Snippet 和 URL 的 權重值 ωT、ωS、ωu 皆為 1。

圖 4, 5 分別為 Google 和 Yahoo 資料的 R-Precision 和 Kendall Tau 的趨勢

圖。Google GCS1,GCS2和 Yahoo YCS1,YCS2的 R-Precision 平均值分別為 0.49,

0.48, 0.52, 0.5,幾乎全在 0.5左右,但上下變化大,4者的標準差都約 0.11。值

得注意的是 Kendall Tau 的平均值只在 0.03 到 0.07之間,但標準差高達 0.15

到 0.20 之間。

二、實驗 2:使用基因演算法調整文件元素權重

接著,我們使用基因演算法來將調整 Title,Snippet 和 URL的權重。我們採

用 Evolver提供的 Budget 解法,將 Title,Snippet 和 URL的權重設定在 0~1之

間,且所有因素的權重和等於 1。基因演算的目標是求解新排名和原始排名的排

名差異平方和最小化。我們實驗組合加上 +GA, 例如 GCS1+GA,以利辨別。

從基因演算法調整前後的比較數據(圖 6, 7),Google的 R-Precision 平均

值從 0.49 成長到 0.59;Kendall-Tau的平均值更從 0.05大幅成長到 0.135。

Yahoo部分, 也呈現同樣的成長趨勢。

三、 綜合討論

從上述的實驗中, 我們發現當 Title,Snippet, URL 的 權重不一樣時,

R-precision 和 Kendal-Tau 的表現會比三者權重一樣時來得好。由於 Google對有

中文關鍵字出現在 URL 的網頁排名較好,所以實驗結果也證實 Google 文件集

的 URL 權重最高, Snippet 次之,Title 權重最小。Yahoo 則未對有中文關鍵字

出現在 URL的網頁給予較高的排名, 因此 URL的權重反而最小,Snippet 的權

重最高。此外,實驗數據也顯示,考不考慮查詢關鍵字出現在 Title 的位置對

R-precision 和 Kendall Tau 的差異很小;我們的方法在中文 Google 和 中文

Yahoo的 R-Precision 表現相當; 但 Google 的 Kendall Tau 值會比 Yahoo的表

現好,顯示我們使用的逼近方法目前比較接近 Google 的排序函數。

Page 11: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

圖 4 使用預設文件成分權重的 R-Precision 趨勢圖

圖 5 使用預設文件成分權重的 Kendall-Tau 趨勢圖

Page 12: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

圖 6 基因演算前後 P-Precision 平均值的變化

圖 7 基因演算前後 Kendall Tau 平均值的變化

伍、結 論

本研究針對中文搜尋引擎的搜尋結果,利用潛在語意分析找出與查詢關鍵詞

有語意關聯的相關詞及其權重,並且利用文件元素權重的不同組合,計算文件的

分數來重新排名。在未經過基因演算法調整文件元素權重前,在 15 個中文詞的

實驗中,效果最好的計分組合 R-Precision 可以達到 0.7,Kendall-Tau 可以達到

Page 13: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

0.41。利用基因演算法調整文件元素權重後,R-Precision 平均最高達 60%,

Kendall-Tau 最高 15%,都比沒有調整權重前的平均值有所上升。實驗數據也顯

示,考不考慮查詢關鍵字出現在 Title 的位置的差異很小;我們的方法在中文

Google 和中文 Yahoo 的 R-Precision 表現相當; 但 Google的 Kendall Tau 值會

比 Yahoo的表現好,顯示我們使用的逼近方法比較接近 Google 的排序函數。

未來我們將加入更多的排序因素,例如:外部連結數、PageRank、MozRank

等,並且調整計分組合,以更精準地逼近搜尋引擎的排序函數。

參考文獻

1. 林渝翔,(2011)“一個產生長詞與新詞的中文混合斷詞系統”,元智大學資

訊管理所碩士論文。

2. 陸承志, 廖良珩 (2011) “Google 搜尋引擎的網頁排名因素及其權重的推估,”

ICIM 2011 國際資訊管理學術研討會, 2011 年 5月 21日, 朝陽科技大學.

3. Abdi, Hervé, The Kendall Rank Correlation Coefficient, In: Neil Salkind (Ed.)

(2007). Encyclopedia of Measurement and Statistics, Thousand Oaks (CA): Sage.

4. Agichtein, E., E. Brill, and S. Dumais (2006), Improving web search ranking by

incorporating user behavior information, Proceedings of the 29th annual

international ACM SIGIR conference on Research and development in

information retrieval, pp. 19-26

5. Bifet, A., C. Castillo, P. Chirita, and I. Weber (2005), An Analysis of Factors

Used in Search Engine Ranking, In First International Workshop on Adversarial

Information Retrieval on the Web, 2005, pp. 1-10

6. Deerwester, S., S. T. Dumais, G. W. Furnas, T. K. Landauer and R. Harshman

(1990) “Indexing by latent semantic analysis”, Journal of the American Society

for Information Science, vol. 41, no. 6, pp. 391-407, 1990.

7. Evans, M. P. (2007), Analysing Google rankings through search engine

optimization data, Internet Research, Vol. 17 No. 1, p. 21-37

8. Fortunato S., M. Boguñá, A. Flammini and F. Menczer, (2008), Approximating

PageRank from In-Degree, ALGORITHMS AND MODELS FOR THE

WEB-GRAPH, Lecture Notes in Computer Science, 2008, Volume

4936/2008, 59-71

9. Google (2008), Google Search Engine Optimization Starter Guide, Version 1.1,

published 13 November 2008, and available online at

http://www.google.com/webmasters/docs/search-engine-optimization-starter-guid

e.pdf

10. Guan, Z. and E. Cutrell (2007), An eye tracking study of the effect of target rank

Page 14: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

on web search, in Proceedings of the SIGCHI conference on Human factors in

computing systems. pp. 417-420

11. Haveliwala , T. H. (2003), Topic-Sensitive PageRank: A Context-Sensitive

Ranking Algorithm for Web Search, IEEE Transactions on Knowledge and Data

Engineering, pp. 784-796

12. iProspect.com, Inc. (2008), iProspect Blended Search Results Study, available

online at

http://www.iprospect.com/about/researchstudy_2008_blendedsearchresults.htm

13. iProspect.com, Inc. (2010), Real Branding Implications of Digital Media - an

SEM, SEO, & Online Display Advertising Study, available online at

http://www.iprospect.com/about/researchstudy_2010_digitalmedia.htm

14. Manning, C., F. Raghavan and H. Schütze (2009), An Introduction to Information

Retrieval, Cambridge Universty Press, Cambridge England, 2009.

15. Pan, B., Hembrooke, H., and Joachims, T. (2007), In Google We Trust: Users’

Decisions on Rank, Position, and Relevance, Journal of Computer-Mediated

Communication, 12: 801–823. doi: 10.1111/j.1083-6101.2007.00351.x

16. Patterson, Anna Lynn, “Phrase-based indexing in an information retrieval

system.” U.S. Patent 7,536,408 B2, issued May 19, 2009.

17. Purcell, Kristen, “Search and email still top the list of most popular online

activities”, Pew Internet Report, August 9, 2011, available online at

http://www.pewinternet.org/Reports/2011/Search-and-email.aspx

18. Richardson, M., A. Prakash, and E. Brill (2006), Beyond PageRank: machine

learning for static ranking, in Proceedings of the 15th international conference on

World Wide Web. p. 707-715

19. Salton, G., and M. J. McGill. 1983. Introduction to Modern Information Retrieval.

New York : McGraw-Hill.

20. Wall, Michael E., Andreas Rechtsteiner, Luis M. Rocha."Singular value

decomposition and principal component analysis". in A Practical Approach to

Microarray Data Analysis. D.P. Berrar, W. Dubitzky, M. Granzow, eds. pp.

91-109, Kluwer: Norwell, MA (2003).

21. Zhang, J. & A. Dimitroff (2005a), The impact of webpage content

characteristics on webpage visibility in search engine results (Part I), Information

Processing and Management, pp. 665-690

22. Zhang, J. & A. Dimitroff (2005b), The impact of metadata implementation on

webpage visibility in search engine results (Part II), Information Processing and

Management, p. 691-715

Page 15: 運用語意相關詞和基因演算法來逼近中文搜尋引擎的排名oplab.im.ntu.edu.tw/csimweb/system/application/... · 使用搜尋引擎最佳化適合長期的排名經營,而且比較節省成本,但是搜尋引擎的

Approximating Chinese Search Engine Ranking Function with

Semantically Related Terms and a Genetic Algorithm

Cheng-Jye Luh

Dept of Information Management, Yuan Ze University

[email protected]

Sheng-An Yang

Dept of Information Management, Yuan Ze University

[email protected]

Dean Ting-Li Huang

Dept of Information Management, Yuan Ze University

[email protected]

Yu-Cheng Lin

Dept of Information Management, Yuan Ze University

[email protected]

Abstract

This study seeks to approximate Chinese search engine ranking function with

semantically related terms and a genetic algorithm. Each document in a search results

for a give query is scored based on a linear combination of scores of its title , snippet

and URL. The scoring of title, snippet and URL considers not only the occurrence of

the given query but also the occurrences of semantically related terms. We conducted

experiments on 15 Chinese keyphrases using search results from Google Taiwan and

Yahoo! Taiwan. The experimental results indicated that average R-precision improves

from 0.49 to 0.59; average Kendall Tau coefficient significantly increases from 0.056

to 0.125 when using genetic algorithm determined weights for title, snippet and URL.

More important, the proposed method performs comparably well on Google and

Yahoo search results in R-Precision; while in Kendall Tau coefficient the proposed

method performs favorably better on Google search results than on Yahoo search

results. This indicates that the proposed method is approximating the ranking function

of Google better than that of Yahoo.

Keywords: Search Engine, Ranking Factors, Ranking Function,Semantically Related

Terms, Latent Semantic Analysis