八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf ·...

53
332 八、知識分群與知識散佈 本章學習目標 說明知識分群與知識散佈之相關議題 探討知識文件關鍵屬性擷取對於知識分群之影響 說明知識文件相關性分析之作法 闡述知識文件分群技術之特點 說明知識文件/訊息發佈之相關應用 說明自動化知識文件相關性分析技術 說明自動化知識文件分群之方法論 文說明自動化知識件/訊息發佈之方法論 8.1 前言 隨著網際網路(Internet)之快速發展,「資訊過量」、「資訊爆炸」等狀況漸形嚴重, 造成網際網路使用者進行資訊檢索/查詢時,無法有效篩選真正想要尋找之資訊。此外, 近年來以顧客為導向之顧客關係管理(Customer Relationship ManagementCRM)觀念 盛行,企業若能掌握使用者之需求,建立「個人化(Personalized)」之顧客關係,主動 發佈使用者需要之資訊,將可更契合未來資訊之管理模式。本章乃以文件關鍵屬性之擷 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後, 乃說明如何透過使用者閱讀趨勢之收集與分析,結合文件分群結果,決定知識接受對象 與內容,以達成文件(或訊息)自動發佈之目的。此種企業知識文件管理概念,可以協 助企業組織發展知識文件管理機制,使電子化知識管理與顧客關係管理理念能相互整合 支援,並帶動知識服務型產業之發展。 隨著網路使用者不斷增加,眾多企業或個人採用網際網路作為通訊、行銷、商務往 來、資訊傳遞等行為之管道,造成在網路上各種資訊不斷出現並持續累積,而呈現幾何

Transcript of 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf ·...

Page 1: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

332

八知識分群與知識散佈

本章學習目標

說明知識分群與知識散佈之相關議題

探討知識文件關鍵屬性擷取對於知識分群之影響

說明知識文件相關性分析之作法

闡述知識文件分群技術之特點

說明知識文件訊息發佈之相關應用

說明自動化知識文件相關性分析技術

說明自動化知識文件分群之方法論

文說明自動化知識件訊息發佈之方法論

81 前言

隨著網際網路(Internet)之快速發展「資訊過量」「資訊爆炸」等狀況漸形嚴重

造成網際網路使用者進行資訊檢索查詢時無法有效篩選真正想要尋找之資訊此外

近年來以顧客為導向之顧客關係管理(Customer Relationship ManagementCRM)觀念

盛行企業若能掌握使用者之需求建立「個人化(Personalized)」之顧客關係主動

發佈使用者需要之資訊將可更契合未來資訊之管理模式本章乃以文件關鍵屬性之擷

取為基礎說明知識文件之相關性分析並以此相關性分析之結果進行文件分群之後

乃說明如何透過使用者閱讀趨勢之收集與分析結合文件分群結果決定知識接受對象

與內容以達成文件(或訊息)自動發佈之目的此種企業知識文件管理概念可以協

助企業組織發展知識文件管理機制使電子化知識管理與顧客關係管理理念能相互整合

支援並帶動知識服務型產業之發展

隨著網路使用者不斷增加眾多企業或個人採用網際網路作為通訊行銷商務往

來資訊傳遞等行為之管道造成在網路上各種資訊不斷出現並持續累積而呈現幾何

333

倍數成長因此網際網路上提供使用者進行資訊檢索查詢之「入口網站」概念因應而

生其做法乃將網際網路上之各種資訊依照特定階層式之分類方式進行區分而使用

者可依循「大分類 中分類 小分類」之階層展開找到所欲尋找類別之相關資訊此

外入口網站也提供「搜尋引擎」之功能讓使用者可輸入任何關鍵字由搜尋引擎搜

尋該入口網站所涵蓋之所有網路資訊若該資訊內容包含此關鍵字者則將此資訊回覆

予使用者此一搜尋引擎機制之缺點乃將所有相同於關鍵字之資訊回饋予使用者而

未針對資訊內容之分佈進行過濾亦即無法有效篩選使用者真正想要尋找之資訊反而

可能造成使用者對需求資訊之混淆故使用者往往需浪費了許多時間瀏覽不必要之資

此外隨著資訊持續而快速地增加「資訊過量」「資訊爆炸」等狀況漸形嚴重

而資訊入口網站之階層式分類項目與層級也不斷增加複雜化導致搜尋引擎所回覆之

資訊項目動輒數以百計甚至更多造成使用者尋找資訊之難度逐漸升高企業推動電

子化過程也遭遇相同問題企業將知識由傳統之紙本形式轉換為電子檔案形式置入文

件資料庫或知識資料庫中並導入網際網路入口網站管理概念進行文件庫知識庫管

理以提昇知識文件分享之效率但是隨著知識文件之不斷增加與累積企業也面臨資

訊過量問題

另外除了資訊過量之問題外另一個問題則是如何提供「合適」之資訊予使用者

一般而言企業將經營之相關資訊置於網際網路上由有需求之使用者自行尋找並查閱

資訊近年來以顧客為導向之顧客關係管理(Customer Relationship ManagementCRM)

觀念盛行企業若能掌握使用者之需求建立「個人化(Personalized)」之顧客關係

主動發佈使用者「想要」之資訊可更契合未來資訊之管理模式以往資訊「發佈」

對象均由資訊提供者指定但此一作法往往造成企業文件管理不統一之狀況另一普遍

作法乃由知識管理者統一進行知識文件之權限控管但若知識文件種類增多將造成知

識管理者負荷增加或知識文件內容非知識管理者了解之範疇而增加文件接受者指定

之困難現階段知識管理與發佈的相關問題如下

(1) 資訊過量造成使用者於資訊檢索之困難

如上所述由於網際網路之快速發展文件與資訊增加速度亦隨之加速如何重新

整理與組織此些文件與資訊以解決資訊過量之問題成為企業經營之一項重要課題

而當中一項可行之解決方式便是以知識文件間之關聯性為基礎進行文件資訊之分群

管理亦即將文件資訊依照其關聯性高低區分為若干群集待使用者檢索資訊時分析

334

其用於檢索之條件值將高關聯性之文件資訊回饋予使用者如此即可減少在文件資

訊過量之情況下以關鍵字檢索造成之過多不相關文件資訊列為檢索結果之困擾

(2) 將資訊主動發佈予資訊需求者為必然趨勢

由於網際網路技術發達使用者透過網路取得資訊進行交易之頻率已顯著提升

為使企業之廣告行銷資訊知識文件能順利提供予潛在需求對象讓使用者可以於資訊

檢索時得到真正「想要」之資訊掌握使用者偏好趨向為首要任務是故結合使用者偏

好探勘之模式並發展資訊主動提供之方法論可強化企業進行主動行銷客製化之效

本章之目標在於說明利用知識文件關鍵屬性進行知識文件間之相關性分析並以

此相關性為基礎進行知識文件分群此外透過使用者閱讀習慣之收集與探勘結合

文件分群結果進行文件接受對象之推論達成知識文件(或訊息)發佈之目的故相

關課題包括文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈等四個主題

進行說明關於知識分群與散佈相關技術之發展趨勢與架構關係如圖 81 所示在文件

關鍵屬性擷取課題上過去關於此方面之研究主要以文件關鍵字擷取文件類型判定

語意分析等角度為主在文件分群課題上過去關於此方面之研究主要以自動群集偵

測自組織映射圖類神經網路及文件相關性等方式進行文件資訊之分群在文件訊

息發佈方面過去關於此方面之研究包含兩大領域即「使用者閱讀趨勢之探勘與收集」

與「文件接受者自動推論」

335

文件關鍵屬性擷取

文件相關性分析

文件分群

文件類型判定

文件關鍵字萃取

使用者閱讀趨勢之收集與探勘

文件接受者自動推論

知識分群與散佈模式

文件﹙訊息﹚發佈

以自動群集偵測

以自組織映射圖

以類神經網路

以文件相關性

圖 81知識分群與散佈相關技術之發展趨勢

82 文件關鍵屬性擷取

執行文件管理功能時必須事先針對所有文件加以定義與歸納整理以進行分群或

分類使文件群更具架構與組織性且可更便利地提供使用者進行資料查詢與篩選進

行文件定義之前必須找出文件之關鍵特性藉此特性可以辨別不同之文件此些文件

的關鍵特性即稱為「關鍵屬性」(Key Attributes)如文件關鍵字文件類別(Document

Classification or Text Categorization)文件標題或是文件提供者等均是

821 文件關鍵字擷取

所謂關鍵字即是在組成一篇文章的單字中 能代表該文章意義的重要詞彙因

此若能擷取文章之關鍵字便能掌握該文章之重點文件關鍵字擷取包含文件標題之

關鍵字擷取以及文件內容之關鍵字擷取曾元顯(1997)提出關鍵字之擷取技巧主要有

三種方法第一種為詞庫比對法即利用已建立之詞庫比對輸入文件將文件中出現在

詞庫之片語擷取出來成為關鍵字第二種是文法剖析法其乃透過自然語言處理技術的

文法剖析程式剖析文件中之名詞片語再過濾不適合之詞彙第三種則是統計分析法

乃透過對文件之分析累積足夠的統計參數後再擷取統計參數符合某些條件之片語

陳鈺瑾(1999)利用詞庫搭配機率競爭的方法尋找 適合的斷詞結果之後再利

336

用文法剖析法分析此些斷詞尋找能夠代表文章的關鍵字許中川(2001)則是以詞庫

分析法擷取關鍵既有詞彙以統計分析法擷取關鍵新生詞彙獲得文件之關鍵詞彙孫

銘聰與侯建良(2002)提出一關鍵字擷取法則該法乃利用字節解析字詞解析字詞

比對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等步驟擷取

文件之關鍵字

822 文件分類(類別)擷取

進行檔案分類時必須考量機關業務功能檔案產生者組織體系及檔案內容主題等

三個要素機關業務功能乃指執行或操作該檔案所載相關內容或規定之相關單位檔案

產生者組織體系則是指檔案產生者本身所處之組織體系位置檔案內容主題則是指依照

檔案內容進行分類(張玉華2003)

「文件主題分類」或簡稱「文件分類」(Document Classification or Text Categorization)

是指依照文件「內容主旨」將文件給定予一個或數個「類別」(Class or Category)此些

類別都是事先定義或選定以符合管理者的需求與期望其目的乃對於文件進行分門別

類的加值處理使得文件更方便管理與利用影響文件主題分類成效之因素可分成特

徵選擇(Feature Selection)特徵詞彙刪減(Feature Reduction)前置摘要處理分類

器選擇分類架構文件標示原則類別選擇分類不一致訓練資料量成效評估方

式參數調整分類器的 大成效等 12 項因素(曾元顯2002)

以往的文件分類研究大多注重於以紙本文件為主以人工方式進行分類而隨著網

際網路時代蓬勃發展大量資訊相對增加許多學者提出「文件自動分類」的觀念亦

即透過資訊檢索資料探勘等技術所建立之分類模型將一篇新的文件進行自動文件分

類由系統決定此文件類別而此一過程完全不需人工介入顧皓光與莊裕澤(1998)

提出一套文件自動分類之模型以協助使用者處理網際網路之資訊該研究利用搜尋引

擎上具備分類特性之文件作為訓練資料建立文件之向量空間模型(Vector Space

ModelVSM)並充分利用 Web 文件提供超文件連結特性及 HTML 標籤加註之功能

以提昇系統分類能力

侯永昌與楊雪花(1998)則提出以模糊理論和遺傳演算法為基礎的文件自動分類機

制首先該研究乃將文章中虛字頻率僅出現一次之單字及二元詞刪除而取得初步之

短句再將標題中的詞彙加重其權重藉以提高分類的正確率其並利用遺傳演算法求

337

算 佳的門檻值以此門檻值篩選文章中之重要關鍵詞之後再進行選詞並以此選

詞結果經公式計算標準權重同時每篇測試文章也經過電腦自動斷詞產生文件向量

後計算各類詞庫標準權重與該文章向量的內積值由內積值大小決定該文章之類

別莊慧美(1999)則運用基因演算法則計算文件向量中關鍵字的權重以決定文件之

類別詹智凱(2000)則以詞彙關聯性為基礎進行文件自動分類亦即利用詞與詞之間

之關聯性將關聯性高之詞彙聚成一群形成代表類別的關鍵字再利用這些形成的類

別將文件自動分類楊允言(1999)則提出以雙連字串(Bigram)替代關鍵詞的方法進

行文件自動分類亦即根據次數集中度廣度等三項條件從訓練資料中篩選具分類

價值的雙連字串作為關鍵詞再以向量模式機率模式和不同的分類比重進行文件自動

分類

Ng 等人(2001)提出機率性模式將網路文件分類成有意義的文件及無意義的文件

此機率性模式是以多變量統計分析為基礎利用典型網路文件進行測試顯示此機率性

模式較適用於複合記錄之網路文件二元分類

綜合而言對於文件關鍵性擷取課題相關研究大多著重在關鍵字擷取以及文件分

類等領域對於文件提供者需求者等特質之研究則甚微文件關鍵字乃文件之重要屬

性其擷取乃透過詞庫比對法文法剖析法以及統計分析法等方法進行而文件分類(類

別)擷取之相關研究也多以關鍵字為基礎透過不同之方法如權重次數集中度

廣度或是自行提出之公式等區分文件之類別此些文件關鍵屬性則可進一步運用於

文件相關性分析網際網路檢索以及文件管理等領域

83 文件相關性分析

文件相關性分析可將具有共同主題或相關性高之文件聚合一起形成一個族群以協

助進行後續文件分類或文件管理等工作針對文件相關性分析之課題已有許多學者提

出不同之方法進行討論常見之分析方法有關鍵字為基之相關性分析向量空間模型

(Vector Space Model)為基之相關性分析及資料探勘等方法論

考量關鍵字具有代表一份文件之關鍵要義Cooper 等人(2002)利用文件之關鍵字

計算文件間之相關性該研究首先利用一套名為「Textract」之軟體找出文件關鍵字再

分析兩兩文件間相同關鍵字出現頻率若此頻率高出一預設之門檻值則認定此兩文件

具有高度相關性

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 2: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

333

倍數成長因此網際網路上提供使用者進行資訊檢索查詢之「入口網站」概念因應而

生其做法乃將網際網路上之各種資訊依照特定階層式之分類方式進行區分而使用

者可依循「大分類 中分類 小分類」之階層展開找到所欲尋找類別之相關資訊此

外入口網站也提供「搜尋引擎」之功能讓使用者可輸入任何關鍵字由搜尋引擎搜

尋該入口網站所涵蓋之所有網路資訊若該資訊內容包含此關鍵字者則將此資訊回覆

予使用者此一搜尋引擎機制之缺點乃將所有相同於關鍵字之資訊回饋予使用者而

未針對資訊內容之分佈進行過濾亦即無法有效篩選使用者真正想要尋找之資訊反而

可能造成使用者對需求資訊之混淆故使用者往往需浪費了許多時間瀏覽不必要之資

此外隨著資訊持續而快速地增加「資訊過量」「資訊爆炸」等狀況漸形嚴重

而資訊入口網站之階層式分類項目與層級也不斷增加複雜化導致搜尋引擎所回覆之

資訊項目動輒數以百計甚至更多造成使用者尋找資訊之難度逐漸升高企業推動電

子化過程也遭遇相同問題企業將知識由傳統之紙本形式轉換為電子檔案形式置入文

件資料庫或知識資料庫中並導入網際網路入口網站管理概念進行文件庫知識庫管

理以提昇知識文件分享之效率但是隨著知識文件之不斷增加與累積企業也面臨資

訊過量問題

另外除了資訊過量之問題外另一個問題則是如何提供「合適」之資訊予使用者

一般而言企業將經營之相關資訊置於網際網路上由有需求之使用者自行尋找並查閱

資訊近年來以顧客為導向之顧客關係管理(Customer Relationship ManagementCRM)

觀念盛行企業若能掌握使用者之需求建立「個人化(Personalized)」之顧客關係

主動發佈使用者「想要」之資訊可更契合未來資訊之管理模式以往資訊「發佈」

對象均由資訊提供者指定但此一作法往往造成企業文件管理不統一之狀況另一普遍

作法乃由知識管理者統一進行知識文件之權限控管但若知識文件種類增多將造成知

識管理者負荷增加或知識文件內容非知識管理者了解之範疇而增加文件接受者指定

之困難現階段知識管理與發佈的相關問題如下

(1) 資訊過量造成使用者於資訊檢索之困難

如上所述由於網際網路之快速發展文件與資訊增加速度亦隨之加速如何重新

整理與組織此些文件與資訊以解決資訊過量之問題成為企業經營之一項重要課題

而當中一項可行之解決方式便是以知識文件間之關聯性為基礎進行文件資訊之分群

管理亦即將文件資訊依照其關聯性高低區分為若干群集待使用者檢索資訊時分析

334

其用於檢索之條件值將高關聯性之文件資訊回饋予使用者如此即可減少在文件資

訊過量之情況下以關鍵字檢索造成之過多不相關文件資訊列為檢索結果之困擾

(2) 將資訊主動發佈予資訊需求者為必然趨勢

由於網際網路技術發達使用者透過網路取得資訊進行交易之頻率已顯著提升

為使企業之廣告行銷資訊知識文件能順利提供予潛在需求對象讓使用者可以於資訊

檢索時得到真正「想要」之資訊掌握使用者偏好趨向為首要任務是故結合使用者偏

好探勘之模式並發展資訊主動提供之方法論可強化企業進行主動行銷客製化之效

本章之目標在於說明利用知識文件關鍵屬性進行知識文件間之相關性分析並以

此相關性為基礎進行知識文件分群此外透過使用者閱讀習慣之收集與探勘結合

文件分群結果進行文件接受對象之推論達成知識文件(或訊息)發佈之目的故相

關課題包括文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈等四個主題

進行說明關於知識分群與散佈相關技術之發展趨勢與架構關係如圖 81 所示在文件

關鍵屬性擷取課題上過去關於此方面之研究主要以文件關鍵字擷取文件類型判定

語意分析等角度為主在文件分群課題上過去關於此方面之研究主要以自動群集偵

測自組織映射圖類神經網路及文件相關性等方式進行文件資訊之分群在文件訊

息發佈方面過去關於此方面之研究包含兩大領域即「使用者閱讀趨勢之探勘與收集」

與「文件接受者自動推論」

335

文件關鍵屬性擷取

文件相關性分析

文件分群

文件類型判定

文件關鍵字萃取

使用者閱讀趨勢之收集與探勘

文件接受者自動推論

知識分群與散佈模式

文件﹙訊息﹚發佈

以自動群集偵測

以自組織映射圖

以類神經網路

以文件相關性

圖 81知識分群與散佈相關技術之發展趨勢

82 文件關鍵屬性擷取

執行文件管理功能時必須事先針對所有文件加以定義與歸納整理以進行分群或

分類使文件群更具架構與組織性且可更便利地提供使用者進行資料查詢與篩選進

行文件定義之前必須找出文件之關鍵特性藉此特性可以辨別不同之文件此些文件

的關鍵特性即稱為「關鍵屬性」(Key Attributes)如文件關鍵字文件類別(Document

Classification or Text Categorization)文件標題或是文件提供者等均是

821 文件關鍵字擷取

所謂關鍵字即是在組成一篇文章的單字中 能代表該文章意義的重要詞彙因

此若能擷取文章之關鍵字便能掌握該文章之重點文件關鍵字擷取包含文件標題之

關鍵字擷取以及文件內容之關鍵字擷取曾元顯(1997)提出關鍵字之擷取技巧主要有

三種方法第一種為詞庫比對法即利用已建立之詞庫比對輸入文件將文件中出現在

詞庫之片語擷取出來成為關鍵字第二種是文法剖析法其乃透過自然語言處理技術的

文法剖析程式剖析文件中之名詞片語再過濾不適合之詞彙第三種則是統計分析法

乃透過對文件之分析累積足夠的統計參數後再擷取統計參數符合某些條件之片語

陳鈺瑾(1999)利用詞庫搭配機率競爭的方法尋找 適合的斷詞結果之後再利

336

用文法剖析法分析此些斷詞尋找能夠代表文章的關鍵字許中川(2001)則是以詞庫

分析法擷取關鍵既有詞彙以統計分析法擷取關鍵新生詞彙獲得文件之關鍵詞彙孫

銘聰與侯建良(2002)提出一關鍵字擷取法則該法乃利用字節解析字詞解析字詞

比對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等步驟擷取

文件之關鍵字

822 文件分類(類別)擷取

進行檔案分類時必須考量機關業務功能檔案產生者組織體系及檔案內容主題等

三個要素機關業務功能乃指執行或操作該檔案所載相關內容或規定之相關單位檔案

產生者組織體系則是指檔案產生者本身所處之組織體系位置檔案內容主題則是指依照

檔案內容進行分類(張玉華2003)

「文件主題分類」或簡稱「文件分類」(Document Classification or Text Categorization)

是指依照文件「內容主旨」將文件給定予一個或數個「類別」(Class or Category)此些

類別都是事先定義或選定以符合管理者的需求與期望其目的乃對於文件進行分門別

類的加值處理使得文件更方便管理與利用影響文件主題分類成效之因素可分成特

徵選擇(Feature Selection)特徵詞彙刪減(Feature Reduction)前置摘要處理分類

器選擇分類架構文件標示原則類別選擇分類不一致訓練資料量成效評估方

式參數調整分類器的 大成效等 12 項因素(曾元顯2002)

以往的文件分類研究大多注重於以紙本文件為主以人工方式進行分類而隨著網

際網路時代蓬勃發展大量資訊相對增加許多學者提出「文件自動分類」的觀念亦

即透過資訊檢索資料探勘等技術所建立之分類模型將一篇新的文件進行自動文件分

類由系統決定此文件類別而此一過程完全不需人工介入顧皓光與莊裕澤(1998)

提出一套文件自動分類之模型以協助使用者處理網際網路之資訊該研究利用搜尋引

擎上具備分類特性之文件作為訓練資料建立文件之向量空間模型(Vector Space

ModelVSM)並充分利用 Web 文件提供超文件連結特性及 HTML 標籤加註之功能

以提昇系統分類能力

侯永昌與楊雪花(1998)則提出以模糊理論和遺傳演算法為基礎的文件自動分類機

制首先該研究乃將文章中虛字頻率僅出現一次之單字及二元詞刪除而取得初步之

短句再將標題中的詞彙加重其權重藉以提高分類的正確率其並利用遺傳演算法求

337

算 佳的門檻值以此門檻值篩選文章中之重要關鍵詞之後再進行選詞並以此選

詞結果經公式計算標準權重同時每篇測試文章也經過電腦自動斷詞產生文件向量

後計算各類詞庫標準權重與該文章向量的內積值由內積值大小決定該文章之類

別莊慧美(1999)則運用基因演算法則計算文件向量中關鍵字的權重以決定文件之

類別詹智凱(2000)則以詞彙關聯性為基礎進行文件自動分類亦即利用詞與詞之間

之關聯性將關聯性高之詞彙聚成一群形成代表類別的關鍵字再利用這些形成的類

別將文件自動分類楊允言(1999)則提出以雙連字串(Bigram)替代關鍵詞的方法進

行文件自動分類亦即根據次數集中度廣度等三項條件從訓練資料中篩選具分類

價值的雙連字串作為關鍵詞再以向量模式機率模式和不同的分類比重進行文件自動

分類

Ng 等人(2001)提出機率性模式將網路文件分類成有意義的文件及無意義的文件

此機率性模式是以多變量統計分析為基礎利用典型網路文件進行測試顯示此機率性

模式較適用於複合記錄之網路文件二元分類

綜合而言對於文件關鍵性擷取課題相關研究大多著重在關鍵字擷取以及文件分

類等領域對於文件提供者需求者等特質之研究則甚微文件關鍵字乃文件之重要屬

性其擷取乃透過詞庫比對法文法剖析法以及統計分析法等方法進行而文件分類(類

別)擷取之相關研究也多以關鍵字為基礎透過不同之方法如權重次數集中度

廣度或是自行提出之公式等區分文件之類別此些文件關鍵屬性則可進一步運用於

文件相關性分析網際網路檢索以及文件管理等領域

83 文件相關性分析

文件相關性分析可將具有共同主題或相關性高之文件聚合一起形成一個族群以協

助進行後續文件分類或文件管理等工作針對文件相關性分析之課題已有許多學者提

出不同之方法進行討論常見之分析方法有關鍵字為基之相關性分析向量空間模型

(Vector Space Model)為基之相關性分析及資料探勘等方法論

考量關鍵字具有代表一份文件之關鍵要義Cooper 等人(2002)利用文件之關鍵字

計算文件間之相關性該研究首先利用一套名為「Textract」之軟體找出文件關鍵字再

分析兩兩文件間相同關鍵字出現頻率若此頻率高出一預設之門檻值則認定此兩文件

具有高度相關性

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 3: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

334

其用於檢索之條件值將高關聯性之文件資訊回饋予使用者如此即可減少在文件資

訊過量之情況下以關鍵字檢索造成之過多不相關文件資訊列為檢索結果之困擾

(2) 將資訊主動發佈予資訊需求者為必然趨勢

由於網際網路技術發達使用者透過網路取得資訊進行交易之頻率已顯著提升

為使企業之廣告行銷資訊知識文件能順利提供予潛在需求對象讓使用者可以於資訊

檢索時得到真正「想要」之資訊掌握使用者偏好趨向為首要任務是故結合使用者偏

好探勘之模式並發展資訊主動提供之方法論可強化企業進行主動行銷客製化之效

本章之目標在於說明利用知識文件關鍵屬性進行知識文件間之相關性分析並以

此相關性為基礎進行知識文件分群此外透過使用者閱讀習慣之收集與探勘結合

文件分群結果進行文件接受對象之推論達成知識文件(或訊息)發佈之目的故相

關課題包括文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈等四個主題

進行說明關於知識分群與散佈相關技術之發展趨勢與架構關係如圖 81 所示在文件

關鍵屬性擷取課題上過去關於此方面之研究主要以文件關鍵字擷取文件類型判定

語意分析等角度為主在文件分群課題上過去關於此方面之研究主要以自動群集偵

測自組織映射圖類神經網路及文件相關性等方式進行文件資訊之分群在文件訊

息發佈方面過去關於此方面之研究包含兩大領域即「使用者閱讀趨勢之探勘與收集」

與「文件接受者自動推論」

335

文件關鍵屬性擷取

文件相關性分析

文件分群

文件類型判定

文件關鍵字萃取

使用者閱讀趨勢之收集與探勘

文件接受者自動推論

知識分群與散佈模式

文件﹙訊息﹚發佈

以自動群集偵測

以自組織映射圖

以類神經網路

以文件相關性

圖 81知識分群與散佈相關技術之發展趨勢

82 文件關鍵屬性擷取

執行文件管理功能時必須事先針對所有文件加以定義與歸納整理以進行分群或

分類使文件群更具架構與組織性且可更便利地提供使用者進行資料查詢與篩選進

行文件定義之前必須找出文件之關鍵特性藉此特性可以辨別不同之文件此些文件

的關鍵特性即稱為「關鍵屬性」(Key Attributes)如文件關鍵字文件類別(Document

Classification or Text Categorization)文件標題或是文件提供者等均是

821 文件關鍵字擷取

所謂關鍵字即是在組成一篇文章的單字中 能代表該文章意義的重要詞彙因

此若能擷取文章之關鍵字便能掌握該文章之重點文件關鍵字擷取包含文件標題之

關鍵字擷取以及文件內容之關鍵字擷取曾元顯(1997)提出關鍵字之擷取技巧主要有

三種方法第一種為詞庫比對法即利用已建立之詞庫比對輸入文件將文件中出現在

詞庫之片語擷取出來成為關鍵字第二種是文法剖析法其乃透過自然語言處理技術的

文法剖析程式剖析文件中之名詞片語再過濾不適合之詞彙第三種則是統計分析法

乃透過對文件之分析累積足夠的統計參數後再擷取統計參數符合某些條件之片語

陳鈺瑾(1999)利用詞庫搭配機率競爭的方法尋找 適合的斷詞結果之後再利

336

用文法剖析法分析此些斷詞尋找能夠代表文章的關鍵字許中川(2001)則是以詞庫

分析法擷取關鍵既有詞彙以統計分析法擷取關鍵新生詞彙獲得文件之關鍵詞彙孫

銘聰與侯建良(2002)提出一關鍵字擷取法則該法乃利用字節解析字詞解析字詞

比對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等步驟擷取

文件之關鍵字

822 文件分類(類別)擷取

進行檔案分類時必須考量機關業務功能檔案產生者組織體系及檔案內容主題等

三個要素機關業務功能乃指執行或操作該檔案所載相關內容或規定之相關單位檔案

產生者組織體系則是指檔案產生者本身所處之組織體系位置檔案內容主題則是指依照

檔案內容進行分類(張玉華2003)

「文件主題分類」或簡稱「文件分類」(Document Classification or Text Categorization)

是指依照文件「內容主旨」將文件給定予一個或數個「類別」(Class or Category)此些

類別都是事先定義或選定以符合管理者的需求與期望其目的乃對於文件進行分門別

類的加值處理使得文件更方便管理與利用影響文件主題分類成效之因素可分成特

徵選擇(Feature Selection)特徵詞彙刪減(Feature Reduction)前置摘要處理分類

器選擇分類架構文件標示原則類別選擇分類不一致訓練資料量成效評估方

式參數調整分類器的 大成效等 12 項因素(曾元顯2002)

以往的文件分類研究大多注重於以紙本文件為主以人工方式進行分類而隨著網

際網路時代蓬勃發展大量資訊相對增加許多學者提出「文件自動分類」的觀念亦

即透過資訊檢索資料探勘等技術所建立之分類模型將一篇新的文件進行自動文件分

類由系統決定此文件類別而此一過程完全不需人工介入顧皓光與莊裕澤(1998)

提出一套文件自動分類之模型以協助使用者處理網際網路之資訊該研究利用搜尋引

擎上具備分類特性之文件作為訓練資料建立文件之向量空間模型(Vector Space

ModelVSM)並充分利用 Web 文件提供超文件連結特性及 HTML 標籤加註之功能

以提昇系統分類能力

侯永昌與楊雪花(1998)則提出以模糊理論和遺傳演算法為基礎的文件自動分類機

制首先該研究乃將文章中虛字頻率僅出現一次之單字及二元詞刪除而取得初步之

短句再將標題中的詞彙加重其權重藉以提高分類的正確率其並利用遺傳演算法求

337

算 佳的門檻值以此門檻值篩選文章中之重要關鍵詞之後再進行選詞並以此選

詞結果經公式計算標準權重同時每篇測試文章也經過電腦自動斷詞產生文件向量

後計算各類詞庫標準權重與該文章向量的內積值由內積值大小決定該文章之類

別莊慧美(1999)則運用基因演算法則計算文件向量中關鍵字的權重以決定文件之

類別詹智凱(2000)則以詞彙關聯性為基礎進行文件自動分類亦即利用詞與詞之間

之關聯性將關聯性高之詞彙聚成一群形成代表類別的關鍵字再利用這些形成的類

別將文件自動分類楊允言(1999)則提出以雙連字串(Bigram)替代關鍵詞的方法進

行文件自動分類亦即根據次數集中度廣度等三項條件從訓練資料中篩選具分類

價值的雙連字串作為關鍵詞再以向量模式機率模式和不同的分類比重進行文件自動

分類

Ng 等人(2001)提出機率性模式將網路文件分類成有意義的文件及無意義的文件

此機率性模式是以多變量統計分析為基礎利用典型網路文件進行測試顯示此機率性

模式較適用於複合記錄之網路文件二元分類

綜合而言對於文件關鍵性擷取課題相關研究大多著重在關鍵字擷取以及文件分

類等領域對於文件提供者需求者等特質之研究則甚微文件關鍵字乃文件之重要屬

性其擷取乃透過詞庫比對法文法剖析法以及統計分析法等方法進行而文件分類(類

別)擷取之相關研究也多以關鍵字為基礎透過不同之方法如權重次數集中度

廣度或是自行提出之公式等區分文件之類別此些文件關鍵屬性則可進一步運用於

文件相關性分析網際網路檢索以及文件管理等領域

83 文件相關性分析

文件相關性分析可將具有共同主題或相關性高之文件聚合一起形成一個族群以協

助進行後續文件分類或文件管理等工作針對文件相關性分析之課題已有許多學者提

出不同之方法進行討論常見之分析方法有關鍵字為基之相關性分析向量空間模型

(Vector Space Model)為基之相關性分析及資料探勘等方法論

考量關鍵字具有代表一份文件之關鍵要義Cooper 等人(2002)利用文件之關鍵字

計算文件間之相關性該研究首先利用一套名為「Textract」之軟體找出文件關鍵字再

分析兩兩文件間相同關鍵字出現頻率若此頻率高出一預設之門檻值則認定此兩文件

具有高度相關性

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 4: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

335

文件關鍵屬性擷取

文件相關性分析

文件分群

文件類型判定

文件關鍵字萃取

使用者閱讀趨勢之收集與探勘

文件接受者自動推論

知識分群與散佈模式

文件﹙訊息﹚發佈

以自動群集偵測

以自組織映射圖

以類神經網路

以文件相關性

圖 81知識分群與散佈相關技術之發展趨勢

82 文件關鍵屬性擷取

執行文件管理功能時必須事先針對所有文件加以定義與歸納整理以進行分群或

分類使文件群更具架構與組織性且可更便利地提供使用者進行資料查詢與篩選進

行文件定義之前必須找出文件之關鍵特性藉此特性可以辨別不同之文件此些文件

的關鍵特性即稱為「關鍵屬性」(Key Attributes)如文件關鍵字文件類別(Document

Classification or Text Categorization)文件標題或是文件提供者等均是

821 文件關鍵字擷取

所謂關鍵字即是在組成一篇文章的單字中 能代表該文章意義的重要詞彙因

此若能擷取文章之關鍵字便能掌握該文章之重點文件關鍵字擷取包含文件標題之

關鍵字擷取以及文件內容之關鍵字擷取曾元顯(1997)提出關鍵字之擷取技巧主要有

三種方法第一種為詞庫比對法即利用已建立之詞庫比對輸入文件將文件中出現在

詞庫之片語擷取出來成為關鍵字第二種是文法剖析法其乃透過自然語言處理技術的

文法剖析程式剖析文件中之名詞片語再過濾不適合之詞彙第三種則是統計分析法

乃透過對文件之分析累積足夠的統計參數後再擷取統計參數符合某些條件之片語

陳鈺瑾(1999)利用詞庫搭配機率競爭的方法尋找 適合的斷詞結果之後再利

336

用文法剖析法分析此些斷詞尋找能夠代表文章的關鍵字許中川(2001)則是以詞庫

分析法擷取關鍵既有詞彙以統計分析法擷取關鍵新生詞彙獲得文件之關鍵詞彙孫

銘聰與侯建良(2002)提出一關鍵字擷取法則該法乃利用字節解析字詞解析字詞

比對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等步驟擷取

文件之關鍵字

822 文件分類(類別)擷取

進行檔案分類時必須考量機關業務功能檔案產生者組織體系及檔案內容主題等

三個要素機關業務功能乃指執行或操作該檔案所載相關內容或規定之相關單位檔案

產生者組織體系則是指檔案產生者本身所處之組織體系位置檔案內容主題則是指依照

檔案內容進行分類(張玉華2003)

「文件主題分類」或簡稱「文件分類」(Document Classification or Text Categorization)

是指依照文件「內容主旨」將文件給定予一個或數個「類別」(Class or Category)此些

類別都是事先定義或選定以符合管理者的需求與期望其目的乃對於文件進行分門別

類的加值處理使得文件更方便管理與利用影響文件主題分類成效之因素可分成特

徵選擇(Feature Selection)特徵詞彙刪減(Feature Reduction)前置摘要處理分類

器選擇分類架構文件標示原則類別選擇分類不一致訓練資料量成效評估方

式參數調整分類器的 大成效等 12 項因素(曾元顯2002)

以往的文件分類研究大多注重於以紙本文件為主以人工方式進行分類而隨著網

際網路時代蓬勃發展大量資訊相對增加許多學者提出「文件自動分類」的觀念亦

即透過資訊檢索資料探勘等技術所建立之分類模型將一篇新的文件進行自動文件分

類由系統決定此文件類別而此一過程完全不需人工介入顧皓光與莊裕澤(1998)

提出一套文件自動分類之模型以協助使用者處理網際網路之資訊該研究利用搜尋引

擎上具備分類特性之文件作為訓練資料建立文件之向量空間模型(Vector Space

ModelVSM)並充分利用 Web 文件提供超文件連結特性及 HTML 標籤加註之功能

以提昇系統分類能力

侯永昌與楊雪花(1998)則提出以模糊理論和遺傳演算法為基礎的文件自動分類機

制首先該研究乃將文章中虛字頻率僅出現一次之單字及二元詞刪除而取得初步之

短句再將標題中的詞彙加重其權重藉以提高分類的正確率其並利用遺傳演算法求

337

算 佳的門檻值以此門檻值篩選文章中之重要關鍵詞之後再進行選詞並以此選

詞結果經公式計算標準權重同時每篇測試文章也經過電腦自動斷詞產生文件向量

後計算各類詞庫標準權重與該文章向量的內積值由內積值大小決定該文章之類

別莊慧美(1999)則運用基因演算法則計算文件向量中關鍵字的權重以決定文件之

類別詹智凱(2000)則以詞彙關聯性為基礎進行文件自動分類亦即利用詞與詞之間

之關聯性將關聯性高之詞彙聚成一群形成代表類別的關鍵字再利用這些形成的類

別將文件自動分類楊允言(1999)則提出以雙連字串(Bigram)替代關鍵詞的方法進

行文件自動分類亦即根據次數集中度廣度等三項條件從訓練資料中篩選具分類

價值的雙連字串作為關鍵詞再以向量模式機率模式和不同的分類比重進行文件自動

分類

Ng 等人(2001)提出機率性模式將網路文件分類成有意義的文件及無意義的文件

此機率性模式是以多變量統計分析為基礎利用典型網路文件進行測試顯示此機率性

模式較適用於複合記錄之網路文件二元分類

綜合而言對於文件關鍵性擷取課題相關研究大多著重在關鍵字擷取以及文件分

類等領域對於文件提供者需求者等特質之研究則甚微文件關鍵字乃文件之重要屬

性其擷取乃透過詞庫比對法文法剖析法以及統計分析法等方法進行而文件分類(類

別)擷取之相關研究也多以關鍵字為基礎透過不同之方法如權重次數集中度

廣度或是自行提出之公式等區分文件之類別此些文件關鍵屬性則可進一步運用於

文件相關性分析網際網路檢索以及文件管理等領域

83 文件相關性分析

文件相關性分析可將具有共同主題或相關性高之文件聚合一起形成一個族群以協

助進行後續文件分類或文件管理等工作針對文件相關性分析之課題已有許多學者提

出不同之方法進行討論常見之分析方法有關鍵字為基之相關性分析向量空間模型

(Vector Space Model)為基之相關性分析及資料探勘等方法論

考量關鍵字具有代表一份文件之關鍵要義Cooper 等人(2002)利用文件之關鍵字

計算文件間之相關性該研究首先利用一套名為「Textract」之軟體找出文件關鍵字再

分析兩兩文件間相同關鍵字出現頻率若此頻率高出一預設之門檻值則認定此兩文件

具有高度相關性

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 5: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

336

用文法剖析法分析此些斷詞尋找能夠代表文章的關鍵字許中川(2001)則是以詞庫

分析法擷取關鍵既有詞彙以統計分析法擷取關鍵新生詞彙獲得文件之關鍵詞彙孫

銘聰與侯建良(2002)提出一關鍵字擷取法則該法乃利用字節解析字詞解析字詞

比對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等步驟擷取

文件之關鍵字

822 文件分類(類別)擷取

進行檔案分類時必須考量機關業務功能檔案產生者組織體系及檔案內容主題等

三個要素機關業務功能乃指執行或操作該檔案所載相關內容或規定之相關單位檔案

產生者組織體系則是指檔案產生者本身所處之組織體系位置檔案內容主題則是指依照

檔案內容進行分類(張玉華2003)

「文件主題分類」或簡稱「文件分類」(Document Classification or Text Categorization)

是指依照文件「內容主旨」將文件給定予一個或數個「類別」(Class or Category)此些

類別都是事先定義或選定以符合管理者的需求與期望其目的乃對於文件進行分門別

類的加值處理使得文件更方便管理與利用影響文件主題分類成效之因素可分成特

徵選擇(Feature Selection)特徵詞彙刪減(Feature Reduction)前置摘要處理分類

器選擇分類架構文件標示原則類別選擇分類不一致訓練資料量成效評估方

式參數調整分類器的 大成效等 12 項因素(曾元顯2002)

以往的文件分類研究大多注重於以紙本文件為主以人工方式進行分類而隨著網

際網路時代蓬勃發展大量資訊相對增加許多學者提出「文件自動分類」的觀念亦

即透過資訊檢索資料探勘等技術所建立之分類模型將一篇新的文件進行自動文件分

類由系統決定此文件類別而此一過程完全不需人工介入顧皓光與莊裕澤(1998)

提出一套文件自動分類之模型以協助使用者處理網際網路之資訊該研究利用搜尋引

擎上具備分類特性之文件作為訓練資料建立文件之向量空間模型(Vector Space

ModelVSM)並充分利用 Web 文件提供超文件連結特性及 HTML 標籤加註之功能

以提昇系統分類能力

侯永昌與楊雪花(1998)則提出以模糊理論和遺傳演算法為基礎的文件自動分類機

制首先該研究乃將文章中虛字頻率僅出現一次之單字及二元詞刪除而取得初步之

短句再將標題中的詞彙加重其權重藉以提高分類的正確率其並利用遺傳演算法求

337

算 佳的門檻值以此門檻值篩選文章中之重要關鍵詞之後再進行選詞並以此選

詞結果經公式計算標準權重同時每篇測試文章也經過電腦自動斷詞產生文件向量

後計算各類詞庫標準權重與該文章向量的內積值由內積值大小決定該文章之類

別莊慧美(1999)則運用基因演算法則計算文件向量中關鍵字的權重以決定文件之

類別詹智凱(2000)則以詞彙關聯性為基礎進行文件自動分類亦即利用詞與詞之間

之關聯性將關聯性高之詞彙聚成一群形成代表類別的關鍵字再利用這些形成的類

別將文件自動分類楊允言(1999)則提出以雙連字串(Bigram)替代關鍵詞的方法進

行文件自動分類亦即根據次數集中度廣度等三項條件從訓練資料中篩選具分類

價值的雙連字串作為關鍵詞再以向量模式機率模式和不同的分類比重進行文件自動

分類

Ng 等人(2001)提出機率性模式將網路文件分類成有意義的文件及無意義的文件

此機率性模式是以多變量統計分析為基礎利用典型網路文件進行測試顯示此機率性

模式較適用於複合記錄之網路文件二元分類

綜合而言對於文件關鍵性擷取課題相關研究大多著重在關鍵字擷取以及文件分

類等領域對於文件提供者需求者等特質之研究則甚微文件關鍵字乃文件之重要屬

性其擷取乃透過詞庫比對法文法剖析法以及統計分析法等方法進行而文件分類(類

別)擷取之相關研究也多以關鍵字為基礎透過不同之方法如權重次數集中度

廣度或是自行提出之公式等區分文件之類別此些文件關鍵屬性則可進一步運用於

文件相關性分析網際網路檢索以及文件管理等領域

83 文件相關性分析

文件相關性分析可將具有共同主題或相關性高之文件聚合一起形成一個族群以協

助進行後續文件分類或文件管理等工作針對文件相關性分析之課題已有許多學者提

出不同之方法進行討論常見之分析方法有關鍵字為基之相關性分析向量空間模型

(Vector Space Model)為基之相關性分析及資料探勘等方法論

考量關鍵字具有代表一份文件之關鍵要義Cooper 等人(2002)利用文件之關鍵字

計算文件間之相關性該研究首先利用一套名為「Textract」之軟體找出文件關鍵字再

分析兩兩文件間相同關鍵字出現頻率若此頻率高出一預設之門檻值則認定此兩文件

具有高度相關性

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 6: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

337

算 佳的門檻值以此門檻值篩選文章中之重要關鍵詞之後再進行選詞並以此選

詞結果經公式計算標準權重同時每篇測試文章也經過電腦自動斷詞產生文件向量

後計算各類詞庫標準權重與該文章向量的內積值由內積值大小決定該文章之類

別莊慧美(1999)則運用基因演算法則計算文件向量中關鍵字的權重以決定文件之

類別詹智凱(2000)則以詞彙關聯性為基礎進行文件自動分類亦即利用詞與詞之間

之關聯性將關聯性高之詞彙聚成一群形成代表類別的關鍵字再利用這些形成的類

別將文件自動分類楊允言(1999)則提出以雙連字串(Bigram)替代關鍵詞的方法進

行文件自動分類亦即根據次數集中度廣度等三項條件從訓練資料中篩選具分類

價值的雙連字串作為關鍵詞再以向量模式機率模式和不同的分類比重進行文件自動

分類

Ng 等人(2001)提出機率性模式將網路文件分類成有意義的文件及無意義的文件

此機率性模式是以多變量統計分析為基礎利用典型網路文件進行測試顯示此機率性

模式較適用於複合記錄之網路文件二元分類

綜合而言對於文件關鍵性擷取課題相關研究大多著重在關鍵字擷取以及文件分

類等領域對於文件提供者需求者等特質之研究則甚微文件關鍵字乃文件之重要屬

性其擷取乃透過詞庫比對法文法剖析法以及統計分析法等方法進行而文件分類(類

別)擷取之相關研究也多以關鍵字為基礎透過不同之方法如權重次數集中度

廣度或是自行提出之公式等區分文件之類別此些文件關鍵屬性則可進一步運用於

文件相關性分析網際網路檢索以及文件管理等領域

83 文件相關性分析

文件相關性分析可將具有共同主題或相關性高之文件聚合一起形成一個族群以協

助進行後續文件分類或文件管理等工作針對文件相關性分析之課題已有許多學者提

出不同之方法進行討論常見之分析方法有關鍵字為基之相關性分析向量空間模型

(Vector Space Model)為基之相關性分析及資料探勘等方法論

考量關鍵字具有代表一份文件之關鍵要義Cooper 等人(2002)利用文件之關鍵字

計算文件間之相關性該研究首先利用一套名為「Textract」之軟體找出文件關鍵字再

分析兩兩文件間相同關鍵字出現頻率若此頻率高出一預設之門檻值則認定此兩文件

具有高度相關性

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 7: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

338

每份文件皆可尋找代表該文件內容之詞彙集合此詞彙集合即稱為向量空間模型

(Vector Space ModelVSM)Aggarwal 與 Yu(2001)以潛藏語意分析(Latent Semantic

IndexingLSI)技術去除文件中同義及多義詞彙將文件轉換為一連串之文件概念詞

彙鏈(Conceptual Word-Chains)而形成一向量空間模型Yoshida 等人(2001)以自行

提出之「重疊係數公式」分析兩文件向量空間模型之互相重疊程度求得一「重疊係

數」值此係數值即為兩文件之相關性係數以往均以單一字詞關鍵字所構成之向量空

間模型進行相關性分析Hammouda(2002)則提出一套名為文件指引圖(Document Index

Graph)之理論架構以片語取代傳統單一字詞進行相關性分析

Furuse 等人(2001)應用資料探勘手法中購物籃資料(Market Basket Data)之觀念

記錄文件關鍵字所組成之特徵向量空間(Characteristic Vectors Space)記號表法

(Signature Tables Method)乃是一種分析購物籃資料相似度之機制應用此法可將購物

籃資料區依記號區分為若干組別 後利用分支定界法(Branch and Bound Technique)

進行相關性分析分支定界法為求解整數規劃的方法之一依照分割(Separation)放

寬限制(Relaxation)原則可在有限個可行解中有系統地搜尋 佳解

除了以關鍵字向量空間模型及資料探勘等方法進行文件相關性分析外外Tzeras

與 Petrakis(1999)以文件之多角度屬性(Fields)(包含文件別名(Surname)抬頭

摘要等)以名為「Pooling Method」的方法進行文件相關性分析楊傑勝(2000)則

提出一套適應性聚類演算法(Clustering Algorithm)此方法可在每類別文件中尋找一具

有代表性之特徵文件再根據聚類之結果找到與此代表性文件相關之文件

84 文件分群

隨著企業規模成長與經驗累積企業知識文件也隨之不斷累積企業體內若無良好

之文件知識管理機制運作大量且缺乏整理之文件將造成使用者尋找文件的困擾而

文件管理的各項手法中文件分群(Document Clustering)是 廣泛使用的核心技術之

文件分群乃將文件依照其內容主題的相似程度歸納為不同群集而無需依照某些事

先給定的主題或類別聚集文件(林俊佑等人2002)過去關於文件分類分群之研究重

點較著重於電子化文件之自動分類(孫銘聰與侯建良2003楊允言1999曹乃龍

2000)進行知識文件之自動分群者則無過去分群相關文獻多著重於分群技術之發

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 8: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

339

展當中以資料探勘技術 常被應用於文件之分群包括自動群集偵測人工類神經網

路等另外許多學者亦提出其他分群方法論如「自組織映射圖」(Self-organizing Map

SOM)文件指引圖(Document Index Graph)等方法以下即分別說明之

841 自動群集偵測

自動群集偵測為一種對比資料以找出相近資料之技術此些相近資料即稱為「群

集」群集分析技術中 常用者為 K 平均法(K-mean Algorithm)(MacQueen1967)

此方法的第一步驟乃選擇需要之群集數目(此數目即為 K 平均演算法中的 K 值)下一

步驟乃選擇 K 個「種子」(Seeds)作為群集質心之初步臆測每一筆資料以其與距離

接近之種子進行分集形成一個初步之群集分配接著計算新群集之質心(或平均數)

再以此新質心為準重複上述步驟經過多次重複操作後直到質心不再變動為止此時

即完成分群自動群集偵測的優勢在於其為一種非監督式的知識發現技術可以在未事

先定義分類主題的情況下使用亦即使用者可以在一未知資料庫內部結構之狀況下應用

此項技術此外針對類別數值順序與區間等各種變數資料皆可使用故其應用極

為方便

Wu 等人(2002)提出以「蟲群智慧」(Swarm Intelligence)和 K 平均法為基礎之文

件分群理論mdashCSIM「蟲群智慧」源起於螞蟻殖民地組織結構之基本模型具有靈活性

自組織性和堅固性目前此方法論已經應用於許多領域透過蟲群智慧可以產生良好的

初步文件分群結果再以 K 平均法針對此初步分群結果進行再分群CSIM 繼承蟲群智

慧和 K 平均法之優點也抵消此二技術之短處良好之實驗結果即顯示此種方法具有高

度可行性

842 自組織映射圖

Yang 等人(2000)提出一套名為「自組織映射圖」(Self-Organizing MapSOM)

之文件分類「類別」自動產生的方法該方法首先以自我組織圖模型產生兩個圖形名

為詞彙群集圖與文件群集圖並以神經元分別代表詞彙與文件之群集該方法針對包含

文件較多之文件分群計算其群集質心另外亦設計方法從詞彙群集圖選擇合適類別

重複執行前述步驟即可尋得類別之層次化架構而文件分類則是在此類別自動產出過

程中之自然結果Fu 等人(2001)亦運用自組織映射圖以模糊分群之方法建立文字

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 9: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

340

型文件的概念空間自動進行文字型文件之分群由於自組織映射圖乃以二維地圖進行

文件分群Freeman 等人(2002)乃提出以一系列之一維地圖以代替二維地圖進行文

件分群此方法乃為階層式可自我成長的機制可更有效率地進行文件分群並可從

每一群集中動態產生文件主題之樹狀結構提供使用者進行文件瀏覽

843 類神經網路

類神經網路乃為應用於電腦科技上而產生之人腦簡化版本其可以從訓練資料組中

進行學習並產生歸類和預測的模型類神經網路亦可配合自組織映射圖和相關結構

運用於非監督式資料採礦和時間序列分析Her 等人(1999)提出貝氏類神經網路模型

(Bayesian Neural Network Model)其藉由熵函數(Entropy Function)變換透過所查

詢之關鍵字與網頁文件之紀錄檔計算各文件間之熵商數之後欲分群之文件以此些

熵商數作為自組織映射圖中之分群變數進行分群該系統具有高度分類之正確性及快速

學習與分群之能力並結合以即時文件分類為基之貝式機率模型達成動態文件分群

Kondadadi(2002)則提出一項文件分群演算法mdashKMART該演算法使用非監督式模糊

自適應共振理論類神經網路(Unsupervised Fuzzy Adaptive Resonance Theory Neural

Network)自動產生群集數目進行文件之多重分群

844 文件相關性

依據文件間相關性程度之資訊可將高相關性之文件聚集為一群如 Shyu 等人

(2000)提出以相關性為基礎之資料探勘技術mdash馬爾可夫模型調停人機制(Markov

Model MediatorMMM)即依照文件之相關性分配文件所屬群集Lin 與 Kondadadi

(2001)則提出以文件相關性為基礎之柔性分群法(Similarity-Based Soft Clustering

SISC)此分群法僅需要衡量群集之相似度並利用隨機化之概念達成有效率之分群

Silva 等人(2001)則以統計方法為基礎由多種語言之文件庫中找出文件分群及取得

該群集主題該方法乃自文件庫中自動取得相關詞彙(Relevant ExpressionsREs)以

作為文件分群之基本特徵透過主要元件分析轉換此些特徵並減少其數目即可獲得

一個文件分類特徵的小群集透過分群分析可找出 佳之分群群數 後由每一群集

中找出 重要之相關詞彙作為文件群集主題Peltonen 等人(2002)則提出「差別分

群法」該方法使用外部資料找尋與主題相關之文件特徵並進行文件分群Su 等人

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 10: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

341

(2001)提出以使用者網站使用紀錄檔(Log File)為基礎之文件分群方法此法之主

要特點乃藉由探勘使用者使用紀錄檔關聯資訊求得文件間之關聯性以完成文件分群

845 其他方法

除了上述方法外Khan 等人(1997)提出以競爭性學習進行網頁文件分類之方法

競爭性學習乃網頁代理人之特定元件可應用於網頁文件分類此代理人可針對讀者有

興趣之網頁文件建立各種網頁文件之分類之後找出並建議新的相似文件予讀者

Kovics 與 Baranyi(2002)提出一套以概念晶格(Concept Lattice)為基之文件分群與查

詢系統該系統第一階段乃由使用者以某些關鍵字進行查詢並由系統回饋與此些關鍵

字概念 接近之文件之後使用者獲得此一連串相近概念之文件列表後即可藉此進

行文件分群透過此反覆關聯回饋之過程 後即可得到文件分群之結果

在網際網路上以搜尋引擎搜尋所得之文件可利用「顯像」(Visualization)技術讓

使用者理解檢索結果當搜尋所得文件以文件向量表示時使用者可以使用類神經網路

技術預見文件之內容Yoshioka 等人(2001)提出一套以類神經技術為基礎之顯像方法

該方法乃首先根據文件向量之特徵建構文件之分群結構再以此分群結構進行文件

內容顯像經過驗證後本方法論具有顯像運算快速文件呈現內容完整等優點

綜合而言透過文件分群技術將類似之文件集合為一群集可節省網頁文件資料之

複製與收集時間並可降低文件(獻)檢索之回應時間及資料檢索所需之網路傳輸負荷

以解決目前網際網路資訊量過載之問題同時於全球資訊網上進行文件搜尋時將可獲

得更高之回覆率以解決網際網路文件搜尋結果分散存取時間長等問題(Pagnia

2000)文件分群之結果可再進一步應用於眾多領域如資訊過濾含雜訊文件之分類

文件分類為基礎之資訊追蹤系統等範疇

85 知識文件訊息發佈

一份新文件產生後必須決定適合閱讀此文件之使用者而更進一步者乃是依使

用者之興趣與偏好由文件知識管理系統主動決定文件接受者將文件主動傳遞予合適

之文件接受者即企業體可利用此主動完成文件發佈之機能達到主動行銷目的同時

亦可考慮文件接受者之偏好達成客製化之資訊推薦與一對一行銷目標

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 11: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

342

851 使用者閱讀趨勢資料之收集與探勘

Cooley 等人(1997)認為網頁探勘技術可分為兩大類別第一類為網頁內容探勘

(Web Content Mining)第二類為網頁使用探勘(Web Usage Mining)網頁內容探勘係

指由網頁內容資料和文件中發掘有用之資訊網頁使用探勘則是發掘網頁使用者的瀏

覽行為及喜好並分析推論其中隱含之意義透過網頁伺服器或是附於 HTML 中的控

制碼可取得每位使用者瀏覽網頁時所留下之紀錄此些紀錄可被用於分析使用者的特

定喜好或特殊興趣從瀏覽網頁紀錄所得之使用者行為特徵即可作為個人化服務之依

由於網站具有匿名瀏覽之特性導致使用者之瀏覽紀錄與分析有所困難一般而

言瀏覽紀錄之形式可大致分為三種類型即網頁伺服器瀏覽日誌檔(Log File)網頁

轉換與代理人系統三類(陳佳鴻2001卜小蝶2002)另外亦可藉由資料庫記錄

使用者之瀏覽紀錄如圖書館使用者借書登記關於上述相關研究之細節說明如下

(a) 網頁伺服器瀏覽日誌檔

網頁伺服器瀏覽日誌檔為 WWW 中網站與使用者間溝通之中介資料其為網頁伺

服器所自動產生之標準格式紀錄檔此種記錄方法之缺點在於無法定義特殊對象之使用

者而且對於動態內容之互動式網頁有分辨上之困難(蔡聰洲2001何昶毅2001)

Xiao 與 Zhang(2001)藉由網路使用者使用日誌(Log)之擷取分析網路使用者過去

之瀏覽行為以衡量各網路使用者興趣之相似度並進行網路使用者分群許銀雄與周

世俊(2002)利用資料探勘技術探勘網路紀錄檔自動尋找使用者經常連續瀏覽的路

徑及使用者在瀏覽路徑上之各網頁瀏覽時間並設計所需之連續瀏覽路徑樣式及時間樣

式演算法陳佳鴻(2002)則透過使用者瀏覽紀錄分析使用適合之資料採礦模式萃取

使用者行為偏好並進而建構行為資料庫該系統以代理人技術為中心使用 Gerard

Salton 所發展之 Vector Space Model 資訊檢索技術處理財經資訊之分類問題截取行為

資料庫內使用者偏好作為重組網頁資訊之重要參考依據

(b) 網頁轉換

網頁轉換方式乃使用者進入網頁系統前網頁伺服器會暫時將執行權交予紀錄伺服

器待紀錄工作完成後再將執行權回交給網頁伺服器執行原本預定之網頁資訊處理工

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 12: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

343

作此方法 主要的缺點為產生時間延遲與畫面停頓故較少被使用Lancieri(1999)

以聯合記憶體為基礎進行使用者相關瀏覽行為資料之記憶與處理亦即利用ldquoProxy

Cacherdquo技術記錄網路使用者瀏覽網路時之檢索行為該研究並藉由使用 Fourier 或

Wavelet Transform 等數學工具尋找網路使用者瀏覽行為之特徵

(c) 代理人系統

代理人系統乃泛指在不影響使用者的狀況下由一個電腦執行程序自動記錄使用者

瀏覽歷程並回報給伺服器之技術林信志等人(2002)提出一套「區域網路網頁瀏覽行

為之分類探勘方法」運用入口網站的新思維與新方法利用 Yahoo奇摩的搜尋引擎與

分類目錄等兩項網頁導覽工具得以從粗而細以分層分類方式分析網路使用者瀏覽

網頁時的行為模式與資訊喜好林俊佑等人(2002)則以文件分類為基礎自行設計一

資訊追蹤系統其主要內容乃以文件分類技術定義使用者喜好之模型以協助使用者追

蹤及過濾資訊之更新Shibata 等人(2000)提出一套可提供「文件內容推薦」服務

(Content-RecommendingCR Services)之代理人模型該研究以此模型作為網頁內容

提供者(Content ProviderCP)與使用者間之介面一方面整合網頁內容提供者所提供

之內容另一方面分析使用者之資訊需求偏好(Preferences)之後將網頁內容主動提

供予使用者以達成資訊推薦之目的其運作機制乃將網頁內容以關鍵字向量空間代表

之待使用者瀏覽此網頁後將此網頁關鍵字向量空間與使用者資訊回傳如此便可建

立該使用者之瀏覽偏好等相關資料此方法可解決過去使用者尋找網頁相關資訊時必

須自行定義搜尋關鍵字之問題

(d) 資料庫檢索

顏秀珍等人(2001)提出針對交易序列資料庫(Transaction Sequential Database)中

之資訊探勘定義資料探勘語言以提供使用者利用此套語言自行定義條件與需求找

尋相關規則(Association Rules)與序列型樣(Sequential Patterns)快速獲得感興趣的

資料卜小蝶(2001)則以某大學圖書館借閱紀錄為案例利用關聯(Association)及

分群(Clustering)等資料探勘方法分析圖書與讀者讀者與讀者及圖書與圖書間的

隱藏關聯與規則此些決策規則(Decision Rules)對了解並掌握讀者興趣有相當的參考

價值顏嘉惠(2002)則對圖書館自動化系統中讀者模組與流通模組等紀錄進行資料探

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 13: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

344

勘其使用之技術包括(1)利用分類分析(Classification Analysis)分析圖書館使用者

(2)利用群集分析(Clustering Analysis)分析非使用者(3)利用連結分析(Association

Analysis)與次序相關分析(Sequential Pattern Analysis)推薦書單

(e) 其他

Kobayashi 等人(1998)藉由網路環境之資訊收集系統與使用者問答互動收集使

用者興趣與喜好並形成一使用者概念空間(Personal Conceptual Space)透過此方法

系統即可依照此使用者概念空間進行更具深度之資訊利用例如推薦使用者感興趣之

網頁文件

852 文件接受者自動推論

「文件接受者決定」乃屬於文件權限管理之範疇過去文件權限管理相關研究的重

點著重於針對認證技術(Feldella 與 Prandini2000)加密技術(Wewers 與 Wargitsch

1998)應用於權限控管基於文件內容與文件權限對象高度相關部分研究學者乃提出

以文件分類結果作為權限控管之參考為解決資料庫中因目錄或種類所引起之混亂問

題Navathe 與 Yong(1998)提出以 Multiple Index 文件分類法解決繁雜文件分類之問

題並依此進行權限控管若一個公司或組織對於同一文件同時有數專案進行處理時

Carrere 等人(1998)舉一個實例說明依據文件內容進行相關性遞減排列再依文件分類

及權限控制以解決此問題此外由於安全性協定在文件結構中屬 上一層因其關係

網頁之應用Dridi 與 Neumann(1998)提出一根據文件內容進行文件分類之系統模式

以作為存取權限之參考過去關於文件分類之研究尚有許多學者提出關鍵字分類法(侯

永昌與楊雪花1998)經驗分類法(Lin 等人2002)及其他分類法(Haruechaivasak

等人2002)等可做為文件分類之參考然其皆未應用於文件權限之控管課題

許多學者另外提出以網路使用者之瀏覽閱讀偏好為依據決定文件閱讀權限之方法

論亦即事先判定文件類型再找出對此類型文件有偏好之網路使用者以判斷此些網

路使用者是否應成為該份文件之接受者舉例而言陳振東與戴偉勝(2002)應用模糊

資訊擷取與相似度衡量技術將各種資料依其內容劃分至適當分類並依據使用者個人

偏好進行相關資訊推薦林珊如(2002)以一般網路使用者特性使用者搜尋行為相關

主題(網路檢索詞彙研究網路搜尋策略研究網路搜尋歷程研究)情境研究網站

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 14: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

345

需求評估與網站使用評估等角度探討網路使用者特性及網路閱讀者需求以作為「圖

書資訊學發展數位圖書館」「推廣資訊素養與數位學習」「研究資訊行為」等領域之發

Abe 等人(2000)提出以一網路代理人模型分析此一使用者已事先建立並已存

放至資料庫之使用者屬性檔(User Profile)(其包含帳號密碼網路瀏覽偏好等資訊)

並依照分析之使用者偏好結果推薦相關之網頁資訊予使用者同時當使用者搜尋

瀏覽網路文件時該網路代理人即觀察使用者所提出之查詢關鍵字及所瀏覽網頁以更

新此使用者屬性檔Tan與Teo(1998)採用類神經網路中的自適應共振理論網路(Adaptive

Resonance Theory NetworkART)提出一套名為「ARAM」 (Adaptive Resonance

Associative Map)之資訊發佈系統該系統可分析使用者事先建立之屬性檔自動快速聚

集與使用者偏好類似之資訊進行個人化資訊發佈( Personalized Information

Dissemination)Kim 與 Lee(1999)透過網路上與使用者之互動動態更新使用者屬性

檔並透過名為「社會篩選」(Social Filtering)之技術過濾與使用者偏好不相關之訊

息以進行更精確之網頁資訊推薦

以往資訊推薦系統均朝個人化(Personalized)之目標發展而 Motta 與 Borges(2000)

乃針對團隊工作提出一套名為「TeamWorks」之資訊推薦系統該系統以團隊目標為基

礎分析團隊內每位成員之個人屬性檔並依此分析結果過濾與推薦完成此目標所需之

相關資訊予團體其同時可促進團隊內資訊之交換以協助團體在協同合作狀況下快速

完成任務另外Lin 與 McLeod(2000)將人格特質(Human Temperaments)引入資

訊分類與資訊過濾程序提出一套智慧型資訊推薦代理人系統該系統乃觀察使用者之

人格特質與興趣分佈以建立使用者屬性檔(Profiles)凱爾斯的人格特質理論(Keirseys

Temperament Theory)將人格特質分為理智判斷型(Sensing JudgingSJ)理智感知型

(Sensing PerceivingSP)直覺思考型(iNtuiting ThinkingNT)與直覺感覺型(iNtuiting

FeelingNF)等四種型態該代理人系統則依照此人格特質理論將資訊切割為此四種

類型透過使用者屬性檔之分析可將不同類型之資訊推薦給相對應類型之使用者Lu

等人(2002)建構一套網路環境下之「TRUST」多重代理人資訊推薦系統該系統依

照使用者偏好之文件內容建立代理人模型使用者衡量不同代理人模型定義不同信任

等級並連接高信任等級之代理人模型成為一群集此一群集即可代表使用者之偏好模

式 後系統即以此偏好模式推薦相關網頁資訊予使用者

綜上所述過去於文件關鍵屬性擷取文件相關性分析文件分群及文件訊息發佈

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 15: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

346

等四個主題之研究頗豐透過四項主題系統化可建立一整體之知識文件控管之機制

透過串聯此四大技術領域從文件關鍵屬性之擷取開始進行知識文件間之相關性分

析並以此相關性分析之結果進行知識文件分群然後透過使用者閱讀趨勢之收集

與分析結合文件分群結果自動推論文件接受對象達成知識文件(或訊息)發佈之

目的

86 文件相關性分析

知識文件之相關性分析模式可分為兩個角度進行之第一乃以文件關鍵字為基礎

解析其於文件內出現次數與頻率進而計算文件間之相關性第二則是以文件之多類屬

性(文件關鍵字文件類別文件提供者)為基礎之相關性分析(楊綠淵2004)兩

模式之細節說明如下

861 以關鍵字為基之文件相關性分析

「以關鍵字為基之文件相關性分析」乃針對單一文件利用其內容中詞彙之出現頻

率分析文件之關鍵字之後再以此些關鍵字集合與其他文件以相同方式找出之關

鍵字集合相互比較即可計算兩份文件間之相關性此類分析可再區分為兩種模式第

一乃僅考慮關鍵字種類數第二則考量關鍵字於文件中出現之頻率此模式之輸入與輸

出如圖 82 所示於詳細說明此模式前將模式中所用之符號定義如下

iD 文件庫中第 i 份文件

ijK 第 i 份文件的第 j 個關鍵字

bulliK 第 i 份文件所有關鍵字的集合

( )iN K bull 第 i 份文件所有關鍵字之種類個數

( )i jN K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字之種類別個數

( )ijS K 第 i 份文件的第 j 個關鍵字出現之次數

( )iS K bull 第 i 份文件所有關鍵字出現之次數

( )i jS K Kbull bullcap 第 i 份文件與第 j 份文件相同關鍵字出現次數

ijR 第 i 份文件與第 j 份文件間之相關性係數

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 16: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

347

關鍵字擷取

關鍵字個數頻率統計

關鍵字相關性解析

輸入--文件庫 推論--相關性分析 輸出--文件相關性列表

文件 文件 相關性

D1D1D1

---Di---

D2 049D3 081D3 011

--- ---Dj Rij--- ---

圖 82文件相關性分析之輸入輸出

關於以關鍵字為基之文件相關性分析可分為四大步驟進行之

步驟(A1)文件前處理mdash關鍵字擷取

本階段乃去除文件內容中無意義之文字(查詢非關鍵字表)如「我們」「或許」

等無重要意義之詞彙之後再由剩餘詞彙於文件中之出現頻率高低判斷其是否為關鍵

字此步驟可利用過去關鍵字擷取法則進行該法乃利用字節解析字詞解析字詞比

對字詞頻率維護候選詞庫之關鍵字擷取與待確認詞庫之關鍵字擷取等六大步驟擷

取文件庫中各文件( iD )之關鍵字( bulliK )

步驟(A2)關鍵字個數頻率統計

擷取各文件之關鍵字後即可進行文件中關鍵字種類數出現頻率之統計其結果

可整理如表 81

表 81文件關鍵字擷取列表

文件 1D 2D hellip iD hellip

關鍵字 種類 次數 種類 次數 種類 次數 種類 次數 種類 次數

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 17: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

348

11K

12K

M

jK1

M

11( )S K

12( )S K

1( )jS K

21K

22K

M

jK2

M

21( )S K

22( )S K

2( )jS K

hellip hellip

1iK

2iK

M

ijK

M

1( )iS K

2( )iS K

( )ijS K

hellip hellip

個數

次數 1( )N K bull 1( )S K bull 2( )N K bull 2( )S K bull hellip hellip ( )iN K bull ( )iS K bull hellip hellip

步驟(A3)關鍵字相關性解析

取得表 81 之資料內容後即可針對表中任兩份文件解析其相關性解析方式可分

以下兩原則進行

Index Amdash僅考慮關鍵字種類數即找出兩文件間相同之關鍵字個數 i jN K Kbull bullcap 則

相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率找出兩文件間相同之關鍵字出現總頻率

bullbull cap ji KKS 則相關性可以下式推導

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

步驟(A4)相關性建表

依據步驟三所述之方法針對所有文件進行兩兩文件間之相關性分析可求得不同

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 18: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

349

文件 iD 與 jD 之相關性 ijR (當中 ij jiR R= )並建立相關性對照表(參見表 82)此表可

應用於產業文件知識管理系統以作為文件分類文件權限開放之依據或可進行文件

庫資料之模糊搜尋

表 82文件相關性對照表

文件集 1D 2D 3D 4D hellip iD hellip

1D R21 R31 R41 hellip Ri1 hellip

2D R12 R32 R42 hellip Ri2 hellip

3D R13 R23 R43 hellip Ri3 hellip

4D R14 R24 R33 hellip Ri4 hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

jD R1j R2j R3j R4j hellip Rij hellip

hellip hellip hellip hellip hellip hellip

hellip

hellip

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 19: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

350

文件匯入與關鍵字擷取

文件庫

相關應用

文件分類

資訊搜尋

計算各關鍵字Kij出現次數S(Kij)

計算第 ij份文件之相同關鍵字個數

計算第 ij份文件之相同關鍵字出現次數

( )i jN K Kbull bullcap ( )i jS K Kbull bullcap

關鍵字次數

計算相關係數

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N K K N K KN N

R N K N KN N

bull bull bull bull

bull bull

cap cap+

= +times

+

計算相關係數( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

S K K S K KN N

R S K S KN N

bull bull bull bull

bull bull

cap cap+

=+

times+

關鍵字種類數

權限開放

取得各文件之關鍵字Kij

建構文件相關性列表

文件 1 文件 2 相關性

D1

D1

D2

D3

Di Dj

Rij

R12

R13

(1)

(2)

(3)

Index B

文件 1 文件 2 相關性

D1

D1

D2

D3

Di D j

Rij

R12

R13

Index A

圖 83以關鍵字為基礎之相關性分析模組

此外上述模式亦可以矩陣運算模式進行之於說明以關鍵字為基礎之相關性分析

矩陣運算前將相關之變數定義如下

iD 文件庫中第 i 份文件

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 20: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

351

K 文件庫中所有文件關鍵字所組成之關鍵字集合

jK 關鍵字集合的第 j 個關鍵字

M 整理文件關鍵字擷取列表後文件庫中所有文件與關鍵字集合之隸屬矩陣

其中 x 軸為文件庫內之各文件y 軸為關鍵字集合

M prime 整理文件關鍵字擷取列表後文件庫中所有文件關鍵字出現頻率與關鍵字集

合之隸屬矩陣

iM 文件庫中第 i 份文件之關鍵字所對應之關鍵字集合隸屬矩陣

iM prime 文件庫中第 i 份文件中關鍵字出現頻率對應關鍵字集合之隸屬矩陣

ijR 第 i 份文件與第 j 份文件間之相關性係數

primeR 文件庫內兩兩文件間之相關性對照矩陣

iN 第 i 份文件去除無意義字後之剩餘總詞彙數

Index Amdash僅考慮關鍵字種類之個數

為了快速且有效率地進行文件相關性分析故以矩陣方式進行運算首先以文件庫

各文件為 x 軸關鍵字集合為 y 軸將文件關鍵字擷取列表轉換為矩陣形式得到一文

件關鍵字隸屬係數矩陣以符號M 表示如下

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

上述矩陣M 之列代表為所有文件矩陣M 之行代表各文件之關鍵字集合故元素

nmB 代表第 n 份文件與第 m 個關鍵字之隸屬係數值其中若 1 =nmB 則代表第 m 個關

鍵字被認定為第 n 份文件之關鍵字若 0 =nmB 則代表第 n 份文件內無第 m 個關鍵字

將文件關鍵字擷取列表轉換成矩陣形式後可得到各文件之關鍵字集合矩陣

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 21: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

352

⎥⎥⎥⎥

⎢⎢⎢⎢

=

im

i

i

i

B

BB

M

2

1

M

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

++

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

+

⎥⎥⎥⎥

⎢⎢⎢⎢

=+

jim

ji

ji

jm

j

j

im

i

i

ji

BB

BBBB

B

BB

B

BB

MM

1

12

11

2

1

2

1

MMM

此 外 令 1 1 1i jV B B= + 2 2 2i jV B B= + hellip m m i m jV B B= + 再 令

⎩⎨⎧

=prime=prime=prime

elseVVifV

i

i

021 1 則

⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

因此文件庫中任兩份文件之關鍵字個數為 1 2( )i j MN M M V V Vcap = + + +L 而文件

庫中任一文件之關鍵字個數為 1 2( )i i i miN M B B B= + + +L 故文件間之相關性可以下式表

( ) ( )

( ) ( )2

i j i j

i jij

i j

i j

N M M N M MN N

R N M N MN N

cap cap+

=+

times+

Index Bmdash考量關鍵字在文件中之出現頻率

首先以文件庫之各文件為列關鍵字集合為行考量關鍵字於文件之出現頻率將

文件關鍵字擷取列表轉換為矩陣形式得到一文件關鍵字隸屬係數及出現頻率矩陣以

符號M prime表示如下

11 12 1 1

21 22 2 2

1 2

( ) ( ) ( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i n

i n

m m m i m n

N K N K N K N KN K N K N K N K

M

N K N K N K N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 22: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

353

上述矩陣M prime之列乃代表文件別矩陣M prime之行則代表各文件之關鍵字出現頻率集

合元素 ( )m nN K 代表第 n 份文件之第 m 個關鍵字出現頻率將文件關鍵字擷取列表轉

換為矩陣形式後可得到各文件之關鍵字出現頻率矩陣

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

由 前 述 步 驟 可 知⎥⎥⎥⎥

⎢⎢⎢⎢

=cap

n

ji

V

VV

MMM2

1

假 設

( ) ( ) 1( ) 0j i j i i

j i

N K N K if VN K elseprime = =⎧

⎨ prime =⎩ 則

1

2

( )( )

( )

i

ii

m i

N KN K

M

N K

prime⎡ ⎤⎢ ⎥prime⎢ ⎥prime =⎢ ⎥⎢ ⎥prime⎢ ⎥⎣ ⎦

M關鍵字集合 i jM Mcap 在第 i 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )i i m i iN K N K N K N Kbullprime prime prime prime+ + + =L

另一方面關鍵字集合 i jM Mcap 在第 j 份文件內出現之頻率總合為

1 2 ( ) ( ) ( ) ( )j j m j jN K N K N K N Kbullprime prime prime prime+ + + =L

故文件間之相關性可以下式表示

( )( )

( ) ( )2

ji

i jij

i j

i j

N KN KN N

R N K N KN N

bullbull

bull bull

primeprime+

= prime prime+times

+

依據前述步驟所述之作法可對文件庫內所有文件進行任兩文件間相關性分析可

求得相關性係數 ijR (當中 jiij RR = )並建立文件間相關性對照矩陣如下式所示

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 23: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

354

11 12 1 1

21 22 2 2

1 2

i n

i n

m m m i m n

R R R RR R R R

R

R R R R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

862 以文件多屬性為基之文件相關性分析

根據前述關鍵字為基之「文件相關性分析」方法論提出以文件之多重屬性(例如

文件提供者檔案類型等)進行目標文件與既有文件之關聯性分析亦即針對文件庫內

每一文件及目標文件之各種屬性予以量化再以各種屬性為基礎逐一求得目標文件與

文件庫內各文件之距離矩陣將此些屬性之距離矩陣依照歐幾里得(Euclidian Distance)

距離公式及 Feature Weighting 之理念(各屬性給予不同權重)進行整併評分求得目

標文件與文件庫內各文件間之距離得到一目標文件與既有文件之距離陣列此距離陣

列之值即為目標文件與文件庫內各文件間之關聯性其概念如圖 84 所示

於說明本推論模式前將模式中所採用之符號定義如下

DU 目標文件

iD 文件庫內第 i 份文件i = 1 ~ s

jA 文件之第 j 個屬性j = 1 ~ m

n 文件屬性總數

ji AD 第 i 份文件之第 j 個屬性值

jAR 所有文件第 j 個屬性別之 大值與 小值之差

ikj DA 第 i 份文件與第 k 份文件在第 j 個屬性別之距離係數值

ikDprime 第 i 份文件與第 k 份文件整併後求得之綜合距離係數

kji CAD 第 i 份文件之第 j 個屬性之第 k 個內涵值

1[ ]Attri 文件分類類型屬性所包含之內涵項目

2[ ]Attri 文件提供者所屬部門屬性所包含之內涵項目

3[ ]Attri 文件製作者所屬部門屬性所包含之內涵項目

4[ ]Attri 文件關鍵字屬性所包含之內涵項目

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 24: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

355

一對一廣告行銷

Attri 1

KWj2

KWj3

Dj

KWi1

KW i2

KWi3

Di

KW 21

KW22

KW23

D2KW31

KW32

KW33

D3

KW11

KW12

KW 13

D1

Attri 1

Attri j2

Attri j3

Dj

Attri 1

Attri 2

Attri 3

Di

推論mdash相關性分析

Attri 1

Attri 2

Attri 3

D2

Attri 1

Attri 2

Attri 3

D3

Attri 1

Attri 2

Attri 3

D1

輸入mdash目標文件與文件庫

文件

屬性正規化

文件各屬

性距離矩陣

推算

文件

間距離推算

輸出mdash相關性列表

目標文件 文件庫各文件

相關性

D1

D2

073

032

DU

Dj

應用mdash管理與行銷

文件權限自動決策

URj

圖 84多屬性關聯性分析流程示意圖

以文件之多重屬性(例如文件提供者文件類型等)為基礎之目標文件與既有文件

關聯性分析共有以下四大步驟

步驟(B1)文件定性屬性量化

針對文件之不同屬性(包括文件分類類型文件提供者文件關鍵字類型等)可分

別以下述方式予以量化

屬性一mdash文件分類類型將 1[ ]Attri 內每個內涵項目參照附錄一依照內涵項目查表

予以量化

屬性二mdash文件提供製作者所屬部門將 2[ ]Attri 3[ ]Attri 內每個內涵項目參照附錄

二依照內涵項目查表予以量化

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 25: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

356

屬性三mdash文件關鍵字類型將 4[ ]Attri 內每個內涵項目參照附錄三依照內涵項目查

表予以量化

步驟(B2)文件屬性數值整理

找出既有文件間各屬性之 大差值 jkjij ADADAR minmax minus= (j=1 to m)以作為

距離係數正規化之基礎

步驟(B3)距離矩陣計算

依照上述各屬性別可計算兩兩文件間之距離係數例如第 j 屬性別中第 i 份與第

k 份文件之距離係數j

jkjiikj AR

ADADDA

minus= 任兩文件間之距離係數全部計算完成後進

一步整理可得到如表 83 之屬性 j 之距離矩陣 後再針對每一屬性建立對應之距離矩

表 83屬性 j 之距離矩陣

屬性 j 目標文件 文件一 文件二 hellip 文件 k hellip

目標文件 uuj DA 1uj DA 2uj DA hellip ukj DA hellip

文件一 uj DA 1 11DAj 12DAj hellip kj DA 1 hellip

文件二 uj DA 2 21DAj 22DAj hellip kj DA 2 hellip

hellip hellip hellip hellip

hellip

hellip hellip

文件 i iuj DA 1ij DA 2ij DA hellip ikj DA hellip

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 26: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

357

hellip hellip hellip hellip

hellip

hellip hellip

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 27: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

358

步驟(B4)文件間距離推算

此步驟即整併步驟(B2)所有屬性之距離係數此整合距離係數值可透過以下兩種方

法推得

歐幾里得距離公式將第 i 份文件與目標文件在不同屬性下比較之值一一處理整併

為一綜合距離係數

2 2 2 2

1 2( ) ( ) ( ) ( )iu iu iu i iu s iuD A D A D A D A Dprime = + + + + +L L

權重法各屬性給予一權重植(該值即代表對應屬性對於推論結果之影響性)以線

性組合方式將第 i 份文件與目標文件在不同屬性之距離值予以整合

1 1 2 2( ) ( ) ( ) ( )iu iu iu i i iu s s iuD A D A D A D A Dλ λ λ λprime = + + + + +L L

其中 121 =+++++ si λλλλ LL 0i for iλ ge forall

整理目標文件與各文件之綜合距離係數可得一 終陣列如表 84 所示此些綜

合距離係數可作為目標文件與各文件間之相關性判定因此在此亦稱為相關係數此

模式之整體運作流程如圖 85 所示

表 84目標文件與各文件間之綜合距離係數

文件一 文件二 hellip 文件 i hellip 文件 s

目標文件 uD1prime uD2prime hellip iuDprime hellip suDprime

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 28: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

359

定性屬性

量化(查表)

For( j = 1 ~ 屬性類別個數)1 求出文件間該屬性之最大差值

jkjij ADADAR minmax minus=

2計算兩兩文件間之距離

j

jkjiikj AR

ADADDA

minus=

3建立文件間之距離矩陣

if j gt屬性類別個數

j++

Yes

NO

歐幾里得距離公式權重法

其中

文件間距離推算

2 2 21 2( ) ( ) ( )iu iu iu s iuD AD AD ADprime = + + +L1 1 2 2( ) ( ) ( )iu iu iu s s iuD AD A D A Dλ λ λprime = + + +L

121 =+++ sλλλ L

整理目標文件與各文件間之綜合距離係數

圖 85系統運作流程圖

藉由此多屬性之關聯性分析模組可利用既有文件之多項屬性(如文件之關鍵字

提供者制式格式等)進行目標文件與文件庫既有文件之關聯性分析進而求得目標

文件與文件庫內各文件間之關聯性使文件間之關聯性更具代表性此相關性分析資訊

可再進一步利用於文件分類文件權限開放資訊搜尋等相關領域之研究探討

87 文件分群

此方法論乃討論如何應用文件間之相關性進行文件庫內各文件之分群

(Clustering)亦即觀察文件間相關性分佈狀況將相關係數相近之文件歸為同一群組

一般分群方法乃先由使用者指定文件欲分群之群數然後由分群法則自動產生對應相同

數目之種子值(Seed Value)作為群集質心的初步臆測之後乃將文件庫內各文件基

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 29: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

360

於其相關性與其 接近之種子值給予一個初步的群集分配接著計算新群集的質心

並以此新質心為準重複上述步驟直到群集包含文件不再變動為止如此便可求得一

系列之文件群組此方法論之運作架構如圖 86 所示說明本推論模式前將模式中

所用符號定義如下

K 分群群數

A 分群維度

aSD 第 a 份種子文件其中 a = 1 ~ A

aiR 種子文件 a 與文件庫第 i 份文件之相關性其中 a = 1 ~ A i = 1 ~ n

[]aR 種子文件與文件庫內各文件間之相關性所形成之一維陣列其中 a = 1 ~ A

kaS 種子值k = 1~Ka = 1 ~ A

i kD bull 第 i 份文件之相關係數與第 k 個種子值間之距離

iDG 第 i 份文件所屬之文件群組

kG 文件分群群組k =1 ~ K

kaS prime 新群集之質心(新種子值)k = 1~Ka = 1 ~ A

輸入 文件相關性列表

取得種子值

文件分群

推論 文件分群 輸出 文件群組列表

文件群組1 文件

群組2文件群組3 文件

群組K

SD2SD1 SDa

058D2

Dn

045032

087

D1079

013 024

065 095

種子文件

文件庫文件

圖 86文件分群之輸入輸出

此模式之運作步驟有五大步驟分述如下

步驟(C1)文件相關性計算

首先由系統管理者設定進行文件分群時所使用維度數目(在此以 A 代表之)之後

即隨機選定文件庫中之 A 份文件作為種子文件以此些種子文件為基礎透過「以文件

多屬性推論相關性」之手法進行相關性分析並取得文件相關性分析列表此部分之

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 30: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

361

觀念及手法於前述「以多屬性進行文件關聯性分析」已介紹在此僅引用其產出結果mdash

「文件相關性分析列表」

表 86文件相關性分析列表

種子文件

文件庫文件 SD1 SD2 hellip SDA

D1 R11 R12 hellip R1A D2 R21 R22 hellip R2A hellip hellip hellip hellip hellip Dn Rn1 Rn2 hellip RnA

整理表 85 之資料即可得到 A 個一維陣列 []aR 其元素為種子文件與其他文件之

相關性 iaR i=1~na = 1 ~ A

步驟(C2)取得種子值

由系統管理者隨機依需求決定進行文件分群時所要得到之群組數在此以 k 代表

之以亂數隨機產生 ka 個介於 0~1 間之數值 (01)kaS random= k = 1~ Ka = 1 ~ A

此即為下列步驟欲進行之分群動作之「種子值」後續步驟即以此為分群核心進行其

他文件分群之基礎

步驟(C3)進行文件分群

計算文件之相關係數與各種子值之距離 2

1( )

A

i k ia kaa

D R Sbull=

= minussum i = 1~na = 1 ~ A

k = 1~ K與文件 iD 距離 接近之種子值 kS bull即認定為文件 iD 之所屬分群文件所屬

之群組判斷值可以下式推論

若 min( )i i jD Dbull = 則 iDG k= for i = 1~n

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 31: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

362

當中 iDG k= 代表第 i 份文件屬於群組 k亦即將靠近同一種子值之文件分類為同一

文件分群

步驟(C4)求出新質心

將各群組中每一文件所對應之相關係數加總並將此加總值除以群組內文件份數

即可得到群組的新質心其計算方式如下所示

( )

1|

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

步驟(C5)反覆分群

以新質心 S prime為基礎( S S prime= )重複上述步驟(C3)(C4)直至各分群內含文件不

再變動為止 後可得到一系列之文件群組 jG (j=1~k)及其所屬文件

本方法論之重覆計算求解過程中質心變化可以圖 87(a)圖 87(b)表示之(該圖以

K=3A=2 為例)而本方法論之推導流程可以圖 88 表示之

種子三

種子一

種子二

目標文件

初始種子決定初始的群集分配

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 32: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

363

圖 87(a)群集質心改變示意圖 1

種子三

種子一

種子二

目標文件

計算新群集的質心

新質心一

新質心二

新質心三

圖 87(b)群集質心改變示意圖 2

藉由此文件分群模組可將文件相關性分析之結果應用於文件分群領域提供系統

管理者另一種文件分類與管理之機制或提出分類之結果供文件知識管理系統之參考

以增加文件知識系統之管理彈性

88 文件訊息發佈

此模式乃以前述之文件關聯性分析模式為基礎進行文件權限決定或知識分享之自

動推論其採用作法有二其一為「文件權限對象推論mdash以文件層面」另一則是「文

件接受對象推論mdash依使用者角度」其細節說明如下

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 33: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

364

計算各文件相關性與Sj間之距離

其中i =1~n a =1~A k = 1~ K

文件所屬群組if for i = 1~n

計算文件各分群質心

判斷是否為第一次進行文件分群Yes

得到一系列之文件群組Gj(j=1~k)及其所屬文件

文件相關性列表

系統管理者設定分群群數K取亂數k = 1~ Ka = 1 ~ A

iDG k=

No

本次分群結果是否與上次相同No

文件分群維度A設定

(01)kaS random=

2

1

( )A

i k ia kaa

D R Sbull=

= minussum

min( )i k i kD Dbull =

1( | )

( )

n

i a ii

kak

R DG kS

N G=

=prime =

Σ

圖 88文件分群流程圖

881 文件接受對象推論mdash依使用者角度

此課題乃進行文件權限管理之自動推論「文件接受對象推論mdash依使用者角度」模

式乃納入所有文件需求者之文件閱讀趨勢探討是否將新上傳權限群組未知之目標文

件開放權限給此些文件需求者此方法之精神在於根據文件需求者之瀏覽趨勢可得

知該文件需求者過去閱讀之權限範圍或閱讀偏好如此即可根據新目標文件與其過去閱

讀文章間之關聯性推斷其可以或有意願閱讀此目標文件之機率進而作為目標文件權

限開放或發佈對象之依據此種精神將可應用於智慧型文件權限開放或網路一對一行

銷將文件資料提供予可行之需求對象

此方法乃利用關鍵字搜尋之結果找出未設定權限之目標文件與文件需求者過去曾

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 34: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

365

經閱讀文件之共同關鍵字後計算其相關係數取得一機率值此機率值代表該文件需

求者被認定為目標文件權限對象之機率 後以使用者自行指定之門檻值或是導入

機率之手法以均勻分配(Uniform Distribution)產生一系列介於 0~1 間之亂數(門檻

值)作為判斷開放權限給該位文件需求者之依據此模式之輸入輸出示意可參見圖

89於說明本推論模式前將模式中所採用之符號定義如下

DU 新上傳權限群組未知之目標文件

iM 第 i 位文件需求者

( )N M 文件需求者個數

ji DM 第 i 位文件需求者已閱讀之第 j 份文件

( )iN M D 第 i 位文件需求者已閱讀之文件份數

jui RM 第 i 位文件需求者已閱讀之第 j 份文件與DU 文件間之相關性係數

( )iB M DU 第 i 位文件需求者擁有DU 文件之權限與否( ( ) 1iB M DU = 代表具有

權限 ( ) 0iB M DU = 代表不具有權限)

DPi 第 i 位文件需求者被認定為目標文件權限對象之機率

δ 門檻值用以作為文件權限開放之參考標準

( )K DU 文件權限開放對象所成之集合

jR 第 j 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

目標文件

M1D2

M1D1

各需求者歷史閱讀文件

R11

相關性

MmDk

M M

輸入mdash文件相關性列表

相關係數值整併

文件權限開放對象篩選

推論mdash文件接受對象推論

需求者第1位 1

接受與否

第2位 1

第m位

輸出mdash文件接受對象列表

0

運用mdash文件權限對象列表

文件權限自動決策

MM

DUR12

Rmk

Pi門檻值 T隨機函數Bi~U(01)

一對一廣告行銷

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 35: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

366

圖 89文件接受對象推論mdash依使用者角度--輸入輸出之示意圖

此模組之推導步驟有以下四大步驟

步驟(D1)關聯性分析

以權限未知之目標文件DU 與文件需求者已閱讀文件進行關鍵字擷取並進行相關

性分析取得文件相關性分析列表此部分之觀念及手法已於前述「關聯性分析之架構」

中介紹在此僅引用其產出結果mdash文件相關性分析列表

表 86文件相關性分析列表

權限未知文件 文件需求者已閱讀文件 相關性

M1D1 M1R1u

M1D2 M1R2u

M M

MiDj MiRju

M M

DU

MmDn MmRnu

步驟(D2)分享者權限開放機率計算

由步驟(D1)所得之列表計算第 i 位文件需求者被開放擁有文件DU 權限之機率

可採用以下多種方法計算(而計算方法之選擇可依使用者之需求或營運特質而選定)

(a)平均值法

此方法乃將所有文件之相關係數全部納入考慮即認定所有使用者瀏覽之文件皆具

有權限推論之代表性故以整體之平均值作為判斷之標準其計算方式如下

1

( )

n

i juj

ii

M RPD

N M D=sum

=

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 36: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

367

(b) 大值法

取第 i 位文件需求者所有曾閱讀之文件與權限未知文件DU 相關性之 大值作為

判斷之標準其計算方式如下

( )i i juPD MAX M R=

(c)中位數眾數法

考量文件需求者可能 常閱讀某一種類型之文件此時相關性之中位數眾數便可以

用來作為判斷之標準其計算方式如下首先將 ui RM 1 ui RM 2 hellip nui RM 由小到大依

序排列則以中位數而言

當 ( )DMN i 是奇數時 DPi =中間位置之數值=第( ( )iN M D +12)個機率值

當 ( )iN M D 是偶數時 DPi =兩個中間位置之數值的平均數=12[第( ( )iN M D 2)個

對應之機率值+第( ( )iN M D 2+1)個對應之機率值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間亦即將未落在信賴區間內之相關係數剔

除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

1( | 3 )

( | 3 )

n

i ju i juj

ii ju i ju

M R M R X SPD

N M R M R X S=sum isin plusmn

=isin plusmn

其中算數平均數 1

( )

n

i juj

i

M RX

N M D=sum

= 標準差2

1( )

1

n

i juj

M R XS

n=sum minus

=minus

(e)比例法

此方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 37: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

368

例作為判斷之標準其計算方式如下

sum

sum

=

== n

jj

n

jjui

i

R

RMDP

1

1

其中 jR 為第 j 份文件與DU 文件間之相關性係數

步驟(D3)判斷是否開放文件權限給文件需求者

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

1

( )0

ii

if PDB M DU

elseδge⎧

= ⎨⎩

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

以 (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DUMB jji 0

)(1)(

δ

當 1)( =DUMB i 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 1)(|)( == DUMBKGDUK ij

步驟(D4)開放權限

由步驟(D3)可求得 ( )iB M DU 之值若 ( )iB M DU 則開放文件DU 權限給文件需求

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 38: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

369

者否則若 ( )iB M DU 則文件 DU 權限不變故 DU 文件之權限開放集合為

( ) | ( ) 1i iK DU M B M DU= =

本模式之整體推論流程如圖 39 所示

文件相關性列表

ifNo

Yes

文件接受對象列表

門檻值δ由系統管理者指定或是由系統亂數產生

(代表文件需求者不擁有分享文件 之權限)

( ) 0iB M DU =

DU

故 文件之權限開放集合為DU( ) | ( ) 1i iK DU M B M DU= =

δgeDPi

(代表文件需求者擁有分享文件 之權限)

( ) 1iB M DU =

DU

計算使用者被開放分享文件權限之機率﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

圖 810文件接受對象推論模式流程

882 文件權限對象推論mdash以文件層面

此方法論所研究之課題乃探討如何以文件內容將文件間之關聯性分析結果應用

於文件權限自動推論此亦即找出未設定權限之目標文件與已知權限文件間之相關係

數再利用相關係數與各文件之權限群組之關係計算一機率值此機率值乃代表每個

文件分享者被選取成為未知文件之接受對象之機率 後以門檻值(使用者自行指定

或系統亂數產生)作為判斷與篩選開放權限對象之依據建立權限未知文件的權限開放

對象此方法之研究概念如圖 811 所示於說明本推論模式前將模式中所採用的符號

定義如下

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 39: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

370

DU 權限群組未知之文件

( )N D 文件庫中文件總數

iD 文件庫中第 i 份文件

m 系統內文件分享者之個數

iuR 第 i 份文件與DU 文件間之相關性係數

KG 系統內文件分享者之集合

( )iK D 第 i 份文件之權限群組集合

( )K DU DU 文件之權限群組集合

( )jiB D 第 j 位文件分享者擁有第 i 份文件之權限與否之指標函數(若 ( ) 1jiB D = 代

表具有權限反之若 ( ) 0jiB D = 代表不具權限)

( )jP D bull 代表第 j 位文件分享者被選中成為未知文件權限對象之機率

S 在以亂數隨機進行權限對象篩選時所隨機產生之亂數個數

δ 門檻值用以作為文件權限開放之參考標準

權限未知文件

D2D1

權限已知文件

032095

相關性

Dk 067

12

0

11

0

12

M

M

M

------------

1

0m

MM

輸入 文件相關性列表

輸入 文件分享者權限列表

分享者開放權限機率計算

文件權限開放對象篩選

推論 文件權限推論分享者第1份 1

文件權限

第2位 1

第m位

輸出 文件權限開放群組列表

0

運用 文件權限開放群組列表

文件權限開放之決策依據

MM

k 0 0 --- 1

文件分享者文件

M

DU

圖 811「文件權限對象推論mdash以文件層面」模式之輸入輸出

此模組之推論步驟有以下五大步驟其細節說明如下

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 40: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

371

步驟(E1)相關性分析

以權限未知之文件DU 與權限已知文件進行關鍵字擷取並進行相關性分析以取得

文件相關性分析列表此部分之觀念及作法已於前述「相關性分析模組」介紹在此僅

引用其產出結果mdash文件相關性分析列表(表 88)

表 88文件相關性分析列表

權限未知文件 權限已知文件 相關性

D1 R1u

D2 R2u

M M

Di Riu

M M

DU

Dk Rku

步驟(E2)各文件之分享者列表

已知文件庫內各文件之權限開放群組集合將之整理如表 89當中 ( )jiB D 之指

定方式如下

( )0

( )( )1

j iji

j i

if KG K DB D

if KG K Dnotin⎧

= ⎨ isin⎩

若 ( ) 1jiB D = 即代表第 j 位文件分享者擁有第 i 份文件的存取權限

步驟(E3)分享者權限開放機率計算

由步驟(E2)之列表可計算使用者 jKG 被開放目標文件權限之機率機率之計算可

採用以下多種方法(而計算方法之選擇可依使用者之需求或營運特質而選定)

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 41: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

372

表 89各文件之權限開放群組集合

文件分享者

文件

1KG 2KG hellip jKG hellip mKG

與目標文件

之相關係數

D1 11( )B D 21( )B D hellip 1( )jB D hellip 1( )mB D uR1

D2 12( )B D 22( )B D hellip 2( )jB D hellip 2( )mB D uR2

hellip hellip hellip hellip hellip hellip hellip hellip

Di 1( )iB D 2( )iB D hellip ( )jiB D hellip ( )miB D iuR

hellip hellip hellip hellip hellip hellip hellip hellip

Dk 1( )kB D 2( )kB D hellip ( )jKB D hellip ( )mKB D kuR

(a)平均值法

此方法乃將文件需求者所具有權限之文件與權限未知文件 DU 相關性之相關係數

全部納入考慮即認定所有權限文件皆具有權限推論之代表性故以整體之平均值作為

判斷之標準其計算方式如下

sum

sum

=bull

=bull

bull

times= k

ii

k

iiui

i

DB

RDBDP

1

1

)(

)()(

(b) 大值法

取第 i 位文件需求者所有具有權限之文件與權限未知文件DU 相關性之 大值作

為判斷之標準其計算方式如下

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 42: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

373

))(()( iuii RDBMAXDP times= bullbull

(c)中位數眾數法

考量文件需求者所具有權限之文件可能某一種類型之文件較多之狀況此時中位

數 眾數便可以用來作為判斷之標準其計算方式如下首先將 uRDB 11 )( timesbull

uRDB 22 )( timesbull hellip iui RDB timesbull )( 由小到大依序排列則以中位數而言

當 ))(( iui RDBN timesbull 是奇數時 DPi =中間位置的中位數=第( ))((( iui RDBN timesbull +12)

個機率值

當 iui RDBN timesbull )(( 是偶數時 DPi =兩個中間位置的數的平均數 =12[第

( ))((( iui RDBN timesbull 2)個對應之機率值+第( ))((( iui RDBN timesbull 2+1)個對應之機率

值]

若以眾數而言則選取機率次數發生 多者

(d)區間估計法

在平均值法中考量所得之機率值可能受到某些相關係數特低或特高之文件

(outlier)影響因此計算機率值之信賴區間之後將未落在信賴區間內之相關係數

剔除後再計算整理後之整體平均值作為判斷之標準其計算方式如下

))3())(((|))((((

))3())(((|))((((1

SXRDBNRDBNN

SXRDBNRDBNDP

iuiiui

k

iiuiiui

i plusmnisintimestimes

plusmnisintimestimes=

bullbull

=bullbullsum

其中算數平均數sum

sum

=bull

=bull times

= k

ii

k

iiui

DB

RDBX

1

1

)(

)(標準差

1

)))(((1

2

minus

minustimes=sum=

bull

k

XRDBNS

k

iiui

(e)比例法

本方法與平均值法之觀念相同即認定所有權限文件皆具有權限推論之代表性差

異點在於本法乃計算全部權限相關性之總合佔未知文件與所有文件間相關性總合之比

例作為判斷之標準其計算方式如下

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 43: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

374

1

1

( )( )

k

i iui

j k

iui

B D RP D

R

bull=

bull

=

sum lowast=

sum

若以矩陣計算式表達如下

[ ]

[ ]

11 21 1

12 22 21 2

1 21 2

1

( ) ( ) ( )( ) ( ) ( )

( ) ( ) ( )( ) ( ) ( )

m

mu u ku

k k mkmk

i

B D B D B DB D B D B D

R R R

B D B D B DP D P D P D

Rbull bull bull

=

⎡ ⎤⎢ ⎥⎢ ⎥times⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦ =

sum

L

LL

M M O M

LL

其結果可整理如表 810

表 810文件分享者被開放權限之機率

文件分享者 1KG 2KG hellip jKG hellip mKG

機率 1( )P D bull 2( )P D bull hellip ( )jP D bull hellip ( )mP D bull

步驟(E4)文件權限開放對象篩選

透過文件需求者被開放擁有文件DU 權限之機率與門檻值δ間之比較可決定文件

之權限對象該門檻值δ則可由使用者依需求自行指定或是由系統亂數產生

(a)使用者自行指定門檻值

⎩⎨⎧ ge

= bull

elseDPif

DB jju 0

)(1)(

δ

當 ( ) 1iB M DU = 則代表文件需求者擁有文件DU 之存取權限

(b)系統亂數產生門檻值

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 44: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

375

以 (01)U (01)U 分配隨機產生 k 個數值(門檻值)即δ1δ2hellipδk ~ (01)U 則

⎩⎨⎧ ge

= bull

elseDPif

DB jjju 0

)(1)(

δ

當 ( ) 1juB D = 則代表第 j 位文件分享者擁有文件DU 之權限故DU 文件之權限

開放集合為 ( ) | ( ) 1juK DU KGj B D= =

步驟(E5)文件權限開放權限群組列表

依照步驟(E4)所篩選之權限對象可進一步整理為文件DU 權限開放群組列表(參

見表 811)該表乃整理所有文件分享者與此份目標文件間之關係若 ( ) 1juB D = 則 iKG

為權限開放對象故此表為文件權限開放之 終決策依據

表 811文件DU 權限開放群組列表

文件分享者 1KG 2KG hellip jKG hellip mKG

權限關係 1( )B D bull 2( )B D bull hellip ( )jB D bull hellip ( )mB D bull

此方法論之完整推導流程可以圖 812 表示之

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 45: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

376

文件相關性列表

各文件之分享者列表

計算使用者 被開放分享文件權限之機率

﹙平均值法最大值法中位數眾數法區間估計法比例法﹚

門檻值δ由系統管理者指定或是由系統亂數產生

jGK

ifNo

(分享者 無分享權限)

( ) 0jB D bull =( )jK G

Yes

(分享者 有分享權限)

( ) 1jB D bull =( )jK G

故 文件之權限開放集合為( ) | ( ) 1juK DU KGj B D= =

DU

文件權限開放群組列表

δgebull )( jDP

圖 812以文件層面之文件權限開放模式流程

文件層面之文件權限對象推論若使用比重法亦可以矩陣運算呈現之於模式說

明前將相關變數定義如下

uRprime 新上傳權限未知之目標文件與文件庫內各文件間之相關性係數集合

M 考量已知文件庫內各文件之權限開放對象集合以文件庫各文件為 x 軸權

限開放集合為 y 軸所形成之文件與其權限群組之隸屬矩陣

uM 新上傳文件之權限開放對象集合

uiR 文件庫中第 i 份文件與新上傳權限未知文件間之相關係數

P 文件權限開放對象集合內各權限對象被開放權限機率所成之集合

由前述關聯性分析模式可求得新上傳權限未知文件與文件庫內各文件間之相關性

係數集合

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 46: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

377

1

2

u

uu

k u

RR

R

R

⎡ ⎤⎢ ⎥⎢ ⎥prime =⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

M

透過已知文件庫內各文件之權限開放集合再以文件庫各文件為行權限開放集合

為列形成文件與其權限群組之隸屬矩陣

11 12 1 1

21 22 2 2

1 2

i k

i k

m m m i m k

B B B BB B B B

M

B B B B

⎡ ⎤⎢ ⎥⎢ ⎥=⎢ ⎥⎢ ⎥⎢ ⎥⎣ ⎦

L L

L L

M M O M O M

K L

其中元素 kmB 代表第 m 位權限對象是否擁有第 k 份文件之權限在文件權限開放

對象集合內各對象被開放權限機率所形成之集合可以下式計算

[ ] [ ]umuukuuu

kmimmm

ki

ki

u PPPRRR

BBBB

BBBBBBBB

RMP 2121

21

222212

112111

LL

LK

MOMOMM

LL

LL

=times

⎥⎥⎥⎥

⎢⎢⎢⎢

=primetimes=

其中元素 uiP 代表第 i 位權限開放對象被被開放權限之機率由 (01)U 隨機產生 k

個數值即 V1V2hellipVk ~ (01)U 則可得知指標函數值

1 2

1 ( )

0 L iu

i u

if V V V PB D

elsele⎧

= ⎨⎩

L

當 ( ) 1i uB D = 則代表第 i 位文件分享者擁有分享新上傳文件之權限

89 小結

本章說明架構於文件相關性分析之企業知識分群與管理模式首先以企業內之文件

庫為基礎擷取文件內之關鍵字詞再利用各文件關鍵字之出現種類數與出現頻率進

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 47: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

378

行相關性分析此方法論並利用文件間之相關性分析進一步進行文件之分群與權限指

派藉由此自動推論方法論可針對一份尚未建立權限之目標文件透過與已知權限文

件之相關性分析決策其權限對象或提出初步之決策方案供系統使用者參考以增加

文件權限決策之彈性此方法並可納入所有文件需求者之文件閱讀趨勢透過其相關性

分析推斷文件需求者可以或有意願閱讀此目標文件之機率進而作為目標文件權限開

放或資訊發佈對象之依據整體而言此方法論將可應用於智慧型分類管理文件權限

開放或網路一對一行銷有效將知識文件資料提供予可行之需求對象

參考文獻

1 卜小蝶2001「以圖書借閱記錄探勘加強圖書資源利用之探討」中國圖書館學會

會報Vol 66第 59-72 頁

2 卜小蝶2002「以使用記錄分析探索網路使用者檢索興趣之研究」碩士論文(指

導教授楊千)交通大學資訊管理學系

3 何昶毅2001「以網頁探勘技術提供一對一個人化服務」碩士論文(指導教授

王本正)東海大學企業管理學系

4 林信志等2002「長榮管理學院網頁瀏覽行為之分類探勘」長榮學報Vol 61

第 1-16 頁

5 林俊佑李青松曾廣華2002「基於文件分類技術之資訊追蹤系統」電腦與通

訊第 99 期第 133-144 頁

6 林珊如2002「網路使用者特性與資訊行為研究趨勢之探討」圖書資訊學刊Vol

17第 35-47 頁

7 孫銘聰侯建良2002「以推論法則為基之知識文件權限管理程序模式」產業電

子化運籌管理學術暨實務研討會長庚大學九十一年六月二十八日Paper ID39

8 侯永昌楊雪花1998「以模糊理論和遺傳演算法為基礎的中文文件自動分類之研

究」模糊系統學刊第 4 卷第 1 期第 45-57 頁

9 曹乃龍2000「模糊自動文件分類在網際網路上的探討」博士論文(指導教授

林丕靜)淡江大學資訊工程學系

10 張玉華2003「從檔案整理原則談國家檔案之分類」檔案季刊第 2 卷第一期

第 44-56 頁

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 48: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

379

11 陳鈺瑾1999「可調式之中文文件自動摘要」碩士論文(指導教授張俊盛)清

華大學資訊工程學系

12 陳振東戴偉勝2002「網際網路環境中個人化資訊推薦系統實作之研究」資訊

管理學報中華民國資訊管理學會會報Vol 91第 21-38 頁

13 陳佳鴻2001「發展基於使用者行為導向之智慧型財經資訊系統」碩士論文(指

導教授陳安斌)交通大學資訊管理學系

14 許中川陳景揆2001「探勘中文新聞文件」中華民國資訊管理學會會報Vol 142

第 103-122 頁

15 許銀雄周世俊2002「利用資料探勘技術改進網站人機界面」電腦學刊Vol 72

第 1-15 頁

16 國家圖書館編目園地全球資訊網httpdatasncledutwcatwebsect-2htm

17 曾元顯1997「關鍵詞自動擷取技術之探討」中國圖書館學會會訊第 106 期

第 26-29 頁

18 曾元顯2002「文件主題自動分類成效因素探討」中國圖書館學會會報第 68 期

第 62-83 頁

19 詹智凱2000「以詞的關聯性為基礎的文件自動分類」碩士論文(指導教授徐

俊傑)國立台灣科技大學資訊管理學系

20 楊允言1999「中文文件自動分類之探討」大漢學報第 13 期第 241-256 頁

21 楊綠淵2004「以文件相關性為基礎之企業知識分群與管理模式」碩士論文(指

導教授侯建良)清華大學工業工程與工程管理學系

22 楊傑勝2000「適應性聚類演算法及其應用」碩士論文(指導教授蔣榮先)

成功大學資訊工程學系

23 蔡聰洲2001「整合資料倉儲與資料探勘於網站瀏覽分析」碩士論文(指導教授

劉敦仁)交通大學資訊管理學系

24 顏秀珍李御璽何仁傑2001「利用資料探勘語言挖掘感興趣的資訊」電腦學

刊Vol 91第 44-60 頁

25 顏嘉惠2002「資料探勘於圖書館行銷及顧客關係管理之應用」圖書與資訊學刊

Vol 42第 58-68 頁

26 顧皓光莊裕澤1998「網路文件自動分類」臺大管理論叢第 9 卷第 1 期

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 49: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

380

第 201-242 頁

27 Abe K Taketa T and Nunokawa H 2000 ldquoAn idea of the agent-based information

recommending system using the statistical informationrdquo The Seventh International

Conference on Parallel and Distributed Systems Workshops pp 143-146

28 Aggarwal CC and Yu PS H 2001 ldquoOn effective conceptual indexing and similarity

search in text datardquo Proceedings IEEE International Conference on Data Mining pp

3-10

29 Carrere J Cholvy L Cuppens F and Saurel C 1998 Merging security policies

analysis of practical example Proceedings The 11th IEEE on Computer Security

Foundations Workshop pp 123-136

30 Cooley B Mobasher B and Srivastava J 1997 Web mining information and pattern

discovery on the World Wide Web Proceedings of the 1997 International Conference on

Tools with Artificial Intelligence Vol 3-8 pp 558-567

31 Cooper JW Coden AR and Brown EW 2002 A novel method for detecting similar

documents Proceedings of the 35th Annual Hawaii International Conference on System

Sciences pp 1153- 1159

32 Dridi F and Neumann G 1998 Towards access control for logical document

structure Proceedings The Ninth International Workshop on Database and Expert

Systems Applications pp 322-327

33 Feldella E and Prandini M 2000 A novel approach to on-line status authentication of

public-key certificates The 16th Annual Conference on Computer Security Applications

pp 270-277

34 Freeman R Yin H and Allinson NM 2002 ldquoSelf-organising maps for tree view based

hierarchical document clusteringrdquo Proceedings of the 2002 International Joint

Conference on Neural Networks Vol 2 pp 1906-1911

35 Fu W Wu B He Q and Shi Z 2001 ldquoText document clustering and the space of

concept on text document automatically generatedrdquo Proceedings International

Conferences on Info-tech and Info-net Vol 3 pp 107-112

36 Furuse K Miura T Ishikawa M Chen H and Ohbo N 2001 ldquoApplying the branch

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 50: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

381

and bound technique to document similarity searchrdquo Processing IEEE Pacific Rim

Conference on Communications Computers and signal Vol 1 pp 331-336

37 Hammouda K M and Kamel M S 2002 ldquoPhrase-based document similarity based on

an index graph modelrdquo Proceeding IEEE International Conference on Data Mining pp

203-210

38 Haruechaivasak C Shyu M-L and Chen S-C 2002 Web document classification

based on fuzzy association Proceedings The 26th Annual International On Computer

Software and Applications Conference pp487-492

39 Her J-H Jun S-H Choi J-H and Lee J-H 1999 ldquoA Bayesian neural network model

for dynamic web document clusteringrdquo Proceedings of the IEEE Region 10 Conference

Vol 2 pp 1415-1418

40 Khan I Blight D McLeod R D and Card H C 1997 ldquoCategorizing Web documents

using competitive learning an ingredient of a personal adaptive agentrdquo International

Conference on Neural Networks Vol 1 pp 96-99

41 Kim J-G and Lee E-S 1999 ldquoIntelligent information recommend system on the

Internetrdquo Proceedings International Workshops on Parallel Processing Man and

Cybernetics pp 376-380

42 Kobayashi K Sumi Y and Mase K 1998 ldquoInformation presentation based on

individual user interestsrdquo Proceedings Second International Conference on

Knowledge-Based Intelligent Electronic Systems Vol 1 pp 375-383

43 Kondadadi R and Kozma R 2002 ldquoA modified fuzzy ART for soft document

clusteringrdquo Proceedings of the International Joint Conference on Neural Networks p Vol

3 pp 2545-2549

44 Kovics L and Baranyi P 2002 ldquoDocument clustering based on concept latticerdquo IEEE

International Conference on Systems Man and Cybernetics Vol 7 pp 241-246

45 Lancieri L 1999 ldquoDescription of Internet user behaviorrdquo International Joint Conference

on the Neural Networks Vol 4 pp 2514-2519

46 Lin C-H and McLeod D 2000 ldquoTemperament-based information filtering a human

factors approach to information recommendationrdquo IEEE International Conference on

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 51: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

382

Multimedia and Expo Vol 2 pp 941-944

47 Lin K-I and Kondadadi R 2001 ldquoA similarity-based soft clustering algorithm for

documentsrdquo Proceedings Seventh International Conference on Database Systems for

Advanced Applications pp 40-47

48 Lin S-H Chen M C Ho J M and Huang Y-M 2002 ACIRDintelligent Internet

document organization and retrieval IEEE Transactions on Knowledge and Data

Engineering Vol 14 pp 599-614

49 Lu H Lu Z and Li Y 2001 ldquoTRUST-A distributed multi-agent system for community

formation and information recommendationrdquo IEEE International Conference on Systems

Man and Cybernetics Vol 3 pp 1734-1739

50 Michael J A Berry Gordon S Linoff 2001 Data Mining 維科圖書有限公司

51 Motta CLR and Borges MRS 2000 ldquoA cooperative approach for information

recommendation and filteringrdquo Proceedings The Sixth International Workshop on

Groupware pp 42-49

52 Navathe S B and Yong C O 1998 Avoiding inference problem using page level

security classification Proceedings The Ninth International Workshop on Database and

Expert Systems Applications pp 294-299

53 Ng Y-K Tang J and Goodrich M 2001 A binary-categorization approach for

classifying multiple-record Web documents using application ontologies and a

probabilistic model Proceedings Seventh International Conference on Database

Systems for Advanced Applications pp 58-65

54 Pagnia H Theel O and Schupp H 2000 ldquoTransparent management of replicated

WWW document clustersrdquo Seventh International Conference on Parallel and Distributed

Systems pp 263-268

55 Peltonen J Sinkkonen J and Kaski S 2002 ldquoDiscriminative clustering of text

documentsrdquo Proceedings of the 9th International Conference on Neural Information Vol

4 pp 1956-1960

56 Shyu M-L Chen S-C and Shu C-M 2000 ldquoAffinity-based probabilistic reasoning

and document clustering on the WWWrdquo The 24th Annual International Computer

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 52: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

383

Software and Applications Conference pp 149-154

57 Silva J Mexia J Coelho A and Lopes G 2001 ldquoDocument clustering and cluster

topic extraction in multilingual corporardquo Proceedings IEEE International Conference on

Data Mining pp 513-520

58 Shibata H Hoshiai T and Kubota M 2000 ldquoA study on personalized information

recommending agentsrdquo Proceeding International Workshop on Autonomous

Decentralized Systems pp 28-33

59 Su Z Yang Q Zhang H Xu X and Hu Y 2001 ldquoCorrelation-based document

clustering using web logsrdquo Proceedings of the 34th Annual Hawaii International

Conference on System Sciences pp 1831-1837

60 Tan A-H Teo C 1998 ldquoLearning user profiles for personalized information

disseminationrdquo Proceedings IEEE International Joint Conference on Neural Networks

Vol 1 pp 183-188

61 Tzeras K and Petrakis EGM 1999 ldquoSimilarity searching in text databases with

multiple field typesrdquo Proceedings the 15th International Conference on Data

Engineering pp 100

62 Wewers T and Wargitsch C 1998 Four dimensions of interorganizational

document-oriented workflow A case study of the approval of hazardous-waste disposal

Proceedings of the Thirty-First Hawaii International Conference on System Sciences

Vol4 pp 332-341

63 Wu B Zheng Y Liu S and Shi Z 2002 ldquoCSIM a document clustering algorithm

based on swarm intelligencerdquo Proceedings of the 2002 Congress on Evolutionary

Computation Vol 1 pp 477-482

64 Xiao J and Zhang Y 2001 Clustering of web users using session-based similarity

measures Proceedings of the 2001 International Conference on Computer Networks and

Mobile Computing pp 223-228

65 Xiao J Zhang Y and Tianzhu 2001 Measuring similarity of interests for clustering

Web-users Proceedings of the 2001 International Conference on Database pp 107-114

66 Yang H-C Lee C-H 2000 ldquoAutomatic category generation for text documents by

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275

Page 53: 八、知識分群與知識散佈 本章學習目標ebc.ie.nthu.edu.tw/km/MI/kmanage/A08.pdf · 取為基礎,說明知識文件之相關性分析;並以此相關性分析之結果進行文件分群。之後,

384

self-organizing mapsrdquo Proceedings of the IEEE-INNS-ENNS International Joint

Conference on Neural Networks Vol 3 pp 581-586

67 Yoshida H Shida T and Kindo T 2001 ldquoAsymmetric similarity with modified overlap

coefficient among documentsrdquo Processing IEEE Pacific Rim Conference on

Communications Computers and signal Vol 1 pp 99-102

68 Yoshioka T Takata Y Ito M and Ishii S 2001 ldquoA neural visualization method for

WWW document clustersrdquo Proceedings International Joint Conference on Neural

Networks Vol 3 pp 2270-2275