以多變量分析應用在 CRM...

15
以多變量分析應用在 CRM 之研究 郭凌祥 長榮大學資管所碩士生 [email protected] 摘要 綜觀電子商務現有的 CRM 推薦系統使用的技術有協同過濾法、內容導向法和關聯 規則法。個人化推薦系統的過程需紀錄顧客對商品項目點選次數及瀏覽時間,加上其他 關鍵影響因素,導致資料維度相當龐大,上述現行使用的技術都很不易有效處理維度龐 大的資料數據。 主要以多變量統計的主成份分析方法,在不損失統計效力之下,將資料維度縮減,得 到維度較少的多變量統計量, 再採用華德分群法找出最合適的分群 k 值,其次再用傳統 K-means 法驗証分群的正確性。 本研究先以多變量統計研究常用的兩組資料作 PCA/Ward 法驗証, 再以某電子商務 公司的線上 CRM 資料証明其正確性及可行性。 關鍵字:協同過濾法、內容導向法、關聯規則法、主成份分析、個人化推薦。

Transcript of 以多變量分析應用在 CRM...

  • 以多變量分析應用在 CRM之研究

    郭凌祥

    長榮大學資管所碩士生

    [email protected]

    摘要

    綜觀電子商務現有的 CRM 推薦系統使用的技術有協同過濾法、內容導向法和關聯

    規則法。個人化推薦系統的過程需紀錄顧客對商品項目點選次數及瀏覽時間,加上其他

    關鍵影響因素,導致資料維度相當龐大,上述現行使用的技術都很不易有效處理維度龐

    大的資料數據。

    主要以多變量統計的主成份分析方法,在不損失統計效力之下,將資料維度縮減,得

    到維度較少的多變量統計量, 再採用華德分群法找出最合適的分群 k 值,其次再用傳統

    的 K-means 法驗証分群的正確性。

    本研究先以多變量統計研究常用的兩組資料作 PCA/Ward 法驗証, 再以某電子商務

    公司的線上 CRM 資料証明其正確性及可行性。

    關鍵字:協同過濾法、內容導向法、關聯規則法、主成份分析、個人化推薦。

  • 壹、緒論

    現在的電子商務網站商品琳瑯滿目,要找到想買的商品並不容易,而 google分析也

    只是大區域的分析, 僅能顯現每位顧客所在的國家和網頁的點選率,並不能給予實際上

    的幫助,至於在台灣, 則很少有分析顧客喜好並作個人化推薦的網站。個人化 CRM 作

    得較好的有亞馬遜書局(Amazon.com)、CDNow 等網站,它們採用協同過濾法來建構顧

    客推薦系統,本研究藉由多變量分析及華德分群法,提出一個針對高維度 CRM 資料分

    析的有效方法, 使得個人化商品推薦技術更能推廣到一般的 CRM 應用。

    貳、研究背景與動機

    電子商務隨著資訊科技成長發展,造就了便捷的網路行銷,根據 2010 年台灣寬頻

    網路使用調查報告,台灣總人口數約有 23,124,514 人(2010年 1月), 台灣地區上網人

    口約有 1,622 萬,共計有 16,217,009 人曾上網(整體人口 0-100 歲),比去年(2009)1,582

    萬人,增加約 40 萬人;12 歲以上之曾經上網人口有 14,669,915 人,曾經上網比例為

    72.56%,比去年(2009)增加了 1.61 個百分點,其中曾經使用寬頻網路人數為 13,590,123

    人,寛頻使用普及率為 67.21%,比去年(2009)增加 0.74個百分點,所以傳統的面對面行

    銷不再是主流,多半的顧客全來自網路上。

    在商業化網站資料庫裡,都能取得顧客在網站裡註冊的基本資料和瀏覽的歷史紀

    錄,來觀察顧客的歷史瀏覽時間紀錄,在顧客不知覺的情況下,得到顧客最真實的行為

    模式. 有了這些多變量資料, 就可運用多變量統計方法來分析每位顧客的基本資料和歷

    史紀錄,從中找出顧客彼此的相關性,顧客的喜好和行為模式,並進而預測顧客的喜好

    度而做出推薦,如此設計出的推薦系統不僅能提供顧客未知的商品,更可以交叉銷售的

    手法,刺激顧客的購買欲望,提供顧客完善的個人化推薦服務,企業也因而提高競爭優

    勢,大幅提高商品被銷售的機會。

    在文獻的彙整中,目前有三種主要方法常應用在電子商務個人化推薦系統,即關聯

    規則式推薦、內容導向式推薦和協同過濾式推薦三種, 概述如下圖 1:

    圖 1: 三種常應用在電子商務個人化推薦系統

    資料來源:本研究整理

  • 現今常用個人化推薦系統都使用了關聯規則式推薦、內容導向式推薦、協同過濾式

    推薦,這些方法的缺點就是,當資料過於龐大和維度夠多(大過 200),不但會使系統產

    生負荷,而且不易辦別出那些維度的組合最能反應消費者的消費模式, 針對上述缺點,

    本研究採用多變量統計分析顧客上網收尋的歷史紀錄,再以主成份分析(Principle

    Component Analysis) 抽取出最能代表顧客行為的維度組合統計量, 再加以分群. 本研究

    的方法不但可以減少系統的負荷, 而且分群有統計分析作基礎, 與上述方法純粹的

    EDA(Exploratory Data Analysis) 有所不同.

    參、本研究方法流程

    本研究以多變量分析方法建構個人化推薦系統.

    其研究方法流程,如圖二所示。其步驟如下:

    (1) 從個人化推薦系統(或現有客戶點選及瀏覽紀錄)取得數據資料

    (2) 以協同過濾法檢視顧客歷史紀錄.

    (3) 做主成份分析來減少維度,得到新的一筆主成份得點數據

    (4) 以華德法判別可分成幾群

    (5) 以華德法得到的 K值做 K-Means 的分群

    (6) 檢視分群結果,並以統計推論推斷之

    圖二: 研究方法流程

    資料來源:本研究整理

  • 肆、文獻探討

    討論通常應用在個人化推薦系統中的三種方法,也就是:關聯規則式推薦、內容導向

    式推薦和協同過濾式推薦,分別論述之。

    (一) 個人化推薦系統

    根據使用者的興趣特點和購買行為,向使用者推薦使用者感興趣的資訊和商品,而

    電子商務規模的不斷擴大,商品個數和種類快速增長,顧客需要花費大量的時間才能找

    到自己想買的商品。這種瀏覽大量無關的資訊和商品導致資訊過載問題中,使顧客不斷

    流失,為瞭解並解決這些問題,而 Schafer(1999)提出個人化推薦系統對於電子商務

    上的效益包括:

    1. 提高顧客忠誠度:

    透過推薦機制,可以加強企業與消費者的關係,提高顧客忠誠度,降低流失率。

    2. 將瀏覽者變成購買者:

    適時的推薦顧客所喜好的產品,可能會引起購買的慾望,增加產品購買的動作。

    3. 交叉銷售:

    推薦系統可以推薦額外的產品給顧客來產生交叉銷售的利益,以提高平均的交

    易量。

    (二) 關聯規則式推薦

    關聯規則是分析發現資料庫中不同變數或個體間(例如商品間的關係及年齡與購買

    行為…)之間的關係程度(機率大小),用這些規則找出顧客購買行為模式,如購買了

    桌上型電腦對購買其他電腦週邊商品(印表機、喇叭、硬碟…)的相關影響。發現這樣

    的規則可以應用於商品貨架擺設、庫存安排以及根據購買行為模式對客戶進行分類。

    關聯規則是以高頻項目集合產生方式為Apriori演算法,其使用一種稱作逐層搜

    尋的疊帶方法,它會使用k-項目集合來探索(k+1)項目集合。首先掃瞄全部交易資料

    找出 l,該集合記作 1L , 1L 用來找出頻繁2-項目集合 2L ,而 2L 用來找 3L ,如此下去,

    直到不能找到頻繁k-項目集合,找每個 KL 都需要對資料庫作一次掃描。為了要使用

    Apriori性質,頻繁項目集合的所有非空子集合都必須也是頻繁的。根據定義,

    如果項目集合 i 不滿足最小支持度(Min-support)值,則 i 不是頻繁的。

    範例說明:

    Apriori 演算法的處理步驟:假若資料庫中{ABCDE}為商品類別項目的集合,{U1, U2,

    U3, U4, U5, U6}為 6個使用者之交易的集合,如表一所示:

    http://wiki.mbalib.com/zh-tw/%E8%B4%AD%E4%B9%B0%E8%A1%8C%E4%B8%BAhttp://wiki.mbalib.com/zh-tw/%E5%95%86%E5%93%81http://wiki.mbalib.com/zh-tw/%E7%94%B5%E5%AD%90%E5%95%86%E5%8A%A1http://wiki.mbalib.com/zh-tw/%E9%A1%BE%E5%AE%A2http://wiki.mbalib.com/zh-tw/%E4%BA%A7%E5%93%81

  • 表一:資料庫交易紀錄(第一階段)

    交易紀錄 商品類別項目

    U1 ABCD

    U2 BCE

    U3 ABC

    U4 BE

    U5 BC

    U6 ABE

    看表一,可以清楚的看到 Apriori 演算法的運作過程,先把所有的類別項目當成第

    一階段的候選項目集,而若是大於使用者自訂的支持度門檻值(Support Threshold),在

    此設定為 2,即可成為第一階段的高頻項目集合,所以刪除 D,以下表二所示

    表二: 候選項目集(第二階段)

    進入第二階段循環,候選項目集的產生是由上一階段的項目集合做排列組合,一共

    產生了{AB}、{AC}、{AE}、{BC}、{BE}、{CE}六個項目組,計算其次數值,並刪

    除{AE}、{CE}兩個項目集合,產生 3L (第三階段)。如表三所示:

    表三: 排列組合(第三階段)

  • 之後以此類推,經過不斷的排列組合及資料庫存取,最後產生高頻組合{ABC} 3L ,

    如下表四:

    表四: 排列組合及資料庫存取

    此時 ABC 項目應排在一起,顧客容易感興趣購買之。

    (三) 內容導向式推薦

    內容過濾主要採用自然語言處理、人工智慧、概率統計和機器學習等技術進行過

    濾。基於內容過濾的系統其優點是在分析觀察與訪談資料方面極為有用、在時間與資源

    而言上,如果和其他的方法比較,這是比較簡單和經濟的方法。其缺點是特徵提取的能

    力有限,過分細化,純基於內容的推薦系統不能為客戶發現新的感興趣的資源,只能發現

    和客戶已有興趣相似的資源。這種方法通常被限制在容易分析內容的商品的推薦,而對

    於一些較難提取出內容的商品,如音樂 CD、電影等就不能產生滿意的推薦效果。

    此種做法必須要有龐大資料庫的存取,需要蒐集一堆的關鍵字,就由資料採礦(Data

    Mining)的技術,找出關鍵字彼此之間的關係對應,可以客戶的資料是很難蒐集,一些

    敏感的資料,客戶都是沒意願填寫,當今社會上隱私權是非常被重視的議題,所以要以

    這種策略對新進來的客戶或新產品的項目,並無法馬上推薦給客戶,必須等資料庫搜集

    完畢關鍵字的多寡,才會推薦給客戶,在時間點會很難推薦新商品給所需求的客戶購買

    之。

    (四) 協同過濾式推薦

    協同過濾是在信息過濾和信息系統中正迅速成為一項很受歡迎的技術。與傳統的基

    於內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到指定

    用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用

    戶對此信息的喜好程度預測。

    以 Amazon.com 協同過濾(Collaborative Filtering)三項為例,根據有相同興趣喜好的

    顧客做出推薦:

    1. 因為 Amazon.com 擁有龐大客戶群集資料,必須將找到有相似的興趣的群集,

    並把每一個客戶放入群集裡,以便做出推薦。

    2. 用一個明瞭的方法,來表示客戶之間的的興趣喜好。

    3. 以一種高效率的演算法,對一些有匹配相似興趣的客戶,來納入正確的群集裡。

    http://wiki.mbalib.com/zh-tw/%E7%BB%9F%E8%AE%A1http://wiki.mbalib.com/zh-tw/%E8%B5%84%E6%BA%90http://wiki.mbalib.com/zh-tw/%E4%BF%A1%E6%81%AF%E7%B3%BB%E7%BB%9F

  • Amazon.com 是針對客戶在網上的購買商品的習慣紀錄,做出客戶評比。評比也就

    是客戶購買商品的瀏覽時間或者以滑鼠點擊商品紀錄,找到有相似匹配興趣的客戶,來

    估計與客戶最近相似興趣的人,並建議客戶購買 Amazon.com 系統所推薦的商品。

    以下為協同過濾演算法公式,用來衡量客戶相似性的交互作用,找出最相似性客戶

    的預測:

    p–預測(prediction),r–評比(rating),r-bar–平均評比值(average rating),w–相似性

    (similarity),a –活躍的使用者(active user),u –使用者(user),i –項目(item)

    (五) 關聯規則式推薦、內容導向式推薦和協同過濾式推薦的優缺點比較,如下表五:

    表五:關聯規則式推薦、內容導向式推薦和協同過濾式推薦的優缺點比較

    個人化推薦 關聯規則式推薦 內容導向式推薦 協同過濾式推薦

    做法 不同變數或個體間

    的關聯性

    項目間的關聯性

    使用者間的關聯性

    優點

    1.利用物項間的關聯

    容易找到使用者所

    需求商品。

    2. 對顧客的購買記

    錄資料庫進行關聯

    規則挖掘,可以發現

    顧客的購買習慣。

    1. 在時間與資源

    而言上,比較簡單

    和經濟的方法。

    2. 可針對提供的

    推薦解釋推薦的

    原因。

    1.所推薦的產品與

    之前顧客興趣大不

    同。

    2.結合使用者與參

    考群體的偏好。

    缺點

    1.計算物項過多而造

    成執行能緩慢。

    2.需要龐大的資料庫

    來存取資料。

    1.從每一個物件

    抽取足夠的資訊

    來表示是不容易

    的。

    2. 不能為使用者

    發現新的感興趣

    的產品。

    1. 使用者對商品的

    評價非常稀疏,這

    樣基於使用者的評

    價所得到的使用者

    間的相似性可能不

    准確。

    2. 隨著使用和商品

    的增多,系統的性

    能會越來越低。

    n

    u ua

    ua

    n

    u uiu

    aia

    w

    wrrrp

    1 ,

    ,1 ,

    ,

    )(

  • 伍、研究方法

    本研究會先以主成份分析(Principle component Analysis)將高維度的多變量資料降低

    維數(Dimension Reduction),保留解釋變異量 90%以上的 Eigenvalue,有別於目前一般敘

    述統計的作法,依直覺判定選取某些變數。其次,將新維度的資料作群集分析(Cluster

    Analysis)。由於大多數電子商務資料與相關網站資料整合後,一般而言資料己不具清楚

    群集結構,所以傳統的 K-mean分群法暫時不適用,因為 K-mean 法只在已知群集數目

    才可使用,否則會導致錯誤的統計推論。為克服這個困難,我們使用層次群集分析

    ( Hierarchical clustering)中的華德演算法( Ward`s Algorithm)找出 K值,並以 K-means 法

    作為分群。以下會用真實資料範例和某實體公司的資料做說明之。

    (一) 人種的顱骨測量的資料數據

    由William W. Howells 學者所測量不同人種的顱骨測量的資料數據,這些數據提供

    給研究人員從 http://web.utk.edu/~auerbach/HOWL.htm 網站下載,裡有超過 130多的各種

    人種,共有 524筆資料和 82個橫向多維度資料,一般而言,由於顱骨測量的資料欄位

    數眾多,通常會先把一些不必要欄位做移除,例如有些顱骨測量的資料數據為 0的單位,

    將這些離群值隔離,就不放入分析資料當中了,方便之後的多變量分析。從上述資料去

    驗證用主成份分析是否可將相同的人種分在同一群集裡,有以下流程步驟:

    1. 個人化推薦系統

    取得 524筆資料,每個欄位都為 0的單位,做 Data Cleaning 的動作,將 82個橫向

    多維度資料被縮減成 56 個橫向多維度資料,目的是為了將資料離群值變數簡化,減少

    系統負荷,如下圖三所示:

    圖三: William W. Howells Craniometric Data Set 並做 Data Cleaning

    資料來源:http://web.utk.edu/~auerbach/HOWL.htm

  • 2. 主成份分析

    (1)主成份分析的原理如下:

    考慮 p個 pxx ,...,1 變數的線性組合方程式:

    ppxaxaxay 12121111 ...

    xaxaxaxay pp'

    222221212 ...

    (2) 主成份全體變數的解釋能力:

    第一主成份 1y 解釋全體原變數變異數的比例為

    p

    i

    i

    p

    i

    i

    p

    i

    i

    p

    i

    i xV a rxV a r

    yV a r

    y

    yV a r

    1

    1

    1

    1

    1

    1

    1

    1

    )()(

    )(

    )(

    )(

    而第一,第二主成份共解釋變異數的比例為

    iiyV a r

    yV a ryV a r

    2121

    )(

    )()(

    下表六使用 Statistica 作 524筆顱骨測量數據的解釋變異數結果:

    表六: 524筆顱骨測量數據的解釋變異數

    為求得知解釋變異量 22為 90.6853%和解釋變異量 30為 95.7085%差異,分別探討

    用少的變數和用多的變數是否會帶來極大的差異,利用這兩個求出主成份得點來做解

    釋。如下圖四:

    圖四:解釋變異量陡坡圖

  • (3) 求主成份得點:

    此 a為( jia , 2ja ,……, jpa )的主成份權重,第 i位資料( piii xxx ,...,, 21 )的第 j個主成 份

    得點算式:

    )(...)()( 22211 ppijpijijij xxaxxaxxay

    將資料做成主成份得點化,是為了使變異數達到最大,做轉軸的旋轉,使資料做

    簡化,而不是將資料直接做非層次群集法(K-mean),這樣會使分群不準確。主成份得

    點如下表七:

    表七: 524筆主成份得點

    Factor coordinates of cases, based on correlations (Sheet1 in Imported from C:\Users\co\Desktop\2222.xls)Case Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Factor 6 Factor 7 Factor 8 Factor 9 Fact.10 Fact.11123456789

    -3.8780 0.83959 -2.53235 1.57103 0.70733 -2.07180 1.36315 -1.59988 -0.53617 1.14286 -0.089203.1767 -2.58434 0.84642 -1.24554 1.49626 0.71935 0.27841 -0.66426 2.46201 -0.99909 0.456123.4458 -0.24370 -2.18834 -2.88493 -1.39701 1.70060 0.04320 0.88878 1.97854 -2.65273 -0.07756

    -3.0478 0.79447 -2.84174 3.42622 -1.43179 3.91877 0.99356 0.20636 2.69704 -1.33011 -0.390901.8584 0.78408 -1.24650 2.63911 -3.14341 4.28223 -0.41091 0.11242 1.47014 0.52526 -0.045858.2349 0.64493 0.76655 0.97058 -2.03269 3.22161 -0.41314 -1.13910 1.26835 1.19882 -1.209407.3166 -2.01842 3.16205 0.85967 -0.24738 1.58884 -0.68136 0.22888 0.44884 -0.53538 0.553978.1222 -0.62887 0.31763 0.38876 -2.05731 3.84893 -0.82862 0.20616 0.73107 0.71480 0.10000

    -3.8556 -3.27580 -1.28972 1.42083 -0.40685 -1.53543 0.20814 -1.50331 1.44612 1.49260 0.03282

    3.華德法和 K-means 法分群

    從上表七取出第一主成份得點到第二十二主成份得點其解釋變異量為 90.6853%和

    第一主成份得點到第三十主成份得點其解釋變異量為 95.7085%,做層次群集法(Ward’s

    method) ,將從主成份分析得點做華德法,即在分群的群數固定取所有可能的分群中,

    能使群內平方和最小者為分群結果。

    本研究不能使用預先使用非層次群集法如 K-mean,因為非層次群集法(如 K-mean)

    和層次群集法(Ward’s method)最大的不同是非層次法分群群數 K必需事先知道,而層次

    群集法(Ward’s method)不必預先假定 k 值,在我們的應用,當然 K值在分析之前不請

    楚,因此必需使用層次群集法,又稱最小變異數法(minimum variance method)。華德法

    的分群方式是先將每一個個體視為一個集群,然後將各集群依序合併,合併之順序完全

    視合併後集群之組內總變異數之大小而定。

    (1) 華德法

    華德法計算甲、乙兩群距離是以甲群中心點 甲x 到兩群合併中心點 x距離平

    方成以甲群的個體數,與乙群中心點 乙x 到總中點的 x距離平方乘以乙群的個

    體數之和,以下為以兩群的組間平方和為依據的層次群集法(Ward’s method)

    公式:

    甲,乙d

    = 甲n. + 乙

    n.

  • 下圖五為取出主成份得點 22解釋變異量 90.6853%和主成份得點 33 解釋變異量

    95.7085%做華德法分析,做切線皆分成七群。

    Tree Diagram for 524 CasesWard`s method

    Euclidean distances

    227 120 437 62 45 454 85 359 423 439 430 242 282 163 2490

    100

    200

    300

    400

    500

    600

    700

    Lin

    kage D

    ista

    nce

    Tree Diagram for 524 Cases

    Ward`s methodEuclidean distances

    239 8 225 70 5 512 190 428 232 495 134 141 166 319 4140

    100

    200

    300

    400

    500

    600

    Lin

    kage D

    ista

    nce

    圖五:得點22解釋變異量 90.6853%和主成份得點 33解釋變異量皆分七群(華德法樹形圖)

    (2) K-meansz 法

    因為層次群集法(Ward’s method)不必事先知道要分幾群,因此常用來做探索式的

    分群,再用非層次群集法(K-means)來調整分群,以得最佳分群結果。因此層次群集法

    (Ward’s method)和非層次群集法(K-means)是互補性質的。

    藉由上兩表得知第一主成份得點到第二十二主成份得點其解釋變異量 90.6853%和

    第一主成份得點到第三十主成份得點其解釋變異量 95.7085%都分成七群,以知 K值再

    做 K-means 法分七群,如下表八:

    表八: 解釋變異量 90.6853%和解釋變異量 95.7085%的 K-means 法分群

    由上表八得知解釋變異量 90.6853%和解釋變異量 95.7085%的 K-means 法看出解釋

    變異量 90.6853%的第一群和解釋變異量 95.7085%的第四群是一樣的,不影響分群結果,

    用解釋變異量 90.6853%就能去做分群,以下實作某真實營運資料,每位顧客在網站瀏

    覽的秒數,本研究會用上述論證來做分析。

    (二) 某公司真實的營運資料

    研究目前所使用的資料是某公司真實的營運資料,作為分析的驗証,取得 400筆資

    料和 7個橫向多維度資料,每個欄位都以秒為單位,再做 Data Cleaning 的動作,得到

    296筆的資料和 6個橫向多維度資料。

    一般而言,由於客戶資料筆數眾多(瀏覽網頁數及客戶數),通常會先把一些不必要

    欄位做移除,例如有些客戶在某網頁所瀏覽的時間為 0~60秒,可能只是走馬看花,這

    些離群值,就不放入分析資料當中了,方便之後的多變量分析。目的是為了將資料離群

    做切線分群

  • 值變數量簡化,減少系統負荷,如下表九所示:

    表九: 某公司真實的營運資料

    1. 主成份分析

    本研究使用 296筆資料,先做主成份分析( PCA),目的是為了將資料變數量簡化,

    ( Dimension Reduction)。將多個有相關的變數簡化成幾個統計上較不相關的主成份,這

    些主成份是原資料多變量的線性組合,但保有原來變數足夠多的變異數,做解釋變異數

    如表下表十:

    表十: 296筆解釋變異數

    從表十取解釋變異量 96.1335%的做主成份得點如下表十一:

    表十一:解釋變異量 96.1335%的主成份得點

    Factor coordin ates of cases, based on correlations (Sh eet1 in Imp orted from C:\Users\co \Desktop \資料結合777.xls)Case Factor 1 Factor 2 Factor 3 Factor 4 Factor 5 Factor 6123456789101112131415

    1.12403 -0.07020 0.04316 -0.17990 0.04866 -0.092251.09980 0.07495 0.05325 -0.21173 0.04136 -0.092450.97783 -0.46458 -0.00464 0.00572 0.04783 0.245660.94411 -0.46648 -0.00804 0.02205 0.04461 0.299831.15823 -0.27503 0.02892 -0.13497 0.05898 -0.091971.13678 -0.44307 -0.01746 -0.02073 0.05612 -0.148751.13478 -0.44269 -0.01879 -0.01778 0.05566 -0.150980.88722 -0.39587 -0.18357 0.34675 -0.00148 -0.427130.94411 -0.46648 -0.00804 0.02205 0.04461 0.299831.12207 -0.45645 0.00992 -0.06412 0.06163 0.013991.17205 -0.35778 0.02317 -0.11682 0.06314 -0.091860.94411 -0.46648 -0.00804 0.02205 0.04461 0.29983

    -1.85974 -0.00351 -1.12167 2.79640 -0.43601 0.629610.94411 -0.46648 -0.00804 0.02205 0.04461 0.299831.01057 0.60942 0.09040 -0.32895 0.01445 -0.09317

  • 2. 取主成份得點做分群

    下圖六為取出第一主成份得點到第五主成份得點其解釋變異量 96.1335%做華德

    法。從華德法樹形圖在距離 30做切線表示看出此第一主成份得點到第五主成份得點其

    解釋變異量 96.1335%切線分成六群。

    Tree Diagram for 296 CasesWard`s method

    Euclidean distances

    241 99 192 41 171 230 136 181 28 137 274 163 12 133 110

    50

    100

    150

    200

    250

    Lin

    kage D

    ista

    nce

    圖六:解釋變異量 96.1335%切六群(華德法樹形圖)

    因為層次群集法(Ward’s method)不必事先知道要分幾群,因此常用來做探索式的分

    群,再用非層次群集法(K-mean)來調整分群,以得最佳分群結果。因此層次群集法

    (Ward’s method)和非層次群集法(K-means)是互補性質的。

    所以藉由上兩表得知第一主成份得點到第五主成份得點其解釋變異量 96.1335%各

    分成六群,以知 K值再做 K-means 法分六群,並做得點轉化成原始數據,如下表十二。

    表十二: K-means 法分群轉原始數據

  • 由上表十二,可知主成份得點轉原始數據,不影響往後我對顧客的分析,能以此表

    十二對這些客戶做個人化推薦

    陸、結論

    本研究發現將原始資料數據做 Data Cleaning減少橫向維度(只取有效資料, 去除

    離群值),再經由主成份分析(減少縱向維度)轉化成主成份得點,將新的主成份得點資料

    數據,以華德法找出 K 值,再藉由 K-Means 法做分群驗証,雖然將原始資料轉化成主

    成份得點,改變了原始數據的原貌,但並不會影響我們對顧客的分析,因為以 K-Means

    的分群的縱向順序數列並無改變結構,可以以原始資料數據的縱向順序數列,找出每位

    顧客瀏覽紀錄做分析客戶的依據。

    本研究做主成份分析是希望把縱向維度簡化,減少複雜度,又不失去原始資料的

    完整性,能很簡單的做出分群,來解釋每位顧客所對應的需求,做出更適合的個人化推

    薦。

    柒、參考文獻

    1. 呂金河譯,Subhash Sharma 著,2005,多變量分析,台中,滄海書局。

    2. 陳順宇,2005,多變量分析,台北,華泰書局。

    3. 李詩欽,民 90,策略定位影響電子卷商顧客關係管理應用之研究,國立中央大學資訊管理

    碩士論文。

    4. 唐瑩荃,2006,以顧客價值分析與權重漸進探勘來進行協力式音樂推薦,南台科技大學資

    訊管理碩士論文

    5. 莊清男,民 94,協同過濾式群體推薦,國立中央大學資訊管理碩士論文。

    6. 許毓容,民 92,個人化線上促銷決策支援系統,朝陽科技大學資訊管理碩士論文。

    7. 姚吉峰,以關聯分析及模糊分割法建構分類規則應用於 CRM 資料分類,國立成功大學資訊

    管理碩士論文。

    8. 黃信傑,民 95,以協同過濾輔助內容分析之文件推薦系統,國立中央大學資訊管理碩士論

    文。

    9. 陳家仁,民 90,在限定項目個數與交易長度的資料庫中挖掘關聯規則,國立中央大學資訊

    管理碩士論文。

    10. 廖婉菁,民 91,應用協同過濾機制於商品推薦之研究,中原大學資訊管理碩士論文

    11. 賴冠宇,民 95,顧客關係管理系統的使用現況與影響因素之探索性研究,國立中央大學資

    訊管理碩士論文。

  • Application of Multivariate Statistical analysis in CRM

    GUO,LING-SIANG

    Chang Jung Christian University Department of Information Management

    [email protected]

    Abstract

    The most commonly used recommendation systems for CRM applications are:

    collaborative filtering, Content-based , and Association Rule-based methods.。In practice, all

    the recommendation system needs to record and process a huge amount of customer data

    including their browsing time on each page and necessary personal profile data, etc.

    Consequently, the size of data dimension increase quickly and become a very difficult

    problem for implementing an effective analysis.

    Namely, we used Principle Component Analysis ( PCA) to reduce data dimension

    without losing its statistical relevance. Once the dimension has reduced , a hierarchical

    clustering method ( Ward method) is applied to get the right number of the clusters. The

    cluster number is also double checked by the more traditional K-means cluster method .

    We implemented the proposed method on two set of open source data to verify its

    Effectiveness. Also, a set of real word CRM data is used to demonstrate the superiority over

    traditional methods.

    Keywords: Collaborative Filtering , Content-based , Association Rule-based,

    Principle Component Analysis, personalized recommendation

    mailto:[email protected]