team1-SPSS-Clementine.doc

10
課課課課課課課課 Data MiningSPSS課課 課 課 課 課 課 90433027 課 課 課 90433005 課 課 課 90433010 課 課 課 90433019 課 課 課 90433029 課 課 課

description

 

Transcript of team1-SPSS-Clementine.doc

Page 1: team1-SPSS-Clementine.doc

課 程 : 電子商務資料管理

題 目 : Data Mining(SPSS)

指 導 教 授 : 陳 彥 良

組 別 : 第 一 組

作 者 : 90433027 吳 文 瑞

組 員 : 90433005 邵 志 民

90433010 王 仁 宏

90433019 黃 弘 龍

90433029 王 志 團

Page 2: team1-SPSS-Clementine.doc

前言:

資料探勘技術包含了統計技術、資訊工程、行銷企畫、財務分析等技術的組合,所著重的是資料庫的再分析。藉由模式比對的方式,Data

Mining技術可在企業所蒐集了的市場、客戶、供應商、競爭對手以及未來預測等大量資料中,找尋如趨勢(Trend)、特徵(Pattern)及相關性(Relationship)等隱藏在背後具特殊含意的訊息,以執行預測模型、市場區隔、關聯分析及偏差行為等作業。Data Mining技術將可來挖掘更多知識。資料採礦將能協助企業利用不同的分析工專家建議企業須小心使用資料探勘所得的結果,不可完全依賴它,因為Data Mining工具是用來從資料中發掘出各種假設(Hypothesis),但是它並不負責查證(Verify)假設,也無法確認資料的真實性。

一般而言,Data Mining的理論技術可分為傳統技術與改良技術兩派。傳統技術以統計分析為代表,舉凡統計學內所含之敘述統計、機率論、迴歸分析、類別資料分析等皆屬之,尤其Data Mining對象多為變數繁多且筆數龐大的資料,是以高等統計學裡所含括之多變量分析中用來粽簡變數的因素分析(Factor Analysis)、用來分類的判別分析(Discriminated

Analysis),以及用來區隔群體的分群分析(Cluster Analysis)等。在改良技術方面,資料探勘技術廣泛利用各種的電腦應用領域的人

工智慧方法,應用較普遍的有決策樹理論(Decision Trees)、類神經網路(Neural Network)、遺傳基因法(Genetic Algorithms)、模糊理論(Fuzzy Logic),以及規則歸納法(Rules Induction)等。使用的技術和應用對象的不同,往往所產生的結果也會很有大的差異。要決定使用基於何種人工智慧的Data Mining解決方案,必須先對各項技術有初淺的認識,以下簡單說明。

四種最常用的改良資料探勘技術:

決 策 樹:Data Mining利用決策樹來建立分類模式(classification

model),以樹枝狀展現資料受各變數的影響情形之預測模型,根據對目標變數產生之效應的不同而建構分類的規則,一般多運用在對顧客資料的區隔分析上。為了將輸入的資料分類,決策樹的每一個節點即為一個判斷式,判斷式針對一個變數去判斷輸入的資料大於或等於或小於某個數值,每一個節點因而可以將輸入的資料分成若干類。決策樹的優點是,其結果很容易讓人了解,因此被廣泛使用。

類神經網路:在資訊與電子業者,類神經網路技術已發展多年,其作法

Page 3: team1-SPSS-Clementine.doc

是以大量簡單而相連的人工神經元(Neuron)來模擬人腦思考的能力。此一技術可自輸入之變數與數值中自我學習,並根據學習經驗所得之知識不斷調整參數,以期建構資料的型樣(patterns)。其他的優點還包括高速運算、過濾雜訊容錯等,因此能夠解決許多複雜的分類、預測等問題。類神經網路是一種模擬的資料分析模式。與傳統迴歸分析相比,類神經網路為非線性的設計,好處是在進行分析時無須限定模式,特別當資料變數間存有交互效應時可自動偵測出;缺點則在於其分析過程為一黑盒子,故常無法以可讀之模型格式展現,每階段的加權與轉換亦不明確,因此這項技術多半應用於屬於高度非線性且帶有相當程度的變數交感效應的資料分析上。

基因演算法:基因演算法是一種新的資料探勘技術,它以適應函數來決定搜尋的方向,再搭配模擬生物的人工運算過程,例如選擇、複製、交配和突變等進行演化,週而復始地模擬自然界的演化方式,以求得一個最佳的結果。在許多應用中,此一技術經常與類神經網路技術結合運作。

歸納法則 :規則歸納法是知識採礦的領域中最常用的格式,這是一種由一連串的「如果.../則...(If / Then)」之邏輯規則對資料進行細分的技術,在實際運用時如何界定規則為有效是最大的問題,通常需先將資料中發生數太少的項目先剔除,以避免產生無意義的邏輯規則。

為達成量身訂製的目標,市場上的資料探勘系統皆訴求模組化設計,每家廠商的Data Mining皆支援各種不同的模組,以配合不同客戶的需求來組成不同模組的系統。目前主要發展的模組包括資料抽樣(Sampling)、資料分組(Data Partition)、迴歸分析(Regression)、決策樹(Decision Tree)、類神經網路(Neural Network)等多達一、二十個模組,將各個模組,任意組合及建立架構,將可產生無窮多的應用。

藉由以上各項技術的協助,資料分析人員便可建立分類(classification)、推估(estimation)、預測(prediction)、關聯分組(affinity grouping),以及同質分組(clustering)等五大步驟,使得從資料中發掘寶藏成為一種系統性且可實行的程序,並進而建立Classification、Regression、Time Series、Clustering、Association、以及Sequence等六種資料模式。Classification以及 Regression主要是用來做預測,而Association與 Sequence主要是用來描述行為(例如消費行為)。Clustering則是二者都可以用的上。

Page 4: team1-SPSS-Clementine.doc

六種資料採礦模式:

Classification是根據一些變數的數值做計算,再依照結果作分類。(計算的結果最後會被分類為幾個少數的離散數值,例如將一組資料分為”可能會回應”或是”可能不會回應”兩類)。Classification常常被用來處理如前面說到的郵寄對象篩選的問題。我們會用一些已經分類的資料來研究它們的特徵,然後再根據這些特徵對其他未經分類或是新的資料做預測。這些我們用來尋找特徵的已分類資料可能是來自我們的現有的歷史性資料,或是將一個完整資料庫做部份取樣,再經由實際的運作來測試;譬如利用一個大的郵寄對象資料庫的部份取樣來建立一個 Classification

Model,以後再利用這個Model來對資料庫的其他資料或是新的資料作預測。Classification通常會牽涉到兩種統計方法:Logistic Regression以及Discriminate Analysis。然而因為Data Mining已漸普遍,所以Neural Nets

以及Decision Tree也漸漸受到採用。雖然這些統計方法本身都十分複雜,但使用者並不會牽涉到這些繁雜的統計。Neural Nets使用許多參數(每個參數代表Net上的一個Node)來建立一個模式,這個模式接受一組輸入值來預測出一個連續值或分類值。每一個節點(Node)都是一個函數,這個函數是使用輸入該節點的相鄰節點值的加權總和(Weighted Sum)做運算。在建立一個模式的過程中,我們要用一些資料來’餵’給這個網路,’訓練’它來找到一組能夠產生最佳輸出結果的加權值(Weights)。有一種最常用的’訓練法’稱為 Back-Propagation,它是把輸出結果與一個已知的正確結果相比。每次相比之後就產生另一組調整過的Weights,然後再產生一個新的輸出值再與該已知值相比。這個過程經過反覆的執行後,這個Neural Net就被’訓練’得能夠相當正確的做預測了。可是Neural Net有兩個問題。首先,Neural Net最受質疑的是它的’曖昧不明’的特性,也就是它做的預測所根據的因素並不明確。第二,Neural

Net對測試資料可以做相當正確的預測,但是對真實資料預測的準確性則較差。但是現在已經有一些新的技術可以改正這個缺點。Decision Tree則是利用一系列的規則來得到一個類別或數值。例如,你想把申請貸款的人歸類成’風險高’與’風險低’兩種。有了這個Decision

Tree,銀行的放款人員就可以審查申請人的條件,決定該人是屬於高風險或低風險群。例如’收入高於 40000’而且’高負債’的人會被歸為高風險之類,而’收入低於 40000’而且’工作超過 5年’則會被歸為低風險之類。Decision Tree現在相當普遍,因為它所做的預測相當正確,而且又比Neural Net容易瞭解。Decision Tree與Neural Net也可以用來做Regression,某些種類的Neural Net甚至可以用來做 Clustering。

Page 5: team1-SPSS-Clementine.doc

Regression是使用一系列的現有數值來預測一個連續數值的可能值。若將範圍擴大亦可利用 Logistic Regression來預測類別變數,特別在廣泛運用現代分析技術如類神經網路或決策樹理論等分析工具,推估預測的模式已不在止於傳統線性的侷限,在預測的功能上大大增加了選擇工具的彈性與應用範圍的廣度。Time-Series Forecasting與 Regression很像,只是它是用現有的數值來預測未來的數值。Time-Series Forecasting的不同點在於它所分析的數值都與時間有關。Time-Series Forecasting的工具可以處理有關時間的一些特性,譬如時間的階層性(例如每個禮拜五個或六個工作天)、季節性、節日、以及其他的一些特別因素如過去與未來的關連性有多少。Clustering是將資料分為幾組,其目的是要將組與組之間的差異找出來,同時也要將一個組之中的成員的相似性找出來。Clustering與Classification不同的是,你不曉得它會以何種方式或根據什麼來分類。所以你必須要有一個分析師來解讀這些分類的意義。Association是要找出在某一事件或是資料中會同時出現的東西 。Association主要是要找出下面這樣的資訊:如果 Item A是某一事件的一部份,則 Item B也出現在該事件中的機率有X%。(例如:如果一個顧客買了低脂乳酪以及低脂優酪乳,那麼這個顧客同時也買低脂牛奶的機率是 85%。)Sequence Discovery與Association關係很密切,所不同的是 Sequence

Discovery中相關的 Item是以時間區分開來(例如:如果做了X手術,則Y病菌在手術後感染的機率是 45%。又例如:如果A股票在某一天上漲 12%,而且當天股市加權指數下降,則 B股票在兩天之內上漲的機率是 68%)。

SPSS 產品介紹:SPSS Base 10.0

快速地讀取並分析大量的資料:SPSS Base 10.0中文視窗版可以比以前更容易,且快速地讀

取並分析大量的資料。而且可以解決在使用其他分析工具時可能遇到處理大筆資料的困難,這是因為 SPSS Base 10.0中文視窗版已經除去了檔案大小的限制。不論處理公司內部現有的或是從網路上下載的資料,都可以比以前更輕易地讀取並管理這些資料。

快速、簡易地準備分析資料:使用者無需了解 SQL,在將資料匯入 SPSS作分析之前,就

可以先把多個資料表結合起來,並預先準備資料。然後,使用SPSS Base 10.0中文視窗版內極具效率的資料編輯器來檢視資料,

Page 6: team1-SPSS-Clementine.doc

將資料與數值標記直接輸入格內。甚至可以將相似的變數特性同時分配給多個變數。

利用 report OLAP顯示最佳結果:OLAP技術將企業原來創造、分享資料的方法徹底地轉型 。

SPSS report OLAP比其它的OLAP系統擁有更強大的分析能力。在每一次作決策時,SPSS Base 10.0中文視窗版的 report OLAP功能,都能提供一個快速有彈性的方式來產生、區別及有效的運用資訊。

利用獨一無二的樞軸表技術,創造表格、圖形與報告方塊(report cube)。此獲獎技術能夠從資料中獲得全新的見解。並可以將報告方塊中的行、列或層任意對換,或快速改變圖中的資料與統計量,讓使用者對資料有更新一層的了解。只要按幾下滑鼠,甚至可以將表格轉變成圖形。

運用詳盡完整的分析技術來分析資料:超過一般的摘要統計量與行列運算,SPSS Base 10.0中文視窗

版為基礎統計分析提供了最受歡迎的統計方法,其中包括了總計、計算、交叉表、分群、描述性統計量、因子分析、迴歸與群集分析,而且在分析結束後,還可以將資料寫回資料庫。

利用互動式圖形,分析結果顯而易見:利用互動式圖形,可以改善溝通並能自訂分析方法。雖然,基本

的條形圖與線性圖形,可以輕易地看到不同群組之間的比較。但是加上區域條形圖與相關/複選題圖形,可以使分析結果的分享更加容易。

將分析結果傳遞出來,讓獲益達到最大:為了能夠真正受惠於分析結果,必須將分析結果傳遞出去 。

SPSS是資訊分佈工具中的領導品牌。旗下產品如What if與SmartViewer等各產品,可以將分析結果傳至知道如何利用的人手上,讓客戶與同僚都能夠掌控資訊並立即與分析結果產生互動。

充分地利用龐大問卷資料與資料庫:分析大型資料庫已縮減的暫存檔空間可加快資料分析的速度新的資料編輯器能讓資料管理更容易自動重新編碼功能將字串變數自動轉換成數值變數

資料讀取:免轉換/免複製的 SQL DBMS資料讀取方式從一個桌面上執行多個活動讀取現有的 Excel資料

Page 7: team1-SPSS-Clementine.doc

統計量:以 XML格式輸出並配置模式結果利用ROC比較各種檢定的準確性與估計誤差

加強的圖形與輸出功能:SPSS Maps 10.0中文視窗版替 SPSS的統計分析加入了連結地圖的功能。可將範圍內 IGRAPHs的整個畫面剪貼並列印增強處理統計量的能力及成果

主要功能:簡單因子 ANOVA模型 相關分析 集群分析 交叉分析曲線估計 描述性統計量 判別分析 預檢資料因子分析 配適度分析 次數分配 線性迴歸比較平均數 模式建立統計量 無母數檢定 多元尺度法複選題分析 單因子 ANOVA 偏相關分析 Proximities

K平均數集群分析 可信度分析 綜合報表 T檢定

Regression Models 10.0

預測類別性的反應變數:當結果不是連續性資料時,SPSS Regression Models 10.0中

文視窗版包含多種迴歸技術可供選用。當結果是二分法的資料時,如是/否的答案,可使用二項式 logistic迴歸。當結果為多元類別資料時,如顧客購買了甲產品、乙產品、或丙產品,可以使用多項式logistic迴歸來作分析。此外,要檢定一刺激物的強度與對此刺激物產生特定反應的觀察值比例之間的關係,可使用 Probit分析。

使用進階的迴歸技術:SPSS Regression Models 10.0中文視窗版提供多種功能超強

的迴歸技術供選擇。非線性迴歸可以估計模式的任意關係或非線性關係;加權最小平方法允許較多的加權值,讓使用者獲得在序列中更精確或更可信的測量結果;兩階段最小平方法可幫助在分析時間性資料時,控制預測變數和錯誤項之間的相關性。

主要功能:多項式 logistic迴歸

二項式 logistic迴歸 Probit

受限的非線性迴歸

非受限的非線性迴歸

加權最小平方法

二階段最小平方法

Page 8: team1-SPSS-Clementine.doc

Neural Connection 2.1

快速輕易地建立模型:提供Neural Connection 2.1的直觀功能和圖示作業環境,只

需從調色盤工具中選擇並連結所需的工具,Neural Connection 2.1

便自動建立模型。這種圖示化的作業環境讓隱藏在模型背後的邏輯性顯而易見,並且能以不同模型分析來檢視輸出結果。

探討及應用模型:Neural Connection 2.1利用WhatIf?工具對模型提供敏感度分

析,只需輕按滑鼠幾下,便能將連鎖的類神經網路應用在新資料上來獲取預測和分類。並以最終連鎖網路結果來紀錄模型。Neural Connection 2.1同時利用WhatIf?工具對資料作最佳輸出。此工具透過全彩的等高線區塊、cross section區塊、及原文說明註解方便檢視模型分析。WhatIf?工具也可以透過改變輸入變數的階層來檢視對輸出變數的影響。

主要功能:

四大類神經網路工具:

Bayesian Network

Multi-Layer Perceptron

Radial Basis Function

Kohonen Network

三種統計工具:

Multiple Linear Regression

Closest Class Means Classifier

Principal Component Analysis

繪圖輸出:

3D等高線圖WhatIf?圖時間序列圖

AnswerTree

AnswerTree 2.1英文視窗版可廣泛運用在下列情況:1.行銷:建立顧客決策樹模型和市場區隔

2.直效行銷:找出最有可能回應宣傳促銷的顧客群

3.教學研究:建立學生的特性區隔

Page 9: team1-SPSS-Clementine.doc

4.信用度評等:找出可能拖欠貸款的人

5.生物醫學研究:建立不同病人與處方的反應的特性區隔

6.品質改善:找出造成缺點的原因

空前的分析能力:使用 AnswerTree 2.1視窗版將能做出最明智的決策,因為可針對

每一種情況,選用最適當的統計方法。沒有任何其他決策樹產品擁有這麼多功能強大且有效率的運算法則。

1. CHAID – 一個快速多層的統計決策樹演算法,有效率展現資料內涵2. Exhaustive CHAID – 利用多層的統計決策樹方法作精確的資料內涵檢視

3. Classification & Regression Tree– 一個完整的二元樹演算法,方便區隔資料,以及產生正確的同質性群組集合

4. Quest – 一個統計的演算法則,可以不偏的做變數選擇,並且能快速有效地建立一個正確的二元樹模型。為了更快更有精準,Quest分不同階段的執行變數選擇和分隔點選擇。

隨著每一種演算方法,將發現所有重要的關係和相互影響。因為AnswerTree 2.1幫助評估每個不同變數和各種可能數值的組合變化,並且產生具統計顯著性的彼此特性不同的子群組。

快速發現重要關係:AnswerTree 2.1利用直覺的樹狀圖,顏色分類圖,和表格協助輕

鬆確認和評估區隔。使用者可以利用樹狀圖立即獲取資料中的群組,透過獲益圖,也能夠方便地在不同區隔之間作成本和效益的比較,並找出最佳獲利之區隔。

建立最佳模型:AnswerTree 2.1是一套容易操作的工具軟體,讓工作起來更有效

率。利用 AnswerTree互動式介面,可以很快依特定的情況來調整模式除此之外,可以利用部分資料先為模式做訓練,然後利用其他部分的資料測試此模式的可信度。如此將能夠更有自信地做出更好的決策。透過決策規則的輸出,可以將模式應用到新取得的資料的評等上。針對所希望的群組區隔將資料萃取出來,並將焦點集中在這些最佳的目標上。

AnswerTree 2.1視窗版擁有功能強大的演算方法、容易使用、和令人印象深刻的展示特性,以更有智慧更有效率的方式協助發覺資料的內涵。因此 AnswerTree 2.1視窗版是一套無可取代的決策樹分析工具。能夠處理更多的資料量:

Answer Tree的演算法則已能處理大量的資料,當使用 Answer Tree

來分析消費區隔或描述,Answer Tree大量資料處理能力能夠迅速地發現資料所隱含的模式和趨勢。此外,Answer Tree省時的特性還包括:1. 利

Page 10: team1-SPSS-Clementine.doc

用更簡易的整體包裝製作模式重新執行決策樹模型的處理程序。2. 當Answer Tree 3.0在整體包裝製作模式下,所使用的記憶體更少,因此執行速度將可大幅提昇。更容易使用的圖形化介面:

Answer Tree 3.0結合輸出結果,讓您更輕易地了解決策樹模型。現在3.0版的決策樹節點可以任意收合及展開,決策樹擁有更容易的縮放檢視功能,在列印之前能夠一次預覽數頁等多項功能。增強的圖形輸出:

Answer Tree 3.0新增的評估圖功能,提供視覺化的描繪,可輸出Gains、Risk、Lift、Profit、和ROI圖形。根據評估圖,可建立多個模型並利用評估圖幫助在產品銷售中發現銷售模式及趨勢。無論是在哪種情況下,增強的圖形輸出都能幫助了解決策樹模型的效能。

評估圖可以在使用者面前展示Gains Summary Table的圖形化描繪,讓使用者藉由圖形更了解所建立之模型的效能。

因此,根據工作需要,可選擇不同種類的視覺化描繪圖。現在Answer

Tree 3.0提供五種更多樣的評估圖,包括:Gains、Risk、Lift、Profit、以及ROI圖可供選擇。主要功能:

CHAID

Exhaustive CHAID

Classification & Regression Tree

QUEST

ODBC精靈

可直接讀取 SPSS、SYSTAT、Business Query、和Oracle Express多種

檔案分類的表格

獲益圖

具有分割資料與驗證功能

設定成本、收益、或情況成為目標變數

Page 11: team1-SPSS-Clementine.doc

有交叉驗證特性

程式語法透過 SPSS Macro和 SQL Code以檢查決策規則

能夠將決策樹複製到其他應用程式成為 BMP檔或Windows META檔

自動模式

DecisionTime & WhatIf

輕鬆自動得到可信賴的數據:使用DecisionTime的預測精靈,只要三個步驟輕鬆容易地就能得到最

佳預測結果。只需簡單地打開資料,選擇所想預測的項目,再執行 Expert

Modeler。Expert Modeler利用預測演算法自動找出最適合資料之計算方式,提供最值得信賴的預測。透過新增的預測先期指標、事件、及互動影響因素功能,可以增加第一手資料來獲得對未來更完整的描述。執行預測:

WhatIf? 1.0英文視窗版能更容易地探討其他可選擇的方案,以及比較不同的經營方式對未來會有何不同影響。因此,DecisionTime和WhatIf? 能夠讓更多需要以最短時間對未來做最有效決策的人得到他們所需的資訊。主要功能:

Expert Modeler – 自動選用最適合的預測方式

Smart Help – 利用資料提供最合適的範例

強大資料庫可讀取 Excel、SPSS、Text、和ODBC等多種檔案格式

提供資料收合功能、保留最近幾期資料不用在模型建立上、以及容易更

新資料

建立互動影響因素的時間序列預測

增加事件、互動影響因素、及預測先期指標的功能

Clementine

藉由資料挖掘學習過去的經驗:資料挖掘能夠發覺資料間的關係和趨勢,開創新的商機,將企業運作

Page 12: team1-SPSS-Clementine.doc

得更完善。從事前所訂立的企業目標開始,例如:誰是最適當的客戶?資料挖掘加速了整體的學習經驗。讓使用者取得作決策的重要資訊,並且贏得競爭優勢。

找出最佳解決方案:使用Clementine,將能得到其他資料挖掘軟體或OLAP軟體所無法提供的解決方案。一旦訂定了一個特定的商業問題,Clementine能夠結合企業組織內二個最有價值的資產:資料和商業知識,來產生包含洞見的最佳預測模型。使用者的資料就是企業組織過去的完整記錄,而且只有第一手知識能夠瞭解這些資料,利用Clementine的結合,資料和知識可以轉化成企業最佳模型,一旦執行,將帶來實質上的利益,例如:銷售的增加,成本的減少,或者是程序的改進。

視覺化的資料挖掘啟發決策力:Clementine視覺化的介面,引導在資料挖掘的互動式流程進行每一步驟。即使改進企業組織的機會隱藏在數量龐大的資料背後,Clementine

依然有辦法抽絲剝繭將結果快速輸出。Clementine能夠讓使用者:將顧客分類在不同的族群,例如:高/低獲利、不忠誠/忠誠判別個案中是否隱藏不實的資料因素預測銷售或服務的習慣找出相似的顧客族群或公民提供『購物籃分析』來發掘哪些種類的產品或服務會被消費者同時考慮購買找出時間的關係和趨勢,例如:結婚之後,人們會購買保險執行其他工作來達到CRM顧客關係管理、風險分析、以及異常偵測…等目標。

運用第一手的知識找出解決方案:唯有深入了解企業,才能替企業問題找出解決之道。這就是為何Clementine的資料挖掘流程的設計,在每一步均要求第一手知識的介入的原因。

在尋找解決之道的過程中建立專業知識:由於每天流入組織的資料不斷增加,Clementine視覺化的介面能夠利用公司每日的運作和與顧客的互動來找出解決方案。Clementine利用一個串列,它視覺化與資料挖掘流程對應,藉由建立串列、與串列互動,將容易的瞭解整個計劃並快速的取得靈感與洞見。Clementine的互動性同樣延伸至圖形,當某個關係引起使用者的興趣時,可利用圖形選取特定的圖形區域來分析研究,並將發現的結果插入串列中以便更接近目標。

Page 13: team1-SPSS-Clementine.doc

利用良好的模型技術來探索機會:Clementine透過一系列優良的模型技術協助在最短時間內找出最佳的結果。Clementine的多種分析能夠快速產生出多種不同型態的模型,針對所面對的問題來確認一個最佳模型或結合數個模型。

運用快速的知識探索縮短尋找解決方案的時間:有了Clementine,使得發展更有效率的資料挖掘解決方案成為可能,因為它能夠讓使用者與大量的資料互動。Clementine在整個資料挖掘得流程中,將一些工作交給企業資料庫或功能更強大的伺服器來處理,以極高的效率視覺化、檢視、處理大量的資料。

讓解決方案實際可行,並且將投資報酬率最大化:如果企業組織沒有完全使用模型,便無法從資料挖掘的投資中得到完整的價值。現今資料挖掘大都著重在得出正確的答案,好的答案固然重要,但更重要的是解決方案真正可行,如此一來才能真正達到資料挖掘的真正目的。例如,即時避免不實的交易行為,或是即時抓住最佳獲利的客戶。

運用策略執行將資料挖掘的投資報酬率最大化:通常資料挖掘的結果都是以紙張列印給決策者參考,或是將顧客清單交付郵寄。雖然這些都是重要的執行方式,但若以策略執行方式進行,Clementine能夠針對企業組織的個別需求提供不同選擇,以便更進一步幫助將資料挖掘的投資報酬率最大化。由於改進企業的機會片刻都可能發生在組織的四周,因此決策者必須最適當的時機做出最佳的決策。例如既有客戶與潛在客戶有可能正透過瀏覽網站來搜尋適當的服務,只有以資料挖掘所產生的解決方案能即時執行,才能及時的掌握商機。

讓解決方案在每個交易中確實執行:Clementine Solution Publisher快速的執行選項將最佳的預測模型整合在企業運作上,以便在每次交易中發揮他的的價值。有了產生的模型,前線的管理者可以將新的資訊加入模型,在每日的活動中加速回收。或者模型亦可當作分析引擎,讓網站及客服中心人員能夠適時的提供最適當的產品或服務給顧客。Clementine如何用最低的成本將結果傳遞給使用者:發布解決方案去達到您的資料挖掘目標是容易的。首先,分析師透過Clementine視覺化的工作環境來建立最佳模型。分析人員把Clementine Solution Publisher node加在Clementine流程中來產生發布一個獨立可執行的應用程式所需的所有檔案。其次,分析師便可找出最需要的地方來發布解決方案(無論是資料庫或是與客戶接觸的最前線)。最後,決策者將結果回饋給分析人員來不斷改進解決方案。Clementine Solution Publisher是唯一能將整個資料挖掘流程轉匯成立

Page 14: team1-SPSS-Clementine.doc

即可執行方案的工具。

Page 15: team1-SPSS-Clementine.doc

Clementine Solution Publisher成為最低成本的因素:避免了昂貴的處理過程

Clementine Solution Publisher在您的資料挖掘過程中為每一個過程步驟產生編碼或 SQL,而不是模型本身而已。您避免了執行這些操作步驟所需的昂貴的程式開發工作和時間。容易維持控制成本的改變在Clementine中改變流程來維護資料挖掘的應用以及再次發布整個資料挖掘的程序。藉著維持資料挖掘應用的容易性,將企業組織的資源最大化。藉著『良性循環』不斷地改進資料挖掘的程序Clementine Solution Publisher能夠在資料挖掘的程序中『良性循環』一旦資料挖掘的解決方案被執行,分析人員能夠實地監控解決方案在新資料上的實際效果。然後,分析人員可以調整Clementine流程以便增加解決方案的效果。它能夠讓整個企業組織不斷更新資料挖掘程序以及讓決策者不斷更新解決方案。因此,Clementine Solution

Publisher是市面上獨一無二的資料挖掘工具軟體。

結語:

SPSS的 Clementine所提供之功能選擇眾多,可因資料的不同,採用不同的工具進行資料採礦,尤其是提供使用者自訂流程,讓使用者有相當大的修改便利性。此外,在輸出部分,也有相當不錯的圖形輸出效果讓使用者可以得到所需要的資料採礦報告。除了選擇合適的工具,如何輕鬆的駕馭這些工具,也是相當令人傷腦筋的,因為其中牽涉到極高度的專業背景與技術執行能力。以資料探勘為例,除了軟體工具外,還要有相關的知識與經驗,才知道如何處理原始資料、設定探勘參數、解釋探勘結果。企業在選擇配合廠商時,也要將業者所提供的技術支援、咨詢服務與教育訓練等條件納入考量。

參考資料來源:

•www.spss.com

•www.sinter.com.tw

•www.datamining.org.tw