Perbedaan Data Mining Dengan KDD

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :Data MiningKnowledge Discovery In Database

1. Merupakan salah Satu step KDDTahapan Dalam :1. Data Selection ( Pemilihan Data )2. Data Cleaning ( Pebersihan Data ), merupakan data Optional ( Pilihan )3. Adanya Proses data Transformasi ( Perubhan nilai data ), merupakan data Optional ( Pilihan ) Tahapan 1,2,3 merupakan data Procesing4. Data Mining5. Eavaluation of Knowledge6. Representation of Knowladge1. If ... Then2. Grapht ( 2D 3D )3. Hierachy4. Decision Tree

Ket :Data Mining :

DBProses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di dalam database berukuran besar.

KnowlageData Mining

Standart mathematikaTeknik AINeural NetworkFuzzy LogicAlgoritma GenetikRhouge SetSoft Set

Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan persentasi )

Rule Assosiation : Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di dalam database

Bentuk umum :X --------- Y [ Support, Confidence ] Nilai yang digunakan untuk mengevaluasi rule asosiasi

Prinsip Concept :1. Support x --- y = X U Y N --- Jumlah Transaksi

Support y --- x = Y U X N --- Jumlah TransaksiKet : Support x - -- y = Suport y --- x

2. Confidence x --- y = Support x --- y Support x

Confidence y --- x = Support y --- x Support yKet : Confidence x --- y # Confidence y --- x

3. Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >= Minimum Support Dan Confidence >= Minimum Confidence.

Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh DOMAIN EXPERT.

X ---- Y [ Support, Confidence ]

Contoh :1. Nilai minimum Support = 50%Nilai Minimum Confidence = 50%Transaction Item Bought

2000A,B,C

1000A,C

4000A,D

5000B,E, F

Jawab :Support x --- y = X U Y = 2 = 0,5 = 50 % N 4Support y --- x = Y U X = 2 = 0,5 = 50 % N 4Confidence x --- y = Support x --- y = 2 /4 = 2/3 = 0,666 = 66,7 % Support x 3/4

Confidence y --- x = Support y --- x = 2 /4 = 2/2 = 1 = 100 % Support y 2/4Jadi : MakaA ---- C Support { 50%, 66,6% } merupakan InteristingC ---- A Support { 50%,100% }

Association Rule Algoritma : APRIORI :Input : Database Transaksi Output : Assosiation Rule

Proses :1. Menentukan FREQUENT ITEMSETSItem atau set of item yang mempunyai support >= minimum support.Catatan : 1. Subset dari Frequent item set harus merupakan frequent item set.Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item set.2. Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.

2. Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan RuleAsosiasi. Contoh :Transaction Item Bought

2000A,B,C

1000A,C

4000A,D

5000B,E, F

1. Menentukan Frequent Item Seta. 1- Item SetItem Support

A = 75%Merupakan Foundensial Item Set

B2/4 = 50%

C2/4 = 50%

D = 25%

E = 25%

F = 25%

b. 2-Item SetItem Support

A,B1/4 = 25%

A,C2/4 = 50%Merupakan Foundensial Item Set

B,C1/4 = 25%

2. Menggunakan Fourent Item Set ( mulai dari item set ).A --- C { s = 50%, C = 66,7% }C --- D { s = 50%, C = 100% }

A --- C dan C --- A merupakan Interisting Assosiation Rules

Program Yang digunakan : Untuk Asosiation : XL Miner, WEKA, dan TANAGRA Untuk Rought Set : Roseta, Rose2, dan Rsfs

ROUGHT SET TEORY DAN DATA MINING

KnowlageIF --- ThenDBRought Set

Proses Rought Set :1. Decision System2. Equivalence Class3. Discervnibility Matrix / Discernibility Matrix Modulo D4. Reduction5. Generate Rules ( Knowladge => IF .. Then ...

Penyajian data Dalam Rought Set ( RS ) :1. Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )IS = { U,A }, ket : U = object, A = Kondisional Atribut

2. Descision System ( DS ), DS = { U, (A,C)}, ket : U = objek, A = kondisional Atribut ( A1, A2, ... An-1 )C = Decision Atribut ( An )

Atribut dalam RS :1. Condisional Atribut2. Decision Atribut

Atribut dalam Databese/information system :1. Atribut Key2. Atribut non Key

Rought set :1. Decision System 2. Equivalen ClassDengan menentukan Kondisi pada atribut yang samaSoal : Pada Slide Rought Set, Hal : 9 , tablePenyelesaian :1. Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):E1, E5, E6E2, E99E3E4, E7, E100E8, E9, E102. Menentukan Equevalen Yang TerbentukStudies ( A )Education ( B )Work ( C )Income

Ec1PoorSMUPoorNone

Ec2PoorSMUGoodLow

Ec3ModeratSMUPoorLow

Ec4ModeratDiplomaPoorLow

Ec5,1GoodMscGoodMedium

Ec5,2GoodMscGoodHight

3. Discernibilyty MatrixDengan melihat kondisi yang berbedaEc1Ec2Ec3Ec4Ec5

Ec1XCAABABC

Ec2CXACABCAB

Ec3AACXBABC

Ec4ABABCBXABC

Ec5ABCABABCABCX

Mis : i = 1 dan j = 4Ec1Ec2

Ec1XStudy dan Education

Ec2Study dan EducationX

Discernibility Matrix Modulo DDengan melihat perbedaan pada keputusan dan kondisi yang berbedaEc1Ec2Ec3Ec4Ec5

Ec1XCAABABC

Ec2CX AB

Ec3A X ABC

Ec4AB XABC

Ec5ABCABABCABCX

4. Reduction1. Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :a. Cara pencarian dalam bentuk booleean :Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan ) Untuk Nilai : AA = A A + AB = A ( 1+B ), dimana ( 1+B ) = 1 = AMenentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):1. C ^ A ^( A v B ) ^ ( A v B v C )Cara menyederhanakan :C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB * BC = CA * A * AB * AC * BA * B * BC = C ( 1 + A ) 2. C ^ ( A v B )Cara menyederhanakan :C * ( A + B ) = CA + CB = 3. A ^ ( A v B v C )Cara menyederhakan :A ^ ( A v B v C ) = AA + AB + AC = A + AB + AC = A ( 1 + B ) + AC = A + AC = A ( 1 + C ) = A4. ( A v B ) ^ ( A v B v C )Cara menyederhanakan :

5. ( A v B v C ) ^ ( A v B )Cara menyederhanakan :

Jadi : Hasil Reduction :1. {A,C} = { Studies, Works }2. {B,C} = { Education, Works }3. { A } = { Studies }4. { B } = { Education }

5. Generade Rules Dengan mengunkan atribut Reducta. { Studies, Work }1. IF Studies = Poor and Work = Poor, Then Income = Low2. IF Studies = Poor and Work = Good, Then Income = Low3. IF Studies = Moderate and Work = Poor, Then Income = Low4. IF Studies = Good and Work = Good, Then Income = Medium Or Income = Good

b. { Education, Work }1. IF Education = Smu and Work = Poor, Then Income = None2. IF Education = Smu and Work = Good, Then Income = Low3. IF Education = Diploma and Work = Poor, Then Income = Low4. IF Education = Msc and Work = Good, Then Income = Medium Or Income = Hight

c. { Studies }1. IF Student = Poor Then Income = None Or Income = Low2. IF Student = Moderate Then Income = Low3. IF Student = Good Then Income = Medium Or Income = Hight

d. { Education }1. IF Education = Smu then Income = None Or Income = Low2. IF Education = Diploma then Income = Low3. IF Education = Msc then Income = Medium Or Income = Hight

Jadi : Terdapat 14 pengetahuan.......

Tugas :1. Analisa Hasil yang di peroleh oleh Roseta : LHS Support Jumlah object yang memenuhi bagian if RHS Supoort Jumlah object yang memenuhi bagian then RHS Accuracy LHS Coverage= RHS Coverage= RHS Stability= LHS Lenght= Jumlah atribut pada bagian if RHS Lenght= Jumlah atribut pada bagian then

2. Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau tidak dengan Discrinibility Matrix Modulo D?Data CleningIncomplete completeCaranya :1. Remove incomplete data2. Mean and mode FillMean untuk nilai angka(continius)Modus untuk nilai categorical

Data transformation A = (pa2Vpa3Vpa4Vpb2)(pa2Vpa3Vpb2Vpb3)(pa3Vpb1Vpb2Vpb3) (pa1Vpa4Vpb1Vpb2)Sistem akan mengambil No 1Kita menguji no 4

pa1Vpa4Vpb1Vpb2Aabd

U10,821

U210,50

U31,330

U41,411

U51,420

U61,631

U71,311

Aabd

U1*,1.21.5,*1

U2*,1.2*,1.50

U31.2,1.41.5,*0

U41.4,1.5*,1.51

U51.4,1.51.5,*0

U61.5,*1.5,*1

U71.2,1.4*,1.51

Algoritma MD-Heuristic Langkah- langkah :1. Menyiapkan tabel , Misal tabel A, berdasarkan Discernibility formula2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak3. Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya angka 14. Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP

A* Pa1 Pa2 Pa3 Pa4 Pb1 Pb2 Pb3 D*

(U1,U2) 1 0 0 0 1 1 0 1

(U1, U3) 1 1 0 0 0 0 1 1

(U1, U5) 1 1 1 0 0 0 0 1

(U4, U2) 0 1 1 0 1 0 0 1

(U4, U3) 0 0 1 0 0 1 1 1

(U4, U5) 0 0 0 0 0 1 0 1

(U6, U2) 0 1 1 1 1 1 11

(U6, U3) 0 0 1 1 0 0 0 1

(U6, U5) 0 0 0 1 0 0 1 1

(U7, U2) 0 1 0 0 1 0 0 1

(U7, U3) 0 0 0 0 0 1 1 1

(U7, U5) 0 0 1 0 0 1 0 1

New 0 0 0 0 0 0 0 1

Jumlah angka 1356

Perbedaan Data Mining Dengan KDD

Documents

Transcript of Perbedaan Data Mining Dengan KDD