Perbedaan Data Mining Dengan KDD

12
Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) : Data Mining Knowledge Discovery In Database 1. Merupakan salah Satu step KDD Tahapan Dalam : 1. Data Selection ( Pemilihan Data ) 2. Data Cleaning ( Pebersihan Data ), merupakan data Optional ( Pilihan ) 3. Adanya Proses data Transformasi ( Perubhan nilai data ), merupakan data Optional ( Pilihan ) Tahapan 1,2,3 merupakan data Procesing 4. Data Mining 5. Eavaluation of Knowledge 6. Representation of Knowladge 1. If ... Then 2. Grapht ( 2D – 3D ) 3. Hierachy 4. Decision Tree Ket : Data Mining : Proses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di dalam database berukuran besar. Standart mathematika Teknik AI Neural Network Fuzzy Logic Algoritma Genetik DB Data Mining Knowlage

description

perbedaan data mining dengan kdd

Transcript of Perbedaan Data Mining Dengan KDD

Perbedaan data Mining dengan KDD (Knowledge Discovery In Database ) :Data MiningKnowledge Discovery In Database

1. Merupakan salah Satu step KDDTahapan Dalam :1. Data Selection ( Pemilihan Data )2. Data Cleaning ( Pebersihan Data ), merupakan data Optional ( Pilihan )3. Adanya Proses data Transformasi ( Perubhan nilai data ), merupakan data Optional ( Pilihan ) Tahapan 1,2,3 merupakan data Procesing4. Data Mining5. Eavaluation of Knowledge6. Representation of Knowladge1. If ... Then2. Grapht ( 2D 3D )3. Hierachy4. Decision Tree

Ket :Data Mining :

DBProses pengekstraksian powerful / interesting knowlage dari data yang tersimpan di dalam database berukuran besar.

KnowlageData Mining

Standart mathematikaTeknik AINeural NetworkFuzzy LogicAlgoritma GenetikRhouge SetSoft Set

Membaca dan Memahami Jurnal ( membuat peper dan di publis dengan melakukan pembayaran ) dan Prosiding ( membuat paper dan dikrim melalui seminar dan melakukan persentasi )

Rule Assosiation : Assosiasi / korelasi dari sejumlah item ( set of items ) dari data yang tersimpan di dalam database

Bentuk umum :X --------- Y [ Support, Confidence ] Nilai yang digunakan untuk mengevaluasi rule asosiasi

Prinsip Concept :1. Support x --- y = X U Y N --- Jumlah Transaksi

Support y --- x = Y U X N --- Jumlah TransaksiKet : Support x - -- y = Suport y --- x

2. Confidence x --- y = Support x --- y Support x

Confidence y --- x = Support y --- x Support yKet : Confidence x --- y # Confidence y --- x

3. Sebuah rule asosiasi dikatakan Interisting apabila mempunyai Support >= Minimum Support Dan Confidence >= Minimum Confidence.

Catatan : Nilai minimum Support dan minimum confidence ditentukan oleh DOMAIN EXPERT.

X ---- Y [ Support, Confidence ]

Contoh :1. Nilai minimum Support = 50%Nilai Minimum Confidence = 50%Transaction Item Bought

2000A,B,C

1000A,C

4000A,D

5000B,E, F

Jawab :Support x --- y = X U Y = 2 = 0,5 = 50 % N 4Support y --- x = Y U X = 2 = 0,5 = 50 % N 4Confidence x --- y = Support x --- y = 2 /4 = 2/3 = 0,666 = 66,7 % Support x 3/4

Confidence y --- x = Support y --- x = 2 /4 = 2/2 = 1 = 100 % Support y 2/4Jadi : MakaA ---- C Support { 50%, 66,6% } merupakan InteristingC ---- A Support { 50%,100% }

Association Rule Algoritma : APRIORI :Input : Database Transaksi Output : Assosiation Rule

Proses :1. Menentukan FREQUENT ITEMSETSItem atau set of item yang mempunyai support >= minimum support.Catatan : 1. Subset dari Frequent item set harus merupakan frequent item set.Mis : { A,B } adalah frequent item set maka {A} dan {B} juga harus frequent item set.2. Penemuan Frequen item set dimulai dari 1-Item s/d K-Item set.

2. Menggunakan Frequent Item Set ( mulai dari 2-Item set ) untuk mendapatkan RuleAsosiasi. Contoh :Transaction Item Bought

2000A,B,C

1000A,C

4000A,D

5000B,E, F

1. Menentukan Frequent Item Seta. 1- Item SetItem Support

A = 75%Merupakan Foundensial Item Set

B2/4 = 50%

C2/4 = 50%

D = 25%

E = 25%

F = 25%

b. 2-Item SetItem Support

A,B1/4 = 25%

A,C2/4 = 50%Merupakan Foundensial Item Set

B,C1/4 = 25%

2. Menggunakan Fourent Item Set ( mulai dari item set ).A --- C { s = 50%, C = 66,7% }C --- D { s = 50%, C = 100% }

A --- C dan C --- A merupakan Interisting Assosiation Rules

Program Yang digunakan : Untuk Asosiation : XL Miner, WEKA, dan TANAGRA Untuk Rought Set : Roseta, Rose2, dan Rsfs

ROUGHT SET TEORY DAN DATA MINING

KnowlageIF --- ThenDBRought Set

Proses Rought Set :1. Decision System2. Equivalence Class3. Discervnibility Matrix / Discernibility Matrix Modulo D4. Reduction5. Generate Rules ( Knowladge => IF .. Then ...

Penyajian data Dalam Rought Set ( RS ) :1. Informasion System ( IS ), memiliki semua atribut kondisi ( condisional Atribut )IS = { U,A }, ket : U = object, A = Kondisional Atribut

2. Descision System ( DS ), DS = { U, (A,C)}, ket : U = objek, A = kondisional Atribut ( A1, A2, ... An-1 )C = Decision Atribut ( An )

Atribut dalam RS :1. Condisional Atribut2. Decision Atribut

Atribut dalam Databese/information system :1. Atribut Key2. Atribut non Key

Rought set :1. Decision System 2. Equivalen ClassDengan menentukan Kondisi pada atribut yang samaSoal : Pada Slide Rought Set, Hal : 9 , tablePenyelesaian :1. Menentukan Atribut kondisi yang sama ( Studies, Education, Works ):E1, E5, E6E2, E99E3E4, E7, E100E8, E9, E102. Menentukan Equevalen Yang TerbentukStudies ( A )Education ( B )Work ( C )Income

Ec1PoorSMUPoorNone

Ec2PoorSMUGoodLow

Ec3ModeratSMUPoorLow

Ec4ModeratDiplomaPoorLow

Ec5,1GoodMscGoodMedium

Ec5,2GoodMscGoodHight

3. Discernibilyty MatrixDengan melihat kondisi yang berbedaEc1Ec2Ec3Ec4Ec5

Ec1XCAABABC

Ec2CXACABCAB

Ec3AACXBABC

Ec4ABABCBXABC

Ec5ABCABABCABCX

Mis : i = 1 dan j = 4Ec1Ec2

Ec1XStudy dan Education

Ec2Study dan EducationX

Discernibility Matrix Modulo DDengan melihat perbedaan pada keputusan dan kondisi yang berbedaEc1Ec2Ec3Ec4Ec5

Ec1XCAABABC

Ec2CX AB

Ec3A X ABC

Ec4AB XABC

Ec5ABCABABCABCX

4. Reduction1. Dilihat dari Modulo D dan Matrix, dengan mengunakan aljabar Boolean :a. Cara pencarian dalam bentuk booleean :Ket : ^ = * ( Perkalian ), dan V = + ( Penjumlahan ) Untuk Nilai : AA = A A + AB = A ( 1+B ), dimana ( 1+B ) = 1 = AMenentukan nilai boolean paada Modulo D, apabila ada yang memiliki nilai yang sama di ambil salah satunya contoh { ( A v B v C ) ^ ( A v B v C ) maka (A v B v C):1. C ^ A ^( A v B ) ^ ( A v B v C )Cara menyederhanakan :C * A * ( A + B ) * ( A + B + C ) = C * A * AA * AB *AC * BA * BB * BC = CA * A * AB * AC * BA * B * BC = C ( 1 + A ) 2. C ^ ( A v B )Cara menyederhanakan :C * ( A + B ) = CA + CB = 3. A ^ ( A v B v C )Cara menyederhakan :A ^ ( A v B v C ) = AA + AB + AC = A + AB + AC = A ( 1 + B ) + AC = A + AC = A ( 1 + C ) = A4. ( A v B ) ^ ( A v B v C )Cara menyederhanakan :

5. ( A v B v C ) ^ ( A v B )Cara menyederhanakan :

Jadi : Hasil Reduction :1. {A,C} = { Studies, Works }2. {B,C} = { Education, Works }3. { A } = { Studies }4. { B } = { Education }

5. Generade Rules Dengan mengunkan atribut Reducta. { Studies, Work }1. IF Studies = Poor and Work = Poor, Then Income = Low2. IF Studies = Poor and Work = Good, Then Income = Low3. IF Studies = Moderate and Work = Poor, Then Income = Low4. IF Studies = Good and Work = Good, Then Income = Medium Or Income = Good

b. { Education, Work }1. IF Education = Smu and Work = Poor, Then Income = None2. IF Education = Smu and Work = Good, Then Income = Low3. IF Education = Diploma and Work = Poor, Then Income = Low4. IF Education = Msc and Work = Good, Then Income = Medium Or Income = Hight

c. { Studies }1. IF Student = Poor Then Income = None Or Income = Low2. IF Student = Moderate Then Income = Low3. IF Student = Good Then Income = Medium Or Income = Hight

d. { Education }1. IF Education = Smu then Income = None Or Income = Low2. IF Education = Diploma then Income = Low3. IF Education = Msc then Income = Medium Or Income = Hight

Jadi : Terdapat 14 pengetahuan.......

Tugas :1. Analisa Hasil yang di peroleh oleh Roseta : LHS Support Jumlah object yang memenuhi bagian if RHS Supoort Jumlah object yang memenuhi bagian then RHS Accuracy LHS Coverage= RHS Coverage= RHS Stability= LHS Lenght= Jumlah atribut pada bagian if RHS Lenght= Jumlah atribut pada bagian then

2. Lakukan Proses Reduct Berdasarkan Discrinibility Matrix, apakah hasilnya sama atau tidak dengan Discrinibility Matrix Modulo D?Data CleningIncomplete completeCaranya :1. Remove incomplete data2. Mean and mode FillMean untuk nilai angka(continius)Modus untuk nilai categorical

Data transformation A = (pa2Vpa3Vpa4Vpb2)(pa2Vpa3Vpb2Vpb3)(pa3Vpb1Vpb2Vpb3) (pa1Vpa4Vpb1Vpb2)Sistem akan mengambil No 1Kita menguji no 4

pa1Vpa4Vpb1Vpb2Aabd

U10,821

U210,50

U31,330

U41,411

U51,420

U61,631

U71,311

Aabd

U1*,1.21.5,*1

U2*,1.2*,1.50

U31.2,1.41.5,*0

U41.4,1.5*,1.51

U51.4,1.51.5,*0

U61.5,*1.5,*1

U71.2,1.4*,1.51

Algoritma MD-Heuristic Langkah- langkah :1. Menyiapkan tabel , Misal tabel A, berdasarkan Discernibility formula2. Memilih kolom dari tabel A yang mepunyai angka 1 paling banyak3. Menghapus Kolom yang dipilih pada step 2 dan semua baris dari kolom tersebut yang punya angka 14. Jika tabel belum kosong, ulangi langkah 2,jika sudah kosong STOP

A* Pa1 Pa2 Pa3 Pa4 Pb1 Pb2 Pb3 D*

(U1,U2) 1 0 0 0 1 1 0 1

(U1, U3) 1 1 0 0 0 0 1 1

(U1, U5) 1 1 1 0 0 0 0 1

(U4, U2) 0 1 1 0 1 0 0 1

(U4, U3) 0 0 1 0 0 1 1 1

(U4, U5) 0 0 0 0 0 1 0 1

(U6, U2) 0 1 1 1 1 1 11

(U6, U3) 0 0 1 1 0 0 0 1

(U6, U5) 0 0 0 1 0 0 1 1

(U7, U2) 0 1 0 0 1 0 0 1

(U7, U3) 0 0 0 0 0 1 1 1

(U7, U5) 0 0 1 0 0 1 0 1

New 0 0 0 0 0 0 0 1

Jumlah angka 1356