Budi Susanto ASSOCIATION RULES PADA TEXT...

37
ASSOCIATION RULES PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1

Transcript of Budi Susanto ASSOCIATION RULES PADA TEXT...

ASSOCIATION RULES PADA TEXT MINING

Budi Susanto

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1

Tujuan

� Memahami algoritma Apriori dan FP-Growth

� Memahami penerapannya pada penambangan dokumen

� Memamahmi algoritma GSP � Memahami penerapannya pada

penambangan dokumen

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2

Pendahuluan � Analisis aturan asosiasi merupakan tugas

dasar pada data mining. � Tujuannya: ◦ Menemukan hubungan kemunculan bersamaan

(asosiasi) diantara item-item data. � Aplikasi klasik yang menggunakan metode

ini adalah market basket data analysis. ◦ Tujuannya: menemukan bagaimana item-item

barang yang dibeli oleh pelanggan diasosiasikan.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 3

Pendahuluan

� Contoh: ◦  Sabun Mandi è Pasta Gigi �  [support: 40%, confidence = 80%]

�  40% pelanggan membeli Sabun Mandi dan Pasta Gigi bersamaan

�  80% pelanggan membeli Sabun Mandi juga membeli Pasta Gigi.

� Dalam text mining, association rules dapat digunakan untuk menemukan hubungan kemunculan kata.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 4

Konsep Dasar Association Rules

I = i1, i2,..., im{ } Himpunan item

T = t1, t2,..., tn{ } Himpunan transaksi

Ti adalah himpunan item dimana ti ⊆ IBentuk implikasi pada association rules:

X èY, dimana X ⊂ I,Y ⊂ I,X∩Y = 0

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 5

Ukuran �  Support ◦  Seberapa sering aturan yang dihasilkan berlaku

pada himpunan transaksi T. � Confidence ◦  Dilihat sebagai probabilitas kondisional terhadap

aturan. � Aturan yang terpilih adalah aturan yang

memenuhi minimum support dan minimum confidence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 6

Contoh

� Terdapat himpunan transaksi I:

�  Chicken, Clothes → Milk [sup = 3/7, conf = 3/3] �  Clothes → Milk, Chicken [sup = 3/7, conf = 3/3]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 7

Algoritma Apriori

� Terdapat dua tahap utama: ◦ Hasilkan semua frequent itemsets (itemset

yang memiliki support > minsupport) ◦ Hasilkan semua aturan asosiasi dari frequent

itemsets (confident > minconfident)

�  Jumat item dalam sebuah itemset ditentukan, k.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 8

Apriori: pembentukan itemset

� Apriori menganut prinsip downward closure property ◦  Jika sebuah itemset memiliki support

minimum, maka setiap subset non-empty dari itemset tersebut juga memiliki support minimum.

�  Item-item dalam I, sudah dalam keadaan terurutkan secara lexicographic order.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 9

Algoritma Apriori

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 10

Algoritma Apriori: pembentukan kandidat itemset

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 11

Contoh: Data TID Item-item 001 1,2,3,5 002 2,3,4 003 2,3,6 004 1,2,4 005 1,3,4,5 006 2,3,5 007 1,3 008 1,2,3,5 009 1,2,3 010 1,2,3,4,5

Min Support: 40%, dan Min Confident: 60% Text dan Web Mining - FTI UKDW - BUDI SUSANTO 12

Algoritma: pembentukan rule

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 13

Contoh Pembentukan Rule �  Candidate Rule 1: ◦  Rule1: {1,2} è {3} �  Support: 4/10 �  Confident: 4/5 ◦  Rule 2: {1,3} è {2} �  Support: 4/10 �  Confident: 4/6 ◦  Rule 3: {2,3} è {1} �  Support: 4/10 �  Confident: 4/7

�  H1 = {{2}, {3}}, sehingga H2 = {2,3} ◦  Rule 4: {1} è {2,3} �  Support: 4/10 �  Confident: 4/7

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 14

FP-Tree

� Menghasilkan frequent items tanpa perlu membuat kandidat-kandidatnya. ◦ Kepadatan struktur tinggi ◦ Tidak perlu melakukan penelurusan database

keseluruhan setiap saat

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 15

FP-Tree: Algoritma

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 16

Contoh

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 17

Contoh

Item Support Count 3 9 2 8 1 7 5 5 4 4 6 1

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 18

Asosiasi untuk Kategori

� Metode asosiasi, seperti Apriori dan FP-Tree, tidak memiliki sasaran pada klausa consequent. ◦ Klausa consequent ditentukan juga dari

itemset dalam transaksi.

�  Jika asosiasi dilakukan terhadap suatu consequent dengan target tertentu, Y, maka metode yang digunakan disebut sebagai class association rules.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 19

Asosiasi untuk Kategori

� T adalah himpunan transaksi sebanyak n. �  Setiap transaksi diberi label y. �  I adalah himpunan semua item dalam T,

dan Y adalah himpunan label class (target) dan I Y =θ.

�  Sebuah Class Association rule (CAR) adalah bentuk implikasi dari

X→ y,X ⊂ I, y ∈ Y

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 20

Contoh

I = {Student, Teach, School, City, Game, Baseball, Basketball, Team, Coach, Player, Spectator} Y = {Education, Sport}.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 21

Contoh

� Misal minsup = 20% dan minconf = 60%, maka: ◦  Student, School → Education �  [sup= 2/7, conf = 2/2]

◦ Game → Sport �  [sup= 2/7, conf = 2/3]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 22

Pembangkit Rule

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 23

Contoh CAR �  F1: {({School},  Education):(3,  3),  ({Student},  Education):(2,  2),  ({Teach},  Education):(2,  2),  ({Baseball},  Sport):(2,  2),  ({Basketball},  Sport):(3,  3),  ({Game},  Sport):(3,  2),  ({Team},  Sport):(2,  2)}

�  CAR1: ◦  School → Education [sup = 3/7, conf = 3/3] ◦  Student → Education [sup = 2/7, conf = 2/2] ◦  Teach → Education [sup = 2/7, conf = 2/2] ◦  Baseball → Sport [sup = 2/7, conf = 2/2] ◦  Basketball → Sport [sup = 3/7, conf = 3/3] ◦  Game → Sport [sup = 2/7, conf = 2/3] ◦  Team → Sport [sup = 2/7, conf = 2/2]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 24

Contoh CAR � C2: { ◦  ({School, Student}, Education), ◦  ({School, Teach}, Education), ◦  ({Student, Teach}, Education), ◦  ({Baseball, Basketball}, Sport), ◦  ({Baseball, Game}, Sport), ◦  ({Baseball, Team}, Sport), ◦  ({Basketball, Game}, Sport), ◦  ({Basketball, Team}, Sport), ◦  ({Game, Team}, Sport)

}

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 25

Contoh CAR �  F2: { ◦  ({School, Student}, Education):(2, 2), ◦  ({School, Teach}, Education):(2, 2), ◦  ({Game, Team}, Sport):(2, 2) }

� CAR2: ◦  School, Student → Education �  [sup = 2/7, conf = 2/2] ◦  School, Teach → Education �  [sup = 2/7, conf = 2/2] ◦  Game, Team → Sport �  [sup = 2/7, conf = 2/2]

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 26

Konsep Sequence Pattern �  Association Rule tidak memperhatikan urutan dari

transaksi. ◦  I = {i1, i2, ..., im} adalah himpunan item ◦  Sebuah sequence adalah daftar urutan dari itemset. ◦  X ⊆ I, dimana X adalah itemset. ◦  s = 〈a1a2...ar〉, ai adalah sebuah itemset. ◦  ai = {x1, x2, ..., xk}, dimana xj ∈ I adalah item. ◦  Sebuah item hanya dapat muncul sekali dalam suatu

sequence. ◦  Ukuran suatu sequence adalah jumlah itemset dalam

sequence ◦  Panjang suatu sequence adalah jumlah item dalam

suquence. ◦  k-sequence adalah sequence dengan panjang k.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 27

Konsep Sequence Pattern

�  s1 = 〈a1a2...ar〉 adalah sebuah subsequence s2 = 〈b1b2...bv〉, atau s2 adalah supersequence dari s1, jika terdapat integer 1≤j1  <j2  <...<jr-­‐1<jr  ≤  v sehinga a1 ⊆ bj, a2 ⊆ bj, ..., ar ⊆ bjr.

� Kita juga mengatakan s2 berisi s1.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 28

Contoh �  I = {1, 2, 3, 4, 5, 6, 7, 8, 9} �  s1 = 〈{3}{4, 5}{8}〉 ◦ Ukuran = 3 ◦  Panjang = 4

�  s2 = 〈{6} {3, 7}{9}{4, 5, 8}{3, 8}〉 �  s1 subsequence s2 karena ◦  {3} ⊆ {3, 7}, {4, 5} ⊆ {4, 5, 8}, dan {8} ⊆ {3, 8}

�  Sedangkan 〈{3}{8}〉 bukan subsequence 〈{3, 8}〉, demikian juga sebaliknya.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 29

Contoh Transaksi

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 30

Contoh Sequence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 31

Contoh Pola Sequence

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 32

Algoritma GSP

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 33

Pembangkit Kandidat SPM �  Join step: ◦  Kandidat sequence dihasilkan dari penggabungkan Fk-1

dengan Fk-1. �  s1 digabungkan dengan s2 jika subsequence yang didapat dari

pembuangan item pertama dari s1 adalah sama dengan pembuangan item terakhir dari s2.

�  Kandidat sequence yang dihasilkan dari penggabungan s1 dan s2 adalah sequence s1 diperluas dengan item terakhir dalam s2. �  Item yang ditambahkan membentuk elemen terpisah jika item tersebut

merupakan elemen dalam s2 dan ditambahkan sebagai elemen terakhir pada s1.

�  Item yang ditambahkan merupakan bagian dari elemen terakhir s1.

◦  Ketika menggabungkan F1 dan F1, kita perlu menambahkan item pada s2 baik sebagai bagian dari itemset atau elemen terpisah. �  <{x}> dengan <{y}> akan membentuk <{x, y}> dan <{x}{y}>

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 34

Pembangkit Kandidat SPM

� Prune step: ◦  Sebuah kandidat sequence dibuang jika ada

sembarang (k-1) subsequence adalah infrequent.

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 35

Contoh kandidat SPM

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 36

TERIMA KASIH. Akhir pertemuan #4

Text dan Web Mining - FTI UKDW - BUDI SUSANTO 37