yilici2005
description
Transcript of yilici2005
-
VERI MADENCILIGI YILICI SINAVI
Fen Bilimleri Enstitusu Yrd. Doc. Dr. Sule Oguducu
Sure 90 dakikadr. 10.11.2005
1. (15 puan) Veritaban ve veri madenciligi islemleri arasndaki farklar yaznz. Ornekleacklaynz.
2. (15 puan) Veri madenciligi uygulamalarnda kullanlan modeller kaca ayrlr? Acklaynz.
3. Bir veri madenciligi uygulamas tasarlanacaktr. Calslacak veri kumesindeki niteliklerdenbiri yas bilgisidir. Bu nitelige ait degerler su sekildedir: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25,25, 25, 30, 45
(a) (10 puan) yas niteligine ait veri icin gurultuyu azaltmak amacyla esit aralklarlabolme genisligi 3 olacak sekilde bolmeleme (binning) yaplacaktr. Bu islemi yapmakicin gerekli admlar gosteriniz. Yukardaki veri icin bu islemin etkilerini yorumlaynz.
(b) (10 puan) Verideki aykrlklar belirlemek icin hangi islemler yaplabilir?
(c) (10 puan) Verideki gurultuyu duzeltmek icin baska hangi yontemler uygulanabilir?
4. Asagda verilen tablodaki verileri snflandrmak icin karar agac olusturulacaktr.
A B Snf
T F +
T T +
T T +
T F -
T T +
F F -
F F -
F F -
T T -
T F -
IPUCU:
Entropi kullanarak:
Entropy(S) = c
i=1
pi log2 pi
Gain(S, A) = Entropy(S)
values(A)
|S |
|S|Entropy(S)
Gini index kullanarak:
gini(S) = 1c
i=1
p2i
Gain(S, A) = gini(S)
values(A)
|S |
|S|gini(S)
(a) (15 puan) A ve B nitelikleri icin bilgi kazancn hesaplayn. Karar agac algoritmashangi niteligi kullanarak bolmeleme yapar?
(b) (15 puan) A ve B nitelikleri icin Gini index degerini hesaplaynz. Karar agac algo-ritmas hangi niteligi kullanarak bolmeleme yapar?
(c) (10 puan) Bilgi kazanc ve gini index degerlerinin bolmeleme icin farkl niteliklerisecmesi mumkun mudur? Acklaynz.
5. (odul sorusu) Asagdaki sekilde C1, C2 ve C3 uc demedin merkezidir ve A, B, D, E nesneleride Oklid uzaklg kullanlarak demetlenecektir. Duz cizgiler demet merkezleri arasndaki
1
-
uzaklg gostermektedir. K-means algoritmasna gore her nesne en yakn merkezin bu-lundugu demede atanr. Uc demet merkezi olduguna gore bir nesnenin hangi demetteoldugunu bulmak icin 3 uzaklk hesaplamas yapmak gerekir (ornegin: d(A, C1), d(A, C2),d(A, C3)). Toplam dort nesne bulunduguna gore K-means algoritmasnn her yinelen-mesinde toplam 43 uzaklk hesaplamas yapmak gerekir. Ancak, uzaklk hesaplamalarnazaltmak icin ucgen esitsizliginden yararlanlabilir.
(a) (10 puan) Ucgen esitsizligi kullanlarak gereksiz uzaklk hesaplamalarnn azaltlabile-cegini gosteriniz.
(b) (10 puan) Sekildeki nesneler icin hangi uzaklk hesaplamalarnn yaplmasna gerekkalmaz?
2