ömer gökdaş_veri madenciligi
-
Upload
omergokdas -
Category
Documents
-
view
232 -
download
0
Transcript of ömer gökdaş_veri madenciligi
-
7/30/2019 mer gkda_veri madenciligi
1/17
STANBUL TEKNK NVERSTES - FEN BLMLER ENSTTS
GEOMATK MHENDSL ANABLM DALI
GEOMATK MHENDSL PROGRAMI
Bilgi Teknolojileri ve CBS
Prof. Dr. Cengizhan PBKER
VER MADENCL
MER GKDA501111633
STANBULKasm, 2012
-
7/30/2019 mer gkda_veri madenciligi
2/17
ERK
1. Giri ..3
1.1Veri Madencilii Nedir? .................................................................................41.2 Veri Madencilii Ne Deildir ? .6
1.3 Neden Veri Madencilii ? .................6
1.4 Veri Madencilii Srecinin Ortaya k .7
2. Kullanlacak Veri Nasl Olmal? .9
3 Veriden Bilgi Kefi .10
3.1 Veri n leme .10
3.1.1 Neden Veri n leme? 11
3.2 Snflandrma .. 12
3.3 Kmeleme ... 12
3.4 likilendirme .. 13
3.5 Tahmin Raporu ... 13
4. Veri Taban ve Veri Madencilii .. 14
5. Uygulama Alanlar ... 15
6. Kaynaklar ..... 17
-
7/30/2019 mer gkda_veri madenciligi
3/17
3
1. GR
Veri miktarnda meydana gelen olaan st art, bu verilerden nasl yararlanlabilecei
konusunu n plana karmtr. Veri deerlendirmenin klasik yntemleri veya geleneksel
biliim teknikleri ile bu kadar ok veriden anlaml bilgilerin elde edilmesinin pek mmkn
olamayaca anlalmtr. Biliim teknolojilerinin geliimi ve tahmin edilemeyecek oranda
biriken ve derlenen bilgi dann olumasnn sonucu olarak, her alanda strateji gelitirme
konusunda kurumlar ve bireyleri desteklemek amacyla Veri Madencilii adl bir teknik son
yllardayaygn olarak uygulanmaya balanmtr. Veri Madencilii Teknikleri, verinin yn
halde bulunduu, akla gelebilecek btn alanlarda gizli bilgilerin aa karlabilmesi ve
gelecekteki eilim ve davran ekillerinin tahmin edilebilmesinde kullan labilmektedir. Veri
Madencilii byk miktardaki veri yn ierisinden gelecekle ilgili tahmin yapmamz
salayacak, bant ve kurallarn bilgisayar programlar kullanlarak aranmasdr. Maliyetli ve
zahmetli bir sre olan veri toplama yatrmlarndan en yksek fayday salamak veri
madencilii ile mmkndr. Veri Madencilii, insan davranlarnn nceden tahmin
edilebilmesini salar. rnein nceden biliniyor olsayd; hastanelere yaplan tedavi
taleplerinin blgelere, zamana ve ihtiyaca gre deerlendirilmesi, salgn hastalk riskinin ilk
aamada tespiti ve kaynak planlama asndan faydal olmaz myd? Kaak enerji
kullananlarn profillerini tespit eden bir model, olas kaak enerji kullanclarn tahmin
etmenizi salasa idi, dk maliyet ile kaaklarla etkin mcadele edilmez miydi? Web sitenizi
ziyaret eden kiiler, ilk birka klikten sonra ihtiyalar dorultusunda ynlendirilseler,
kiilerin ihtiyalar dorultusunda ierik ynetimi yapabilseniz, e-devlet hedefleri doru
ynetilmez miydi?
Btn bu sorularn cevab elbette Evettir. Ancak bu, veriye uygulanacak doru veri
madencilii modelleri sayesinde olabilecektir. Veri madencilii ile byk veri ynlarndanoluan veritaban sistemleri ierisinde gizli kalm bilgilerin ekilmesi salanr. Bu ilem,
istatistik, matematik disiplinleri, modelleme teknikleri, veritaban teknolojisi ve eitli
bilgisayar programlar kullanlarak yaplr.
-
7/30/2019 mer gkda_veri madenciligi
4/17
4
1.1 Veri Madencilii Nedir ?
Veri madencilii, byk hacimli veriynlar ierisinden karar alabilmek iin potansiyel
olarak faydal olabilecek, uygulanabilir ve anlaml bilgilerin karlmasna verilen addr. Veri
madencilii geni anlamda veri analiz teknikleri btndr ve tek bana bir zm deildir.
Mevcut problemleri zmek, kritik kararlar almak veya gelecee ynelik tahminleri
yapmak iin gerekli olan bilgileri elde etmeye yarayan bir aratr. Ortaya karlmas
hedeflenen bilgiler; st kapal, ok net olmayan, nceden bilinmeyen, daha nce
kefedilmemi ancak potansiyel olarak kullanl anlaml ve kritik bilgilerdir.
-
7/30/2019 mer gkda_veri madenciligi
5/17
5
CNNinyayn aknn her dakikasnnald ratingden, IMDB web sayfasnnka ziyareti
aldna, stanbula eyllaylarnda den yamur miktarndan,en ok satlan st markasna,
sedan otomobil satn alanlarn yalarna, pandalarn dourganlk oranndan, Evereste
trmanan dac saysna kadar evremizde yaananlarn ok nemli bir ksm srekli olarak
kaydedilmektedir. Saylardan oluan tm bu kaytlar ancak doru ekilde bakldnda bir
anlam ifade etmektedirler. Bu nedenle veri madencilii en geni anlam ile yaadmz ve
kaydettiimiz olaylaraanlam katmaktr.
Veri madencilii hayatmzn iindeki bir kavramdr aslnda. Elinizde patates, biber, soan,
fasulye, patlcan, ya, su, sala vb. sebzeler var fakat bunlardan trl yemeiniyapamyorsanz bu rnlerin hibir anlam yoktur. Zamanla dolabnzda rmeye doru
gider. te veri madencilii de byledir. Sizin devasa bir veri ambarnz veya verileri
topladnz bir alan vardr. Eer siz bu verileri doru ekilde kullanp bunlardan yaplacak bir
rn kartamyorsanz, veri ambarnz aslnda okta ie yaramyordur .
-
7/30/2019 mer gkda_veri madenciligi
6/17
6
1.2 Veri Madencilii Ne Deildir ? Bir restoran zincirinde; hangi ubelerin ne kadar ciro yapt, hangi rnlerin hangi
noktalarda daha fazla satld, hangi saatlerde younluk yaand, gibi analizler veya
Bir sat irketinde; hangi mterilerin devamllk gsterdikleri, hangi blgelerde performans
dkl yaadklarn belirlemek veri madencilii deildir.
Gelir ile ya ilikisinin incelendii bir deiken, bir sonu ve az sayda veriden oluan bir
modeli tanmlayarak, yaa gre gelir tahmini yapmak da veri madencilii deildir. Yz
deikenin olduu, deikenler arasnda sadece rakamsal deerlerin deil, sral (yksek-orta-
dk) veya srasz (evli-bekar-dul) kategorilerin olduu, milyon tane verinin olduu ancak
doru algoritmalar ve gl bir bilgisayar ile sonuca ulamann mmkn olduu modelleri
kurmak veri madenciliidir.
1.3 Neden Veri Madencilii ?
- Bilgisayarlarn ucuzlayp ayn zamanda ok gl hale gelmeleri- Teknolojinin geliimiyle bilgisayar ortamnda ve veritabanlarnda tutulan veri
miktarnn da artmas (terabyte to petabyte)
- Yeni veri toplama yollar(Otomatik veri toplama aletleri, veritaban sistemleri, bilgisayarkullanmnn artmas)
- Byk veri kaynaklar( dnyas: Web, e-ticaret, alveri, hisse senetleri, Bilim dnyas: Uzaktan alglama
ve izleme, bioinformatik, simlasyonlar, Toplum: haberler, dijital kameralar, YouTube,Facebook)
- Ticari rekabet basksnn artmas(Kiiselletirilmi rnler, CSR ynetimi)
Veri iinde bouluyoruz, ancak bilgi elde edemiyoruz!
-
7/30/2019 mer gkda_veri madenciligi
7/17
7
1.4 Veri Madencilii Srecinin Ortaya k
Veri madencilii teknikleri uzun bir aratrma ve rn gelitirme srecinin sonucunda ortaya
kmtr. Bu geliim iletme verilerinin ilk olarak bilgisayarlara depolanmasyla balam,
veri girilerinin geliimiyle devam etmitir ve veri madencilii gnmzde de kullanclara
verilerini ynetme olana salayan bir sre haline gelmitir.
-
7/30/2019 mer gkda_veri madenciligi
8/17
8
1.4 Veri Madencilii Srecinin Ortaya k
-
7/30/2019 mer gkda_veri madenciligi
9/17
9
2. Kullanlacak Veri Nasl Olmal ?
1-htiyaca gre tasarlanm olmas gerekmektedir. Siz eer gelecek sene ne kadar araba
satacanz grmek istiyorsanz , veri ambarnzdaki verilerin araba ve sat istatistikleri
hakknda bilgi toplayacak trden veriler olmas gerekmektedir. Gereksiz veri aslnda sizin iin
bir yktr.
2-Temiz ve kaliteli veri olmaldr. Dnnki araba satnz iin cinsiyete gre kampanya
dzenleyeceksiniz. Ve gelecei tahminlemek iin analiz yapyorsunuz. Burada sat
sisteminizdeki raporlarda E/K olarak var olan bir veri, mteri sisteminizde Erkek/Kadn
olarak geiyor. Buradaki verilerin btnlk ierisinde olduundan sz edilemez. Ayrca
kullanclardan kaynaklanan E/K olarak girilecek alana baka veriler veya veri tipleri gelmesi
halinde bu verilerin de temizlenmesi gerekmektedir.
3-Tarihsel derinlii olmaldr. Veri ambar zaten bu yapda kurulur. Ama nemli bir olay
olduu iin belirtmekte fayda var.Eer siz gelecek 3 seneyi tahmin etmek istiyorsanz gemi
1 yla bakarak bunu tahmin edemezsiniz. rnein nmzdeki sene barajlarn doluluk
oranlar ne olacak diye sorduumuzda bu sorumuza gemi 10 seneye bakarak ok daha net
cevap verebiliriz.Nitekim gemi 10 senede belirleyeceiniz zaman dilimleri veya aylarda ne
kadar ya-kuraklk-scaklk-nem olmu istatistiklerini grmeniz gerekecektir.
-
7/30/2019 mer gkda_veri madenciligi
10/17
10
3. Veriden Bilgi Kefi
3.1 Veri nileme
Gerek hayatta karlatmz veriler genelde eksik(missing orincomplete), hatal (noisy), vetutarsz(inconsistent) olma eilimindedir.-Dk kaliteli veri
Veri kalitesini dren sorunlar:Noise / GrltOutliers / Sapan veriMissing values / Eksik veriDuplicate data / Tekrarl veriVeri iletim hatalarTeknolojik snrlamalar
Veri isimlendirmede veya yapsnda uyumsuzluk
-
7/30/2019 mer gkda_veri madenciligi
11/17
11
3.1.1 Neden Veri nileme ?
Dk kaliteli veri dk kaliteli veri madenciliisonularna yol aar
Neden Veri nileme ?
Veri madencilii kalitesini artrmak.
Veri madenciliini kolaylatrmak.
Verimlilii artrmak hedeflenir.
-
7/30/2019 mer gkda_veri madenciligi
12/17
12
3.2 Snflandrma
Temel olarak yapt ey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi nceden
tanmlanm bir snfa atamaktr. Burada nemli olan bir snfn zelliklerinin nceden net bir
ekilde belirtilmi olmas gerektiidir.
Gen kadnlar kk araba satn alr, yal, zengin erkekler byk, lks araba satn alr.
Snflama tekniine rnek olarak verebiliriz.
3.3 Kmeleme
Bellibir yap iindeki geen terimlere, verilere, zelliklere gre gruplaroluur. Bu gruplar da
en ok geen verilerden yararlanlarak bir benzerlik lt gelitirilir ve buna gre
demetleme yaplr. rneingen, orta ve yal erkeklerin aldkontr miktar ayr ayr
kmeoluturmaktadr.
-
7/30/2019 mer gkda_veri madenciligi
13/17
13
3.4 likilendirme
Bir nesnenin varl ile dierbir nesnenin varl arasnda tahmin yrtlerekiliki kurulur.
rnein bir markette, ocuk bezi alan birisinin hemen hemen her zaman st ald tespitedildikten sonra market sahibi ocuk bezi ve st raflarnn arasndaki mesafeyi ksaltabilir.
Bylece mteriye unutulan bir eyin hatrlatlmas dolaysyla kazan salanm olur. Bunun
rneklerini gnlk hayatmzda bir hayli gryoruz.
3.5 Tahmin Raporu
Bizlere tahminler sunan veri ambar tekniidir. rnein 5 sene sonra barajlardaki doluluk
oranlar ne olacak? Genler en ok hangi meslekleri seecek? X irketinin 2013 kar marj ne
olacak? Bu tip sorulara cevap bulan bir yapdr. Buradaki en byk yardmcmz zaman ve
datann gemi yllarda zamann iindeki dalmdr.
-
7/30/2019 mer gkda_veri madenciligi
14/17
14
4. Veri Taban ve Veri Madencilii
Veritaban uygulamas:
Ad Ahmet olan kredi kart sahiplerini bul.
Bir ayda 2000 TLden fazla harcama yapankredi kart sahiplerini bul.
DVD satn alan tm mterileri bul.
Veri madencilii uygulamas:
Riski az olan tm kredi kart bavurularn bul (snflandrma)
Harcama alkanl benzer olan kredi kart sahiplerini bul(kmeleme)
DVD ile birlikte ska satn alnan rn bul (ilikilendirme)
-
7/30/2019 mer gkda_veri madenciligi
15/17
15
5. Uygulama Alanlar
Veri madenciliinin uygulama alanlarnbilimsel ve i dnyas olarak ikiye ayrmak
mmkndr. Bilimsel almalarda veri madencilii kullanmnn ardnda yatan sebepler;
gelimi veri toplama yntemleri (uydu ve uzaktan alglama sistemleri, teleskop taramalar,
gen zmlemeleri) ile ilenmek zere ham olarak ok byk boyutlarda veri toplanmas,
geleneksel tekniklerin ham verileri ilemede yetersiz kalmas ve hipotezler oluturma,
snflandrma, karar alma gibi bilimsel alma admlarnda bilim insanlarnadestek olmasdr.
dnyasnda veri madencilii uygulamalarnn kullanlmasnn temel nedeni; mteriyi
tanyarak (mteri gibi dnerek) mteri memnuniyeti salamak ve bu ekilde rekabet
ortamnda hzl ve doru kararlar alabilmektir.
-
7/30/2019 mer gkda_veri madenciligi
16/17
16
Veri Madenciliinin baz uygulama alanlar u ekilde zetlenebilir:
Salk verileri: Veri madencilii salk alannda da sklkla uygulanmaktadr.Veri madenciliinin salk alannda kullanlmasna; yaplan testlerinden elde edilen
sonular kullanarak eitli kanserlerin n tansnn konulmas, kalp krizi riskinin tespitirnek olarak verilebilir.
verileri: sreleri boyunca ok sayda veri retilir. Bu veriler ynetimin herkademesinde karar verme aamasnda kullanlabilir. Personele ait verilerin analizisonucunda alanlarn performanslarna etki eden faktrler belirlenebilir ve yeni
personel almnda yeni kurallar oluturulabilir. Mteri veri tabanlarnn analizi ilereklam ve promosyon ile ilgili pek ok faydal bilgiye de ulalabilir.
Perakendecilikmarketilik verileri:Bu alanda en ok kullanlan yntem sepetanalizi yaklamdr. Sepet analizi yaklamnda ama mterilerin satn aldklar rnler
arasnda ilikiler kurmak ve bu ilikilerden yola karak iletmenin satnmiktarn vekarn artrmaktr.
Bankaclk, finans ve borsa verileri: Bankaclk sektrnde kredi riskitahminlerinde, likidite riskinin deerlendirilmesinde, mteri eilim analizlerinde, karanalizi gibi alanlarda veri madencilii kullanlmaktadr. Finans ve borsa kurulular isestok fiyat tahminlerinde, portfy ynetimi gibi alanlarda veri madencilii yntemlerinikullanabilirler.
Eitim sektr verileri: renci veri tabanlarndan elde edilebilecek verileranaliz edilerek rencilerin baar ve baarszlk nedenleri, rencilerin baarlarnnarttrlmas iin neler yaplabilecei, niversiteye giripuanlar ile okul baarsarasndaki ilikiler analiz edilerek, eitim kalitesi artrlabilir.
Internet (Web) verileri: Web ortamndaki verilerin says da srekli ve hzl birekilde artmaktadr. Web veri madencilii, internetten faydal bilgilerin bulunmasolarak tanmlanabilir. Web veri madencilii birok web sunucusu veya online servistenkullanc taleplerinin analizi iin kullanlr. rnein, internet zerinden kitap satanAmazon irketi BookMatcher adl programyla mterilerin satn alma alkanlklarnanaliz ederek yeni kitap alan mterilerine tavsiyede bulunmaktadr.
-
7/30/2019 mer gkda_veri madenciligi
17/17
17
6. Kaynaklar
Veriden Bilgiye Masraftan Deere,Kasm 2008(Dr. Ylmaz ARGDEN, Burak ERAHN)
Veri Madencilii Sreci Kullanlarak Portfy Performansnn Deerlendirilmesi ve
MKB Hisse Senetleri Piyasasnda Bir Uygulama, 2009 (Engin KKSLLE)
Veri Madenciliive imento Sektrnde Bir Uygulama (Adil BAYKASOLU)
Veri Madencilii Uygulama Alanlar, 2006 (Abdullah BAYKAL)
www.datawarehouse.gen.tr (Makale; Veri Madencilii Nedir)