AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI
description
Transcript of AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ KARŞILAŞTIRILMASI
AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ
KARŞILAŞTIRILMASI
Arş. Gör. Mümine KAYAAdana Bilim ve Teknoloji Üniversitesi
Bilgisayar Mühendisliği
Doç. Dr. Selma Ayşe ÖZELÇukurova Üniversitesi
Bilgisayar Mühendisliği
Akademik Bilişim 2014 (AB'14)
SUNUM AKIŞI
Akademik Bilişim 2014 (AB'14) 2
1.Giriş 2.Çalışmanın Amacı3.Veri Madenciliği Süreci4.Açık Kaynak Kodlu Veri Madenciliği Yazılımları 5.Açık Kaynak Kodlu Veri Madenciliği
Yazılımlarının Karşılaştırılması 6.Sonuç ve Öneriler
GİRİŞ
Akademik Bilişim 2014 (AB'14) 3
Günümüzde bilişim teknolojisi, veri iletişim teknolojileri ve veri toplama araçları oldukça gelişmiş ve yaygınlaşmış; bu hızlı gelişim büyük boyutlu veri kaynaklarının oluşmasına neden olmuş ve beraberinde bazı problemlere yol açmıştır [1]:
Anlamlı bilginin ortaya çıkarılması Yararlı bilginin ortaya çıkarılması
VERİ MADENCİLİĞİ
Akademik Bilişim 2014 (AB'14) 4
Daha önceden bilinmeyen, geçerli ve uygulanabilir bilgilerin geniş veri kaynaklarından elde edilmesi işlemidir [2].
Büyük ölçekli veriler arasından yararlı ve anlaşılır olanların bulunup ortaya çıkarılması işlemidir [1].
VERİ MADENCİLİĞİNİN GELENEKSEL VERİTABANI SORGULARINDAN FARKI
Akademik Bilişim 2014 (AB'14) 5
Geleneksel Veri Tabanları
SQL Sorgulama Dili
Veri Madenciliği
???
SORGU
SORGU
VERİ MADENCİLİĞİNİN AMACI
Akademik Bilişim 2014 (AB'14) 6
Ham veriyi anlamlı, etkin ve yararlı olan bilgiye dönüştürebilmektir [3].
ÇALIŞMANIN AMACI
Akademik Bilişim 2014 (AB'14) 7
Bu çalışmada ise diğer çalışmalardan farklı olarak [4, 5 ve 6] : •6 adet veri madenciliği yazılımı daha detaylı karşılaştırılmıştır.
•Böylece ihtiyaca göre daha etkin bir şekilde kullanılacak olan yazılımlar belirlenmiştir.
VERİ MADENCİLİĞİ SÜRECİ
Akademik Bilişim 2014 (AB'14) 8
Şekil 1. Bilgi Keşfi Süreci [7, 8]
VERİ MADENCİLİĞİNİN KULLANIM ALANLARI
Akademik Bilişim 2014 (AB'14) 9
Bankacılık, Borsa, Pazarlama Yönetimi, Perakende Satış, İşaret İşleme, Sigortacılık, Telekomünikasyon, Elektronik Ticaret, Sağlık,
Tıp, Biyoloji, Genetik, Endüstri, Eğitim, İstihbarat, Bilim ve Mühendislik gibi
birçok dalda [1, 2].
VERİ MADENCİLİĞİ YAZILIMLARI
Akademik Bilişim 2014 (AB'14) 10
Ticari Açık Kaynak Kodlu
SPSS Modeler (Clementine) Orange,
Excel RapidMiner
SPSS WEKA
SAS R
Angoss Keel
KXEN Knime
MS SQL Server Tanagra
MATLAB Scriptella ETL
Oracle Modülleri jHepWork
… Elki, …
Ticari ve açık kaynak kodlu olmak üzere 2 gruba ayrılmaktadır [4, 5].
ÇALIŞMADA KULLANILAN AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ
YAZILIMLARI
Akademik Bilişim 2014 (AB'14) 11
KEEL KNIME ORANGE R RAPIDMINER (YALE) WEKA
KEEL
Akademik Bilişim 2014 (AB'14) 12
Keel (http://www.keel.es/),İspanya Ulusal Bilim Projeleri Kurumunun desteğiGranada Üniversitesi tarafından geliştirilme Java dilindeKümeleme gibi klasik veri madenciliği algoritmaları açısından zengin olmamaFuzzy sınıflandırıcılar, Yapay zekâ tabanlı sınıflandırma ve Kural tabanlı kümeleme algoritmalarının birçok çeşidini içerme [6]. Veri görselleştirme açısından en zayıf
KNIME
Akademik Bilişim 2014 (AB'14) 13
Konstanz Information Miner (http://www.knime.org/) Konstanz Üniversitesi görsel veri madenciliği araştırma grubu
tarafından Eclipse Rich Client Platform üzerinde geliştirilme Genişletilebilme özellikleri ile ön planda Kullanıcılara bir yazılım geliştirme kiti sunarak kullanıcıların
kendi modüllerini yazabilmelerini sağlayan tek uygulama [6] Kurulum şartı yok .txt uzantılı metin dosyalarından veya .arff, .table formatından
veri alabilme En zengin görselleştirme araçları sunma
ORANGE
Akademik Bilişim 2014 (AB'14) 14
Orange (http://orange.biolab.si/),Slovenya Ljubljana Üniversitesi Bilgisayar ve Enformatik Bilimleri Bölümü yapay zekâ araştırmaları ekibi tarafından [6]C++ dili ile geliştirilme Yazılımın ara yüzleri ve grafik ortamı Qt3 kütüphanesi ve Python kullanılarak geliştirilme [6]Görselleştirme açısından zayıf Yalnızca metin dosyalarından veri alma
R
Akademik Bilişim 2014 (AB'14) 15
R (http://www.r-project.org/),Robert Gentleman ve Ross Ihaka tarafından Auckland Üniversitesi İstatistik BölümüGrafikler, istatistiksel hesaplamalar ve veri analizleri için geliştirilme[4]. Unix makinelerde yaygınVeri madenciliği yazılımı olarak çok fazla tercih edilmeme
RAPIDMINER (YALE)
Akademik Bilişim 2014 (AB'14) 16
RapidMiner (http://rapidminer.com/),Ralf Klinkenberg, Ingo Mierswa ve Simon Fischer tarafındanDortmund Teknoloji Üniversitesi Yapay Zeka Biriminde geliştirilme
Yale (http://yale.sourceforge.net/) ise,Yale üniversitesi bilim adamları tarafından Java dili kullanılarak geliştirilme.
Yale 2007 yılından itibaren RapidMiner (http://rapidminer.com/) adı altında yazılım olarak kullanılmaya devam etmektedir.
RAPIDMINER (YALE)
Akademik Bilişim 2014 (AB'14) 17
22 adet dosya formatı Veri Madenciliği ve Makine Öğrenme Algoritmalarını da kapsama Weka gibi oldukça fazla algoritma Veri Analizi, Önişleme, Sınıflama, Kümeleme, Birliktelik Kuralları
Çıkarımı, Nitelik Seçimi işlemleri Oracle, MS SQL Server, PostgreSQL, MySQL, JDBC, Sybase,
Access, IBM DB2, Ingres veritabanlarını ve metin dosyalarını destekleme [6]
Excel dosyalarıyla bağlantı MS Windows, GNU/Linux, Mac Os X işletim sistemlerinde
kolayca ve hatasız olarak çalışabilme Görselleştirme ve grafik ara yüzü açısından en zengin İçerisinden script yazılabilme
WEKA
Akademik Bilişim 2014 (AB'14) 18
Weka (http://www.cs.waikato.ac.nz/ml/weka/),Waikato Environment for Knowledge AnalysisWaikato Üniversitesinde geliştirilmeJava platformu üzerinde geliştirilmeGNU genel kamu lisansı altında Java Database Connectivity (JDBC) kullanarak SQL veri tabanlarına erişim sağlama [16]Makine öğrenmesi algoritmalarını içermeÖnişleme, sınıflandırma, kümeleme, birliktelik kuralı madenciliği, özellik seçimi ve görselleştirme .arff (Attribute Relationship File Format) dosya formatı üzerinde çalışma
AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ
KARŞILAŞTIRILMASI
Akademik Bilişim 2014 (AB'14) 19
Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması [17, 18, 19 ve 20] Keel Knime Orange R RapidMiner
(YALE)WEKA
Veri Madenciliği Algoritmaları
Var Var Var Var (En Az) Var (En Fazla) Var (En Fazla)
Makine Öğrenmesi Paketleri
Var Var (Güçlü) Var (Zayıf) Var (Zayıf) Var Var (Çok Güçlü)
Metin Madenciliği Var Var (Modül) Var Var (Paket) Var VarBiyoinformatik Var Var (Modül) Var (Paket) Var Var (Modül) Varİstatiksel Hesaplama
Var Var Var (Zayıf) Var (Çok Güçlü)
Var (Zayıf) Var (Zayıf)
Veri Analizi Var Var Var Var Var VarÖnişleme Var Var Var Var Var VarSınıflama Var Var Var Var Var VarKümeleme Var Var Var Var Var VarBirliktelik Kuralları Çıkarımı
Var Var Var Var (Paket Olarak)
Var Var
Nitelik Seçimi Var Var Var Var Var Var
AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ
KARŞILAŞTIRILMASI
Akademik Bilişim 2014 (AB'14) 20
Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması [17, 18, 19 ve 20] Keel Knime Orange R RapidMiner
(YALE)WEKA
Görselleştirme Var Var (Çok İyi) Var (6 çeşit) Var (Çok İyi) Var (Çok İyi) Var (5 çeşit)GUI İyi Çok İyi İyi Zayıf Çok İyi İyiGrafik Var Var Var Var Var VarKomut Satırı Arayüzü Bağlantısı
Var Var Var Var (Çok Zayıf)
Var Var (Çok İyi)
GPL Lisans Evet (GPLv3)
Evet (GPLv3) Evet Evet (GPLv3) Evet Evet
Genişletilebilirlik Evet Evet Evet Evet Evet EvetEsneklik Evet Evet Evet Evet Evet Evet (Az)Kullanım Kolaylığı Evet Evet Evet Evet Evet Evet (En
Kolay)Öğrenim Kolaylığı Evet Evet Evet Evet Evet Evet (En
Kolay)Hatasız Çalışma Evet Evet Evet (En Az) Evet Evet (En Fazla) Evet (En Az)Dokümantasyon Var Var Var Var Var VarScript Yazma Var Var Var (En İyi) Var Var VarEklenebilir Paketler Evet Evet Evet Evet Evet Evet
AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ
KARŞILAŞTIRILMASI
Akademik Bilişim 2014 (AB'14) 21
Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması (devamı) [17, 18, 19 ve 20] Keel Knime Orange R RapidMiner
(YALE)WEKA
Veri Alma/Verme Var Var Var Var (Çok Kolay) Var Var
Desteklenen Dosya Formatları
.dat, .arff, .csv, .xml, .txt, .prn, .xls, .dif, .html
.arff, .csv .tab, .basket, .names, .data, .txt, .xls (.arff ve .csv sadece okuyabiliyor)
.r, .txt, .ods, .csv, .xml
.sml, .srff, .stt, .bib, .clm, .cms, .cri, .csv, .dat, .ioc, .log, .matte, .mode, .obf, a bar, one pair, .res, .sim, .thr, .wgt, .wls, .xrff, .arff
.arff, .csv
Veritabanlarıyla Çalışabilme
Var (SQL Veritabanları)
Var (Oracle, MS SQL Server, PostgreSQL, MySQL, Access, ODBC, JDBC)
Var (MySQL) Var (Informix, Oracle, Sybase, DB2, MS SQL Server, MySQL, PostgreSQL, MS Access, ODBC)
Var (Oracle, MS SQL Server, PostgreSQL, MySQL, JDBC, Sybase, Access, IBM DB2, Ingres, Metin Dosyaları)
Var (JDBC, JDBC aracılığıyla SQL Veritabanları)
AÇIK KAYNAK KODLU VERİ MADENCİLİĞİ YAZILIMLARININ
KARŞILAŞTIRILMASI
Akademik Bilişim 2014 (AB'14) 22
Tablo 1. Açık Kaynak Kodlu Veri Madenciliği Yazılımlarının Karşılaştırılması (devamı) [17, 18, 19 ve 20] Keel Knime Orange R RapidMiner
(YALE)WEKA
Excel Dosyalarıyla Çalışabilme
Evet (import ile)
Hayır Hayır Evet Evet Evet (Kötü Bağlantı)
Bellek Kullanımı Limitli Ayarlana-bilir
Limitli Limitli Arttrılabilir Arttrılabilir/ Ayarlanabilir
Yazıldığı Dil Java Java Phyton, C++ C, R, C++, Fortran
Java Java
Kurulum Şartı Yok Var Var Var Var VarGerekli Minimum İşletim Sistemi
MS Windows, GNU/ Linux, Mac Os X
MS Windows, GNU/ Linux, Mac Os X
MS Windows, GNU/ Linux, Mac Os X
MS Windows, GNU/Linux, Unix, Mac Os X
MS Windows, GNU/Linux, Mac Os X
MS Windows, GNU/ Linux, Mac Os X
SINIFLANDIRMA ALGORİTMALARI AÇISINDAN KARŞILAŞTIRMA
Akademik Bilişim 2014 (AB'14) 23
Tablo 2. Sınıflandırma Algoritmaları Açısından Yazılımların Karşılaştırılması Keel Knime Orange R RapidMiner
(YALE)WEKA
Naive Bayes Var Var Var Var Var Var Regresyon Var Var
(Weka)Var Var Var Var
Destek Vektör Makineleri
Var Var Var Var Var Var
KNN Var Var Var Var (RWeka)
Var Var
Karar Ağacı Var Var Var Var Var VarRBF Var Var
(Weka)Var Var Var Var
Bagging Var Var (Weka)
Var Var Var Var
Lazy Sınıflandırıcılar Var Var (Weka)
Var Var (RWeka)
Var Var
KÜMELEME ALGORİTMALARI AÇISINDAN KARŞILAŞTIRMA
Akademik Bilişim 2014 (AB'14) 24
Tablo3. Kümeleme Algoritmaları Açısından Yazılımların Karşılaştırılması Keel Knime Orange R RapidMiner
(YALE)WEKA
K-Means Var Var Var Var Var Var EM Var Var
(Weka)Yok Var Var Var
SOM Var Yok Var Var Var Var (Eklenti Olarak)
Hiyerarşik Kümeleme
Yok Var Var Var Var (Modül ile)
Var
BİRLİKTELİK KURALLARI AÇISINDAN KARŞILAŞTIRMA
Akademik Bilişim 2014 (AB'14) 25
Tablo 4. Birliktelik Kuralları Algoritmaları Açısından Yazılımların Karşılaştırılması Keel Knime Orange R RapidMiner
(YALE)WEKA
Apriori Var Var Var Var (Paket)
Var (Weka) Var
FPGrowth Var Var Yok Var (Paket)
Var Var
NİTELİK SEÇİMİ AÇISINDAN KARŞILAŞTIRMA
Akademik Bilişim 2014 (AB'14) 26
Tablo 5. Nitelik Seçimi Yöntemleri Açısından Yazılımların Karşılaştırılması Keel Knime Orange R RapidMiner
(YALE)WEKA
Kazanç Bilgisi Var Var Var Var Var Var Kazanç Oranı Yok Var Var Var Var VarKi-Kare Var Yok Var Var Var VarGini İndeks Yok Var Var Yok Var VarGenetik Algoritma Var Var Yok Var
(Paket)Var Var
VERİ ÖN İŞLEME AÇISINDAN KARŞILAŞTIRMA
Akademik Bilişim 2014 (AB'14) 27
Tablo 6. Veri Önişleme Algoritmaları Açısından Yazılımların Karşılaştırılması Keel Knime Orange R RapidMiner
(YALE)WEKA
Eksik Değer Var Var Var Var Var Var Kesikleştirme Var Var Var Var
(RWeka)Var Var
Veriseti Eğitimi Var Var Var Var (Kod ile)
Var Var
Gürültülü Veri Filtreleme
Var Yok Yok Var (Paket)
Var Var
Normalizasyon Var Var Var Var (RWeka)
Var Var
Nominalden İkiliye Dönüştürme
Var Var Yok Yok Var Var
Çapraz Doğrulama Var Var Var Var Var Var
SONUÇ VE ÖNERİLER
Akademik Bilişim 2014 (AB'14) 28
Bu çalışmada açık kaynak kodlu ve popüler olan 6 adet veri madenciliği yazılımı birçok açıdan incelenmiştir:
Kullanıcı dostluğu, Desteklediği dosya formatları, İçerdikleri algoritmalar ve İçerdikleri makine öğrenmesi paketleri
SONUÇ VE ÖNERİLER
Akademik Bilişim 2014 (AB'14) 29
Tarafımızca en kullanışlı bulunan yazılımlar:Weka, RapidMiner (Yale),Keel olmuştur.
Bu 3 yazılım arasından da öğrenim ve kullanım kolaylığı açısından en başarılı yazılım tarafımızca Weka yazılımı olarak belirlenmiştir.
SONUÇ VE ÖNERİLERKEEL
Akademik Bilişim 2014 (AB'14) 30
SONUÇ VE ÖNERİLERKEEL
Akademik Bilişim 2014 (AB'14) 31
SONUÇ VE ÖNERİLERRAPIDMINER
Akademik Bilişim 2014 (AB'14) 32
SONUÇ VE ÖNERİLERRAPIDMINER
Akademik Bilişim 2014 (AB'14) 33
SONUÇ VE ÖNERİLERRAPIDMINER
Akademik Bilişim 2014 (AB'14) 34
SONUÇ VE ÖNERİLERRAPIDMINER
Akademik Bilişim 2014 (AB'14) 35
SONUÇ VE ÖNERİLERWEKA
Akademik Bilişim 2014 (AB'14) 36
SONUÇ VE ÖNERİLERWEKA
Akademik Bilişim 2014 (AB'14) 37
KAYNAKLAR
Akademik Bilişim 2014 (AB'14) 38
[1] Özkan, Y., "Veri Madenciliği Yöntemleri", Papatya Yayıncılık Eğitim, İstanbul, (2008). [2] Silahtaroğlu, G., "Kavram ve Algoritmalarıyla Temel Veri Madenciliği", Papatya Yayıncılık Eğitim, İstanbul, (2008). [3] Akgöbek, Ö. ve Çakır, F., “Veri Madenciliğinde Bir Uzman Sistem Tasarımı”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa, 801-806 (2009). [4] Tekerek, A., “Veri Madenciliği Süreçleri ve Açık Kaynak Kodlu Veri Madenciliği Araçları”, Akademik Bilişim’11 - XIII. Akademik Bilişim Konferansı Bildirileri, 2-4 Şubat, İnönü Üniversitesi, Malatya, 161-169 (2011). [5] Dener, M., Dörterler, M., Orman, A., “Açık Kaynak Kodlu Veri Madenciliği Programları: Weka’da Örnek Uygulama”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, 11-13 Şubat Harran Üniversitesi, Şanlıurfa, 787-796 (2009). [6] Bilgin, T.T., “Veri Akışı Diyagramları Tabanlı Veri Madenciliği Araçları ve Yazılım Geliştirme Ortamları”, Akademik Bilişim’09 - XI. Akademik Bilişim Konferansı Bildirileri, Şanlıurfa, 807-814 (2009). [7] Han, J., Kamber, M., “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers, (2001). [8] Delen, D., Walker, G., Kadam, A., “Predicting breast cancer survivability: a comparison of three data mining methods”, Artificial Intelligence in Medicine, vol 34, pp113-127 (2005).
KAYNAKLAR
Akademik Bilişim 2014 (AB'14)39
[9] KEEL, http://www.keel.es/, (Erişim Tarihi: 2013). [10] KNIME, http://www.knime.org/, (Erişim Tarihi: 2013). [11] ORANGE, http://orange.biolab.si/, (Erişim Tarihi: 2013). [12] R, http://www.r-project.org/, (Erişim Tarihi: 2013). [13] RAPIDMINER, http://rapidminer.com/, (Erişim Tarihi: 2013). [14] YALE, http://yale.sourceforge.net/, (Erişim Tarihi: 2013). [15] WEKA, http://www.cs.waikato.ac.nz/ml/weka/, (Erişim Tarihi: 2013). [16] Witten, I. H., Frank, E., "Datamining Practical Machine Learning Tools and Techniques," Morgan Kaufmann, Second Edition, San Fransisco, (2005). [17] Chen X., Ye Y., Williams G. , Xu X., “A Survey of Open Source Data Mining Systems”, Proceeding PAKDD'07 Proceedings of the 2007 international conference on Emerging technologies in knowledge discovery and data mining, Pages 3-14 (2007). [18] Zupan B., “Demsar J., Open-source tools for data mining”, Clinics in Laboratory Medicine, 28(1):37-54, (2008). [19] Konjevoda P., Štambuk N., “Open-Source Tools for Data Mining in Social Science”, Theoretical and Methodological Approaches to Social Sciences and Knowledge Management, Asunción López-Varela (Ed.), (2012). [20] Alcalá-Fdez J., Sánchez L., García S., del Jesus M. J., Ventura S., Garrell J. M., Otero J., Romero C., Bacardit J., Rivas V. M., Fernández J. C., Herrera F.. “KEEL: A Software Tool to Assess Evolutionary Algorithms to Data Mining Problems”, Soft Computing, 13(3):307-318 (2009).
Akademik Bilişim 2014 (AB'14) 40
Akademik Bilişim 2014 (AB'14) 41