Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

25
1 Görsel Veri Madenciliği’nde bir Vaka Çalışması: ÖSS Verilerinin Analizi Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu Sabancı Üniversitesi Mühendislik ve Doğa Bilimleri Fakültesi Orhanlı, Tuzla, Istanbul, 34956

description

Ertek, G., Ozdol, F. and Degirmencioglu, B., “Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi”, YA/EM 2005, Istanbul, Turkey.

Transcript of Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Page 1: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği’nde bir Vaka Çalışması: 

ÖSS Verilerinin Analizi 

Gürdal Ertek, Fethi M. Özdöl, Barış Değirmencioğlu Sabancı Üniversitesi 

Mühendislik ve Doğa Bilimleri Fakültesi Orhanlı, Tuzla, Istanbul, 34956

Page 2: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Sunum Planı 

•  Veri Madenciliği ve Bilgi Görselleştirmesi •  “Boyutlandırılabilir Simgeler” yaklaşımı •  Literatür •  Eniyileme Modeli •  Yazılım Uygulaması •  Vaka Çalışması: ÖSS Verilerinin Analizi •  Gelecekteki Çalışmalar

Page 3: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

•  Günümüzde her sahada üretilen veri miktarı bilişim sistemlerinin gelişmesiyle birlikte katlanarak artmaktadır. 

•  Geçmişte – Veri toplamak önemli miktarda vakit gerektiren bir çalışma iken 

•  Günümüzde – Otomatik olarak toplanmakta olan verilerin incelenmesi daha çok önem kazanmaktadır.

Page 4: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Veri Madenciliği (Data Mining) 

•  Temel hedef: – Üretilmekte olan verilerin anlaşılmasını, yorumlanmasını ve ilgili kuruma (iş dünyası, eğitim, askeriye gibi) faydalı çıkarımlar yapılmasını sağlamaktır.

Page 5: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Veri Madenciliği •  Algoritma ağırlıklı matematiksel ve istatistiksel metodlar içeren çalışmalar oldukça geniş bir literatür oluşturmaktadırlar. 

•  Ne yazık ki bu çalışmalar –özellikle iş dünyasında­ istenen uygulanma seviyesine ulaşmamıştır. 

•  Bu metodların bir eksikliği sadece önceden belirlenebilecek tarzda öngörüler oluşturulmasıdır. 

•  Bir başka eksikliği ise son kullanıcıların anlamasının imkansız olduğu karmaşık algoritmalar kullanıyor olmalarıdır.

Page 6: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği (Visual Data Mining) 

(Bilgi Görselleştirmesi) (Information Visualization) 

•  Bilgisayar biliminin özellikle son 15 yılda önem kazanmış bir sahasıdır. 

•  1990 öncesinde verilerin grafiksel olarak incelenmesi dönük yapılan çalışmalar... 

•  1990 sonrasında –  Bilgisayarların hafıza, bilgi işleme ve 

grafiksel ara birim (GUI) boyutunda gelişmeleri 

–  Verilerin daha kolay toplanabilir hale gelmesi ile 

•  daha da olgunlaşmış ve bugünkü seviyesine ulaşmıştır.

Page 7: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği 

•  Amaç: – Özellikle çok­boyutlu­ verilerin görsel olarak grafiklerle sunulması yoluyla • Eldeki verilerden bilgiye ulaşmak • Bu bilgilerde saklı duran önemli noktaları açığa çıkarmaktır. 

•  Bu analiz sürecinde insan algılaması ve insan­bilgisayar etkileşimi önem kazanmaktadır.

Page 8: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Görsel Veri Madenciliği •  Verilerin görüntüsünü algılayan ve ilginç öngörüler bulmaya çalışan analist karmaşık algoritmaları anlamak zorunda değildir. 

•  Kendisine sunulan görsel etkileşim imkanları ile dilediği grafikleri dilediği parametrelerle dinamik olarak çizdirerek görsel sorgular yapabilir.

Page 9: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

Bu Sunumda... •  Görsel Veri Madenciliği’nde sıkça rastlanan bir yaklaşımı, simge (ikon) bazlı görselleştirmeyi esas alarak geliştirilen bir görselleştirme yaklaşımı ve bunun gerçek bir veri üzerinde uygulaması sunulacaktır.

Page 10: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

10 

“Boyutlandırılabilir Simgeler” (Sizeable Icons) 

•  Kategorik bir grup alan içeren ve sayısal bir ya da daha çok alan içeren veriler için uygulanabilmektir.

Page 11: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

11 

•  Bu yaklaşımda kategorik değişkenin farklı değerlerinin her biri bir kutu (box) olarak gösterilmekte, 

•  Her bir kutunun içi o değeri taşıyan elemanları simgeleyen renkli kare simgelerle (icons) doldurulmaktadır. 

•  Kare simgelerin rengi sayısal bir değişkenin değerini göstermektedir.

Page 12: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

12 

Literatür •  Keim (2002): Bilgi görselleştirmesi için sınıflandırma: – Görselleştirilecek veri tipi – Görselleştirme metodu – Etkileşim (interaction) ve çarpıtma (distortion) tekniği 

•  Web Kaynakları http://iv.homeunix.org/ http://otal.umd.edu/Olive/

Page 13: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

13 

Literatür: Simge Bazlı Görselleştirme 

(Icon­based Visualization) 

•  Sun (2003): Üretim verilerinin görselleştirilmesi – Standart bir görsel tasarımın yan yana kutularda kullanılması 

•  Beddow (1990): Gezegenlerin manyetik etkinliklerinin 13 boyutlu verisi 

•  Hearst (1995): Arama terimlerinin dokümanlar içinde dağılımı 

•  Ward (2002): Simge bazlı görselleştirme literatürünün taraması

Page 14: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

14 

Literatür: Boşluk Dolduran Görselleştirme 

(Space­filling Visualization) 

•  Mozaik gösterim (Mosaic display) (Spence, 2001, s20­23, s48­49) – Kutu boyutları her bir değere sahip kayıt sayısını gösterir. 

•  Ağaç­haritası (Treemap) (Johnson ve Shneiderman, 1991) – Hiyerarşik veriler tüm ekranı kaplayacak şekilde görüntülenebilir. 

•  Piksel bazlı görselleştirme (Pixel­based visualization) (Keim, 2002) – Ekrandaki herbir piksel veritabanındaki bir kaydı görüntüleyebilir. Böylece 1 milyona yakın kayıt görüntülenebilir.

Page 15: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

15 

Literatür: İnsan Gruplarının Görselleştirilmesi •  Bir insan grubunun gösterimi (Spence, 2001, s20­23, s48­49) 

•  Sosyal bir ağ (social network) oluşturan bir insan grubunun gösterimi (Xiong ve Donath, 1999) 

•  Hiyerarşik bir yapı gösteren bir insan grubunun gösterimi (Robertson vd., 1991)

Page 16: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

16 

•  Her bir küme bir kutu olarak gösterilmekte... •  Her bir eleman renkli bir simge olarak gösterilmektedir. 

•  Kutular gruplandıran değişkenin (partitioning attribute) farklı değerlerini taşır. 

•  Kare simgelerin rengi sayısal renklendiren değişkenin (coloring attribute) değerini gösterir. – Sarı: En büyük değer – Siyah: En küçük değer

Page 17: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

17 

s = 50 piksel 

x (h) = 4

Page 18: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

18 

Eniyileme Modeli (Optimization Model) 

En önemli değişkenler: s : her bir simgenin kenar uzunluğu x (h)  : her bir kutudaki yatay simge sayısı

Page 19: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

19 

Yazılım Uygulaması •  Java programlama dili, •  Eclipse Bütünleşik Geliştirme Ortamı ( http://www.eclipse.org ) kullanılmıştır. 

•  Veriler bir MS Access dosyasında yer almakta, ODBC bağlantısı ile SQL sorguları yapılmaktadır. 

•  Kullanıcı Java, SQL ya da MS Access bilmeden grafikler çizdirebilmektedir.

Page 20: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

20 

Vaka Çalışması 

• 2004 Öğrenci Seçme Sınavı’nda (ÖSS) EA ve SAY ilk 5000’e giren 5965 öğrencinin verileri: –Lise İsmi –Lise Tipi –Yerleştirildiği Üniversite –Yerleştirildiği Bölüm –Sayısal Puanı –Eşit Ağırlıklı Puanı

Page 21: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

21 

Genel Öngörüler (General Insights)

Page 22: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

22 

Lise Kıyaslaması (Benchmarking)

Page 23: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

23 

İlişki Yönetimi (Relationship Management)

Page 24: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

24 

Gelecekteki Çalışmalar 

•  Şu anda yapılamayan analizleri yapmaya olanak tanıyacak gösterimlerin geliştirilmesi ve uygulanması – Örn: ÖSS verilerinde yıldan yıla değişimlerin analizi 

•  Kullanıcının etkileşimli sorgular yapabilmesi

Page 25: Gorsel Veri Madenciligi’nde bir Vaka Calısması: OSS Verilerinin Analizi

25 

Teşekkürler... Sorular?