Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde...
Transcript of Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde...
Veri Ambarları
Erdem Alparslan
İçerik
• Veri Ambarı nedir ?
• Data Mart
• OLTP ve Veri Ambarı arasındaki farklar
• Veri Ambarının Yararları
• Veri Ambarı Mimarileri
• Ana Kavramlar
• Araçlar ve Teknolojiler
Veri Ambarı Nedir ?
• “Veri ambarı basitce, farklı kaynaklardan toplanmış, son kullanıcının anlayabileceği ve ticari içeriklerde kullanabileceği hale getirilmiş tek, tam ve tutarlı veri kaydıdır.”
-- Barry Devlin, IBM
Veri Ambarı Nedir ? (Alternatif Bakış Açısı)
• Veri Ambarı bir
– Konu tabanlı,
– Entegre,
– Çeşitli zamanlarda,
– Geçici olmayan(kalıcı),
özelliklere sahip veri topluluğunun, organizasyonel karar verme’de önceliklik olarak kullanılmasıdır.
-- W.H. Inmon, Building the Data Warehouse, 1992
Veri Ambarı Nedir ? (Alternatif Bakış Açısı)
• Konu Tabanalı : – Veri Ambarı işletmenin/yatırımın temel konusu etrafında kurulmuştur.. temel
uygulama alanlarından daha ziyade.. Bu uygulama-tabanlı veri’den ziyade karar-destek datasının saklanmasında yansımıştır.
• Entegre : – Kaynak veri, şirket çapında kullanılan farklı uygulamalardan gelir. Kaynak veri
kullanımı çok kez tutarsızdır.. Entegre edilmiş veri kaynağı, kullanıcılara birleşik veri görünümü sağlayacak şekilde tutarlı hale getirilmelidir.
• Çeşitli Zamanlarda : – Veri ambarındaki kaynak veri sadece bazı zaman dilimlerinde yada bazı anlarda
doğru ve geçerlidir.
• Kalıcı : – Veri gerçek zamanlı güncellenmez ama OS’den alındığında düzenli bir forma
uygun olarak yenidir. Yeni veri her zaman veri tabanına yerine koymak yerine ek olarak eklenir. Veri tabanı bu veriyi emer ve önceki veri ile entegre eder.
Veri Ambar(cılığı) Tanımları
• Veri Ambarı – Karar destek için özellikle dizayn edilmiş konu tabanlı veri
deposudur.
– Karar verme sistemini kullanan sadece yazma hakkına sahip analitik veritabanıdır.
– Çoklu kullanıcı grupları tarafından Ad-Hoc bulmaya ve veri tabanında hiyerarşik yapının aşağı seviyelerinde yer alan veriye ulaşma analizine izin veren, bağlantılı kaynak sistemlerden gelen detaylı verinin merkezi depolanmasıdır.
– Veri Ambarcılığı bir işlemdir, bir ürün değil. Bir kısmın belirli ve detaylı bir görünümü yada bütün ticari amaçlar için farklı kaynaklardan gelen verilerin birleştirilmesi ve yönetilmesine yönelik bir tekniktir.
Veri Ambarı şu soruların cevaplarını cevaplamaya yardımcı olur :
• Bu yeni ürün/hizmeti hangi kullanıcı satın almaya daha yatkındır ?
• En karlı müşterilerim ve ellerindeki ürünler nelerdir ?
• En çok ve en az karlı ürünler hangileridir ?
• Müşterilerimiz ileride hangi ürün yada servisleri isteyecekler ?
• Harcanabilir gelir nedir ve hangi ürünler bundan yararlanabilir ?
• Önümüzdeki 6 ay içerisinde hangi müşteriler kötü kredi risk’inde olur ?
• Piyasa segmentlerimiz arasında rekabet nasıl gidiyor ?
• Hangi müşteriler rekabet piyasasına daha yatkın duruyor ?
Data Marts
• Bağımsız Datamart özel bir kullanıcı grubu tarafından analiz edilmiş işlem ve eylemsel datanın özel ve dağınık bir alt kümesidir. – Avantajı : Uygulaması kolay, yüksek yatırım getirisi(ROI – Return on
investment) – Dezavantajı : Ahengi sonradan çok zor sağlanan “data island”ların
çoğalması
• Bağımlı Datamart belirli bir amaç için seçilmiş yatırımsal veri ambarı(enterprise datawarehouse)’un bir alt kümesidir. (Örn : Pazarlama, Finans v.b) – Avantajı : “Single version of the truth” – Dezavantajı : Uygulama süresinin uzunluğu
• Datamartlar İlişkisel yada OLAP modelleri kullanılarak uygulanabilir. Ayrıca “flat file”ların bir koleksiyonudur. (Örn : Data Mining Data Marts)
Veri Ambarı Mimarisi – 1
Veri kaynak sistemlerden, veri tabanlarından ve dosyalardan ayrıştırılabilir. Ayrıştırılmış veri, veri ambarına yüklenmeden önce entegre edilir ve dönüştürülür. Veri ambarı ayrı, karar destek için özellikle yaratılmış ayrı ve read-only bir veri
tabanıdır. Kullanıcı veriye front-end bir araç yada uygulama ile erişir.
Veri Ambarı Mimarisi – 2
• Dağınık Mimari. Veri direkt olarak İlgili Veri Ambarına yüklenir. (Bağımsız Data Mart)
Veri Ambarcılığı Mimarisi – 3
• Daha iyi bir seçenek : Kurumsal Veri Ambarını, Konu alanı ile ilgili veri ambarları besler (Bağımlı DataMartlar)
The Corporate Information Factory Bill Inmon’un Yaklaşımı
The Multidimensional Architecture [Çok Boyutlu Mimari] (Kimball’un Yaklaşımı)
Inmon v.s Kimball
Inmon’un Yaklaşımı
• Avantajları : – İyi yapılandırılmış, tanımlanmış
– Uygulama bağımsız, ilgi alanı tabanlı veri modeli
– Data martları yaratmak, veri ambarı yaratmaktan daha basit
– Hedef model bilindiğinden, depolama alanının iyi yapılandırılması olası
• Dezavantajları : – Veri Ambarını sorgulamak zor(3NF veri tabanı), sorgulara tepki
süresi uzun,
– Yapılandırma süresi uzun,
– İleride tam modeli nasıl bileceksin ?
– Aşamalı/adım adım yapılandırmak zor,
Kimball’ın Yaklaşımı
Avantajları : Son kullanıcı tabanlı, kullanıcı dostu, çok boyutlu veri modelleri
Aşamalı/Adım adım yaratılması daha kolay ve daha hızlı
Ayrı Data Martları sorgulamak daha kolay
Sorgulara tepki süresi kısa
Dezavantajları : Daha az yapısal, daha az tanımlı
Sonraki Data Mart’ların yaratılması kolay değil(3.’den sonra)
Depolama alanı büyümeye başladıkca, yönetmek zorlaşır
Data Mart’lar arası sorguları yaratmak zordur
Modern BI Ortamı
Alternatif Modern B.I. Mimarisi
OS vs DW vs DM
Veri Ambarı İçin Kullanılan Modelleme Teknikleri
• Veritabanı tasarımında kullanılan E-R modeli iki boyutlu olup, tüm varlıklara eşitmiş gözü ile bakılır.
• Veri ambarları için çok boyutlu perspektifi gerçekleyebilecek yeni modelleme teknikleri keşfedilmiştir:
– Yıldız (Star)
– Kar Tanesi (Snowflake)
– Karma (Mixed)
Yıldız (Star) Modeli
Boyut tablosu, gerçek tablosunda saklanılan veriyi indeksler ve organize eden niteliklerden oluşmaktadır.
Boyut tablosu, boyutu tanımlayan nitelikleri içermektedir.
Gerçek tablosu, temel iş ölçümlerini içeren niteliklerden oluşur. Bir gerçek tablo, o tabloya ait spesifik nitelikler ve boyut tablolarıyla ilişkili yabancı anahtarları içermektedir.
Kar Tanesi (Snowflake) Modeli
• Kar tanesi modeli, yıldız modelinin geliştirilmiş halidir.
• Gerçek tablolarının her bir boyut tablosu başka boyut tablolarına da sahiptir.
• Boyut tabloları, bir çok niteliğe sahip olduklarında, normalize edilmeleri gereklidir.
• Yıldız modeli normalize edilmiş boyut tablolarını desteklemediğinden, bu durumda kar tanesi modeli tercih edilmelidir.
Kar Tanesi Modelinin Avantajları ve Dezavantajları
• Avantajları: – Tüm tekrarlanılan veriler kaldırıldığından, saklama alanı
korunmuş olur.
– Büyük normalize edilmemiş tablolar yerine, Join’ler için normalize edilmiş daha küçük tablolar kullanılır.
• Dezavantajları: – Sorgu sonucunda Join edilmesi gereken tabloların sayısının
belirlenmesindeki zorluk
– Belirli bir sorguda kullanılacak tabloyu belirlemedeki zorluk
Karma (Mixed) Modeli
• Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir.
• Böyle durumlarda tüm tasarımda ne yıldız ne de kar tanesi modeli kullanılamaz. Her iki modelin bir kombinasyonuna ihtiyaç duyulur.
• Bu kombinasyon modeline karma model denilmektedir.
Sorusu Olan ?