Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde...

25
Veri Ambarları Erdem Alparslan

Transcript of Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde...

Page 1: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarları

Erdem Alparslan

Page 2: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

İçerik

• Veri Ambarı nedir ?

• Data Mart

• OLTP ve Veri Ambarı arasındaki farklar

• Veri Ambarının Yararları

• Veri Ambarı Mimarileri

• Ana Kavramlar

• Araçlar ve Teknolojiler

Page 3: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı Nedir ?

• “Veri ambarı basitce, farklı kaynaklardan toplanmış, son kullanıcının anlayabileceği ve ticari içeriklerde kullanabileceği hale getirilmiş tek, tam ve tutarlı veri kaydıdır.”

-- Barry Devlin, IBM

Page 4: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı Nedir ? (Alternatif Bakış Açısı)

• Veri Ambarı bir

– Konu tabanlı,

– Entegre,

– Çeşitli zamanlarda,

– Geçici olmayan(kalıcı),

özelliklere sahip veri topluluğunun, organizasyonel karar verme’de önceliklik olarak kullanılmasıdır.

-- W.H. Inmon, Building the Data Warehouse, 1992

Page 5: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı Nedir ? (Alternatif Bakış Açısı)

• Konu Tabanalı : – Veri Ambarı işletmenin/yatırımın temel konusu etrafında kurulmuştur.. temel

uygulama alanlarından daha ziyade.. Bu uygulama-tabanlı veri’den ziyade karar-destek datasının saklanmasında yansımıştır.

• Entegre : – Kaynak veri, şirket çapında kullanılan farklı uygulamalardan gelir. Kaynak veri

kullanımı çok kez tutarsızdır.. Entegre edilmiş veri kaynağı, kullanıcılara birleşik veri görünümü sağlayacak şekilde tutarlı hale getirilmelidir.

• Çeşitli Zamanlarda : – Veri ambarındaki kaynak veri sadece bazı zaman dilimlerinde yada bazı anlarda

doğru ve geçerlidir.

• Kalıcı : – Veri gerçek zamanlı güncellenmez ama OS’den alındığında düzenli bir forma

uygun olarak yenidir. Yeni veri her zaman veri tabanına yerine koymak yerine ek olarak eklenir. Veri tabanı bu veriyi emer ve önceki veri ile entegre eder.

Page 6: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambar(cılığı) Tanımları

• Veri Ambarı – Karar destek için özellikle dizayn edilmiş konu tabanlı veri

deposudur.

– Karar verme sistemini kullanan sadece yazma hakkına sahip analitik veritabanıdır.

– Çoklu kullanıcı grupları tarafından Ad-Hoc bulmaya ve veri tabanında hiyerarşik yapının aşağı seviyelerinde yer alan veriye ulaşma analizine izin veren, bağlantılı kaynak sistemlerden gelen detaylı verinin merkezi depolanmasıdır.

– Veri Ambarcılığı bir işlemdir, bir ürün değil. Bir kısmın belirli ve detaylı bir görünümü yada bütün ticari amaçlar için farklı kaynaklardan gelen verilerin birleştirilmesi ve yönetilmesine yönelik bir tekniktir.

Page 7: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı şu soruların cevaplarını cevaplamaya yardımcı olur :

• Bu yeni ürün/hizmeti hangi kullanıcı satın almaya daha yatkındır ?

• En karlı müşterilerim ve ellerindeki ürünler nelerdir ?

• En çok ve en az karlı ürünler hangileridir ?

• Müşterilerimiz ileride hangi ürün yada servisleri isteyecekler ?

• Harcanabilir gelir nedir ve hangi ürünler bundan yararlanabilir ?

• Önümüzdeki 6 ay içerisinde hangi müşteriler kötü kredi risk’inde olur ?

• Piyasa segmentlerimiz arasında rekabet nasıl gidiyor ?

• Hangi müşteriler rekabet piyasasına daha yatkın duruyor ?

Page 8: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Data Marts

• Bağımsız Datamart özel bir kullanıcı grubu tarafından analiz edilmiş işlem ve eylemsel datanın özel ve dağınık bir alt kümesidir. – Avantajı : Uygulaması kolay, yüksek yatırım getirisi(ROI – Return on

investment) – Dezavantajı : Ahengi sonradan çok zor sağlanan “data island”ların

çoğalması

• Bağımlı Datamart belirli bir amaç için seçilmiş yatırımsal veri ambarı(enterprise datawarehouse)’un bir alt kümesidir. (Örn : Pazarlama, Finans v.b) – Avantajı : “Single version of the truth” – Dezavantajı : Uygulama süresinin uzunluğu

• Datamartlar İlişkisel yada OLAP modelleri kullanılarak uygulanabilir. Ayrıca “flat file”ların bir koleksiyonudur. (Örn : Data Mining Data Marts)

Page 9: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı Mimarisi – 1

Veri kaynak sistemlerden, veri tabanlarından ve dosyalardan ayrıştırılabilir. Ayrıştırılmış veri, veri ambarına yüklenmeden önce entegre edilir ve dönüştürülür. Veri ambarı ayrı, karar destek için özellikle yaratılmış ayrı ve read-only bir veri

tabanıdır. Kullanıcı veriye front-end bir araç yada uygulama ile erişir.

Page 10: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı Mimarisi – 2

• Dağınık Mimari. Veri direkt olarak İlgili Veri Ambarına yüklenir. (Bağımsız Data Mart)

Page 11: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarcılığı Mimarisi – 3

• Daha iyi bir seçenek : Kurumsal Veri Ambarını, Konu alanı ile ilgili veri ambarları besler (Bağımlı DataMartlar)

Page 12: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

The Corporate Information Factory Bill Inmon’un Yaklaşımı

Page 13: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

The Multidimensional Architecture [Çok Boyutlu Mimari] (Kimball’un Yaklaşımı)

Page 14: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Inmon v.s Kimball

Page 15: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Inmon’un Yaklaşımı

• Avantajları : – İyi yapılandırılmış, tanımlanmış

– Uygulama bağımsız, ilgi alanı tabanlı veri modeli

– Data martları yaratmak, veri ambarı yaratmaktan daha basit

– Hedef model bilindiğinden, depolama alanının iyi yapılandırılması olası

• Dezavantajları : – Veri Ambarını sorgulamak zor(3NF veri tabanı), sorgulara tepki

süresi uzun,

– Yapılandırma süresi uzun,

– İleride tam modeli nasıl bileceksin ?

– Aşamalı/adım adım yapılandırmak zor,

Page 16: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Kimball’ın Yaklaşımı

Avantajları : Son kullanıcı tabanlı, kullanıcı dostu, çok boyutlu veri modelleri

Aşamalı/Adım adım yaratılması daha kolay ve daha hızlı

Ayrı Data Martları sorgulamak daha kolay

Sorgulara tepki süresi kısa

Dezavantajları : Daha az yapısal, daha az tanımlı

Sonraki Data Mart’ların yaratılması kolay değil(3.’den sonra)

Depolama alanı büyümeye başladıkca, yönetmek zorlaşır

Data Mart’lar arası sorguları yaratmak zordur

Page 17: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Modern BI Ortamı

Page 18: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Alternatif Modern B.I. Mimarisi

Page 19: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

OS vs DW vs DM

Page 20: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Veri Ambarı İçin Kullanılan Modelleme Teknikleri

• Veritabanı tasarımında kullanılan E-R modeli iki boyutlu olup, tüm varlıklara eşitmiş gözü ile bakılır.

• Veri ambarları için çok boyutlu perspektifi gerçekleyebilecek yeni modelleme teknikleri keşfedilmiştir:

– Yıldız (Star)

– Kar Tanesi (Snowflake)

– Karma (Mixed)

Page 21: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Yıldız (Star) Modeli

Boyut tablosu, gerçek tablosunda saklanılan veriyi indeksler ve organize eden niteliklerden oluşmaktadır.

Boyut tablosu, boyutu tanımlayan nitelikleri içermektedir.

Gerçek tablosu, temel iş ölçümlerini içeren niteliklerden oluşur. Bir gerçek tablo, o tabloya ait spesifik nitelikler ve boyut tablolarıyla ilişkili yabancı anahtarları içermektedir.

Page 22: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Kar Tanesi (Snowflake) Modeli

• Kar tanesi modeli, yıldız modelinin geliştirilmiş halidir.

• Gerçek tablolarının her bir boyut tablosu başka boyut tablolarına da sahiptir.

• Boyut tabloları, bir çok niteliğe sahip olduklarında, normalize edilmeleri gereklidir.

• Yıldız modeli normalize edilmiş boyut tablolarını desteklemediğinden, bu durumda kar tanesi modeli tercih edilmelidir.

Page 23: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Kar Tanesi Modelinin Avantajları ve Dezavantajları

• Avantajları: – Tüm tekrarlanılan veriler kaldırıldığından, saklama alanı

korunmuş olur.

– Büyük normalize edilmemiş tablolar yerine, Join’ler için normalize edilmiş daha küçük tablolar kullanılır.

• Dezavantajları: – Sorgu sonucunda Join edilmesi gereken tabloların sayısının

belirlenmesindeki zorluk

– Belirli bir sorguda kullanılacak tabloyu belirlemedeki zorluk

Page 24: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Karma (Mixed) Modeli

• Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir.

• Böyle durumlarda tüm tasarımda ne yıldız ne de kar tanesi modeli kullanılamaz. Her iki modelin bir kombinasyonuna ihtiyaç duyulur.

• Bu kombinasyon modeline karma model denilmektedir.

Page 25: Veri Ambarları - WordPress.com•Bazı veritabanı dizaynlarında, boyut tabloları veri hacminde çok geniş farklılıklar gösterir. •Böyle durumlarda tüm tasarımda ne yıldız

Sorusu Olan ?