BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır....
Transcript of BÜYÜK VER İbte.bilgem.tubitak.gov.tr/sites/images/g3-4-2.pdfüretilmekte ve sürekli akmaktadır....
7/1/2014
1
TÜBİTAK
1
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
BÜYÜK VERİ
Abdulkadir ŞANProje Yöneticisi
TÜBİTAK
VERİ SİSTEMLERİ
2
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
Relational Database DataWarehouse
7/1/2014
2
TÜBİTAK
VERİ TÜRLERİ
3
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
TÜBİTAK
BÜYÜK VERİ NEDİR?
4
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
Verinin çok büyük bir kısmı YAPISAL OLMAYAN veridir ve şimdi bu veriyi GERÇEK-ZAMANLI
olarak işleme kabiliyetine sahibiz.
7/1/2014
3
TÜBİTAK
NEDEN ŞİMDİ ÖNEMLİ?
5
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
INTERNET VE GPS BAĞLANTILI AKILLI
TELEFONLARDAKİ ARTIŞ
AERIAL SENSORSAND SENSOR NETWORKS
SOSYAL AĞLARIN BENİMSENMESİ
Dünya genelinde 6.8 milyar telefon kullanıcısı ve 2.7milyar
internet kullanıcısı bulunmaktadır [1].
NASA Merkezinde iklim ve atmosfer similasyonu için 32 petabayt
gözlem verisi kullanılmakatdır [2].
Twitter’da her bir dakikada 100.000 tweet atılmaktadır. Facebook’ta
her bir dakikada 650.000 paylaşımda bulunulmaktadır. Her gün 144.000.000 tweet atılmakta ve 936.000.000 Facebook paylaşımı
gerçekleşmektedir [3].
[1] The International Telecommunication Union, 2013.[2] http://www.nccs.nasa.gov/[3] "Analytics: The real-world use of Big Data", IBM ve the Said Business School at the University of Oxford; 2012
TÜBİTAK
KİMLER KULLANIYOR?
6
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
[1] http://londoncalling.co/2013/04/using-big-data-to-fight-crime-and-predict-what-products-consumers-might-purchase-in-the-future/[2] http://www.google.org/flutrends/[3] http://rationality.org/2012/11/09/was-nate-silver-the-most-accurate-2012-election-pundit/[4] http://senseable.mit.edu/papers/publications.html
LOS ANGELAS POLİSİ VE
CALIFORNIA ÜNİVERSİTESİLAPD ve California Universitesi şuçun
işlenmeden önce tespit edilmesinde Büyük Veri teknolojilerini kullanıyor
[1].
GOOGLEGRİP
TRENDLERİ
Google Grip Trendleri uygulaması arama kelimelerini kullanarak grip virüsünün yayılımını
tespit ediyor [2].
SEÇİM SONUÇLARI
TAHMİNİ
İstatistikçi Nate Silver 2012 yılında senato
seçim sonuçlarını her bir bağımsız eyalet için doğru tahmin etti.
KENTSEL PLANLAMA
MIT mobil telefon verisini kullanarak trafik örüntülerinin tespit
etmekte ve bu örüntüler kentsel planlama için kullanılmaktadır [4].
7/1/2014
4
TÜBİTAK
BÜYÜK VERİNİN 4V’si
7
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
[1] http://almaden.ibm.com/colloquium/resources/Why%20Big%20Data%20Krishna.PDF
BÜYÜK VERİ İLE BAŞ EDEBİLMEK İÇİN YENİ YÖNTEMLERE VE TEKNOLOJİLERE İHTİYACIMIZ VAR!
Petabayt ve Zettabayt ölçeğinde
veri işlenmeyi beklemektedir.
Veri çok hızlı üretilmekte ve sürekli akmaktadır. Bunlara çok hızlı cevap
verilmesi gerekmektedir.
Veri çok farklı formatlarda
olmaktadır. Yapısal, yarı-yapısal, yapısal olmayan, metin, multi-medya
Veri içerisinde belirsizlikler vardır. Eksik veri, yanlış
girilmiş veri, veride yaşanan gecikmeler, sensör verileri, sosyal medya verileri
TÜBİTAK
BÜYÜK VERİ ZORLUKLARI
8
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
7/1/2014
5
TÜBİTAK
Hadoop
9
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
TÜBİTAK
Mimari
10
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
7/1/2014
6
TÜBİTAK
HDFS
11
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
• Dağıtık I/O + Birleşik Storage• Çok büyük dosyaları saklama imkanı
TÜBİTAK
HDFS
12
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
7/1/2014
7
TÜBİTAK
Map Reduce
13
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
TÜBİTAK
Map Reduce
14
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
7/1/2014
8
TÜBİTAK
HBase
15
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
Kolon tabanlı, NoSQL Veritabanı
TÜBİTAK
HBase
16
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
7/1/2014
9
TÜBİTAK
Pig - Hive
17
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
Pig: Hadoop’da MapReduce işleri oluşturmak için geliştirilen üst düzey platform.
Hive: Veri özetleme, sorgulama ve analiz işlemleri için Hadoop üzerinde geliştirilmiş DataWarehouse.
TÜBİTAK
MR – Pig - Hive
18
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
MapReduce
PigHive
7/1/2014
10
TÜBİTAK
Mahout - Giraph
19
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
• Makine öğrenme kütüphanesi• Java dilinde• Hadoop ile uyumlu
• Graph Framework• Java dilinde• Hadoop ile uyumlu
Facebook, 1 trilyon kenarı 200 makine ile 4 dakikada işledi.
TÜBİTAK
Hadoop Ekosistemi
20
Anayurt Güvenliği Md. Yrd.
Metin Madenciliği ve Kaynaştırma Sistemleri
7/1/2014
11
TÜBİTAK
21
TEŞEKKÜRLER