T.C.tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi...
Transcript of T.C.tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi...
T.C.
MARMARA ÜNİVERSİTESİ
SOSYAL BİLİMLER ENSTİTÜSÜ
GAZETECİLİK ANABİLİM DALI
BİLİŞİM BİLİM DALI
SOSYAL BİLİMLERDEKİ AKADEMİK ÇALIŞMALARDA BÜYÜK VERİ
KULLANIMI
Yüksek Lisans Tezi
SERKAN BAYRAKCI
İstanbul, 2015
T.C.
MARMARA ÜNİVERSİTESİ
SOSYAL BİLİMLER ENSTİTÜSÜ
GAZETECİLİK ANABİLİM DALI
BİLİŞİM BİLİM DALI
SOSYAL BİLİMLERDEKİ AKADEMİK ÇALIŞMALARDA BÜYÜK VERİ
KULLANIMI
Yüksek Lisans Tezi
SERKAN BAYRAKCI
Danışman: PROF. DR. CEM SEFA SÜTCÜ
İstanbul, 2015
i
GENEL BİLGİLER
Adı ve Soyadı : Serkan BAYRAKCI
Anabilim Dalı : Gazetecilik
Programı : Bilişim
Tez Danışmanı : Prof. Dr. Cem Sefa SÜTCÜ
Tez Türü ve Tarihi : Yüksek Lisans – Temmuz, 2015
Anahtar Kelimeler : Büyük Veri, Analiz Teknikleri, İnternet Araştırmaları,
Araştırma Yöntemleri, Bilgi Hiyerarşisi
ÖZET
SOSYAL BİLİMLERDEKİ AKADEMİK ÇALIŞMALARDA BÜYÜK VERİ
KULLANIMI
Teknolojik gelişmelerle birlikte üretilen, depolanan ve işlenen veri miktarı artmıştır.
Akıllı telefonlar, kameralar ve sensörler gibi çeşitli makineler ve sosyal medya kullanıcıları
tarafından sürekli farklı formatlarda veri üretilerek, anlık olarak iletilmeye başlamıştır. Büyük
Veri* kavramı farklı formatlarda sürekli artış gösteren devasa miktardaki veriyi ifade
etmektedir. Bu çalışmanın amacı, Büyük Veri’nin mevcut istatistiksel analiz teknikleriyle ve
sosyal bilimlerdeki araştırma yöntemleriyle anlamlandırılmasının mümkün olup olmadığını
incelemek ve Büyük Veri’nin akademik çalışmalarda kullanımını araştırmaktır.
Çalışmada yapılan literatür taraması sonucunda Büyük Veri analiz tekniklerinin
mevcut istatistiksel yöntemlere dayandığı ve özellikle sosyal bilimlerde mevcut bulunan
araştırma süreçleriyle benzerlik gösterdiği sonucuna varılmıştır. Literatür çalışmasına ek
olarak yapılan nicel araştırmayla birlikte Büyük Veri ve analiz tekniklerinin 2012 yılı
sonrasında akademik çalışmalarda 2012 yılı öncesine nazaran çok daha fazla yer aldığı
saptanmıştır.
* Büyük Veri, bu çalışmada vurgulanmak istendiği için baş harfleri büyük olarak belirtilmiştir.
ii
GENERAL KNOWLEDGE
ABSTRACT
THE USE OF BIG DATA IN ACAMIC RESEARCHES IN SOCIAL
SCIENCES
With the technological developments, the quality of the data that is produced, stored
and processed has been increased. Different formats of data were produced and transmitted
instantaneously and constantly by social media users and various machines like smartphones,
cameras and censors. The concept of Big Data has been used to define the increasing size of
data, the increasing rate at which it is produced and transmitted, and the increasing range of
formats of these data. The aim of this study has been set as to find out whether it is possible
to explain the Big Data with the current statistical analysis techniques and research methods
used in social sciences, and to investigate the usage of Big Data in academic researches.
In this study, after reviewing the literature, it has been found out that Big Data
analysis techniques are compatible with the current statistical techniques, and it shows
similarities with the research processes in social sciences. With the qualitative research that
has been conducted in addition to the literature review, it became apparent that Big Data and
analysis techniques were used much more in post-2012 in comparison with pre-2012.
Name and Surname :
Serkan BAYRAKCI
Field :
Journalism
Programme :
Informatics
Supervisor : Professor Cem Sefa SÜTCÜ
Degree Awarded and Date
:
Master – July, 2015
Keywords
:
Big Data, Analysis Techniques, Internet Studies, Research
Methods, Knowledge Hierarchy
iii
ÖNSÖZ
Yüksek lisans ders dönemimde ve bu tez çalışmam sürecinde bana yol gösteren
danışmanım Sayın Prof. Dr. Cem Sefa SÜTCÜ’ye, tezlerimizin her aşamasında birbirimize
destek olduğumuz değerli arkadaşım Arş. Gör. Alaattin ASLAN’a, çeviri konusunda
yardımını esirgemeyen arkadaşım Mustafa DOĞAN’a, manevi desteklerini esirgemeyen
çalışma arkadaşlarıma, akademik hayata girme kararını almamda ve bu yolda ilerlemem
konusunda desteklerini sürekli hissettiğim dostum Muhammed Mustafa KURT’a, ağabeyim
Fatih BAYRAKCI’ya, anneme ve tüm aile bireylerime sonsuz teşekkürlerimi sunar, bu
çalışmamı bu günleri görememiş olan rahmetli babama ithaf ederim. Çalışmanın tüm ilgililere
yararlı olmasını dilerim.
İstanbul, 2014 Serkan BAYRAKCI
iv
İÇİNDEKİLER Sayfa No.
ŞEKİL LİSTESİ.................................................................................................... vi
GRAFİK LİSTESİ ............................................................................................... vii
TABLO LİSTESİ ................................................................................................ viii
1. GİRİŞ ...............................................................................................................1
2. VERİ, ENFORMASYON, BİLGİ (V-E-B) VE META VERİ İLİŞKİSİ VE
BÜYÜK VERİ ÖZELLİKLERİ
2.1. Veri Sınıflandırmaları.................................................................................6
2.1.1. Nicel ve Nitel Veri ................................................................................6
2.1.2. Birincil ve İkincil Veri ..........................................................................7
2.1.3. Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış Veri .........8
2.1.4. Atıl (Exhusted) Veri ve Sosyal Veri ......................................................9
2.2. Enformasyon ve Bilgi Kavramları ............................................................ 11
2.3. Meta Veri ve V-E-B İlişkisi ...................................................................... 15
2.4. Bilgi Hiyerarşisi ....................................................................................... 18
2.5. Büyük Veri ve Özellikleri......................................................................... 21
2.6. Büyük Veri’nin Boyutları ......................................................................... 23
2.6.1. Veri Çeşitliliği .................................................................................... 26
2.6.2. Veri Hacmi ......................................................................................... 27
2.6.3. Veri Hızı ............................................................................................. 29
2.6.4. Doğruluk............................................................................................. 31
2.6.5. Veri Değeri ......................................................................................... 31
2.7. Büyük Veri’nin Diğer Özellikleri ............................................................. 32
2.7.1. Büyük Veri’nin Kapsamlılığı .............................................................. 32
2.7.2. Büyük Veri’nin Dizinsellik ve Çözünürlük Özelliği ............................ 34
2.7.3. Büyük Veri’nin İlişkiselliği ................................................................. 34
2.7.4. Büyük Veri’nin Esneklik Özelliği ....................................................... 36
2.8. Büyük Veri’nin İlişkisi Olduğu Temalar ................................................... 36
2.9. Büyük Veri’nin Sınırlılıkları ve Zorlukları ............................................... 43
v
3. SOSYAL BİLİMLERDE GELENEKSEL SOSYAL BİLİMLER
ARAŞTIRMALARI İLE İNTERNET ARAŞTIRMALARININ KARŞILAŞTIRILMASI
3.1. Sosyal Bilimlerde Araştırmanın Temelleri ................................................ 45
3.1.1. Araştırma Süreci Bağlamında Karşılaştırma ........................................ 46
3.1.2. Veri Toplama Araçları Bağlamında Karşılaştırma ............................... 48
3.2. Sosyal Bilinlerde Nicel ve Nitel Yöntemler .............................................. 51
3.2.1. Nicel Araştırma Yöntemler Bağlamında Karşılaştırma ........................ 51
3.2.2. Nitel Araştırma Yöntemler Bağlamında Karşılaştırma ......................... 62
3.3. Sosyal Bilimlerde Araştırmaların Analizlerinde Kullanılan Teknikler....... 70
3.3.1. İçerik Analizi Bağlamında Karşılaştırma ............................................. 70
3.3.2. Söylem Analizi Bağlamında Karşılaştırma .......................................... 75
3.3.3. İnternet Araştırmalarında Büyük Veri Analizi ..................................... 79
4. BÜYÜK VERİ’NİN AKADEMİK ÇALIŞMALARDA KULLANIMI
ÜZERİNE ARAŞTIRMA
4.1. Araştırmanın Amacı ve Önemi ............................................................... 108
4.2. Araştırmanın Metodolojisi ve Modeli ..................................................... 109
4.3. Araştırmanın Sınırlılıkları....................................................................... 112
4.4. Araştırmanın Bulguları ve Değerlendirme .............................................. 112
4.5. Araştırmanın Sonucu .............................................................................. 128
5. SONUÇ ........................................................................................................ 132
KAYNAKÇA ....................................................................................................... 141
vi
ŞEKİL LİSTESİ
Sayfa No
Şekil 1: Verinin Enformasyona Dönüşüm Süreci .................................................... 12
Şekil 2: Veri-Enformasyon-Bilgi Hiyerarşisi .......................................................... 19
Şekil 3: Büyük Veri Boyutları ................................................................................ 25
Şekil 4: Büyük Veri Temaları ................................................................................. 37
Şekil 5: Çevrimiçi Deneylerin Yapısı...................................................................... 59
Şekil 6: Comprehensive Meta-Analysis (CMA) 2.0 Arayüzü .................................. 61
Şekil 7: CMA 2.0 ile Yapılmış Örnek Bir Meta Analiz Diagramı ............................ 62
Şekil 8: Etnogratik Araştırmanın Çok Boyutlu Çerçevesi ........................................ 65
Şekil 9: Nvivo Arayüzü .......................................................................................... 73
Şekil 10: Atlas.ti Arayüzü ve Ekran Görüntüleri ..................................................... 75
Şekil 11: Van Dijk’in Söylem Analizi ..................................................................... 77
Şekil 12: Twitter Söylem Analizi Çözümleme Şablonu ........................................... 78
Şekil 13: Veri Ön İşleme Aşamaları ........................................................................ 87
Şekil 14: Veri Madenciliği Yöntemleri ................................................................... 93
Şekil 15: Kümeleme Örneği.................................................................................... 95
Şekil 16: Büyük Veri Analiz Tekniklerinin Akademik Çalışmalarda Kullanımına
İlişkin Tarama Modeli ........................................................................................................ 110
vii
GRAFİK LİSTESİ
Sayfa No.
Grafik 1: Yapılandırılmış ve Yapılandırılmamış Veri ...............................................9
Grafik 2: Başlığında “Büyük Veri” Geçen Akademik Çalışmaların Yıllara göre
Dağılımı ............................................................................................................................. 113
Grafik 3: Kümeleme Tekniklerinin Özetlerdeki Arama Sonuçları ........................ 119
Grafik 4: Özetinde “Büyük Veri” Kavramı Geçen Tezlerin Yıllara göre Dağılımı 120
Grafik 5: Yıllara göre Büyük Veri Konusundaki Akademik Çalışmalar ............... 127
viii
TABLO LİSTESİ
Sayfa No.
Tablo 1: Veri-Enformasyon-Bilgi’ye Yönelik Farklı Kavramsal Bakış Açıları ....... 14
Tablo 2: Meta Veri Türleri ve Tanımları ................................................................ 16
Tablo 3: Çeşitli Servislerin Meta Verileri ............................................................... 17
Tablo 4: Büyük Veri Tanımları .............................................................................. 22
Tablo 5: Büyük Veri Boyutlarının Google’da Arama Sıralamaları Sonuçları .......... 26
Tablo 6: Veri Hacmi Ölçüleri ................................................................................. 28
Tablo 7: Veri Toplama Araçları ve Özellikleri ....................................................... 48
Tablo 8: Tarama Araştırması Türleri ...................................................................... 54
Tablo 9: Blog Tarama Araçları ve Özellikleri ........................................................ 56
Tablo 10: Nitel Araştırmaların Özellikleri .............................................................. 63
Tablo 11: Söylem Analizi Temel Kavramları ......................................................... 76
Tablo 12: Tek Değişkenli, İki Değişkenli ve Çok Değişkenli Analiz Teknikleri ..... 81
Tablo 13: Veri Bilimi, İstatistik ve Veri Madenciliği Arasındaki Farklar ................ 91
Tablo 14: Paralel İşleme Modelleri ve Özellikleri................................................. 100
Tablo 15: Metin Madenciliği Yaklaşımları ........................................................... 102
Tablo 16: Fikir Madenciliği Görevleri .................................................................. 105
Tablo 17: Araştırmada Taranan Kavramlar ve Türkçe Karşılıkları ........................ 111
Tablo 18: YÖK Veritabanında Yer Alan Tezlerin Tür ve Yazım Dillerinin Yıllara
göre Dağılımı ..................................................................................................................... 114
Tablo 19: Akademik Çalışmaların Başlıklarında Yapılan Arama Sonuçları .......... 115
Tablo 20: Akademik Çalışmaların Özetlerinde Yapılan Arama Sonuçları ............. 118
Tablo 21: Akademik Çalışmaların Anahtar Kelimelerinde Yapılan Arama Sonuçları
........................................................................................................................................... 122
Tablo 22: Akademik Çalışmaların Metin İçlerinde Yapılan Arama Sonuçları ....... 125
Tablo 23: Büyük Veri Kavramının Akademik Çalışmalarda Arama Sonuçları ...... 128
1
1. GİRİŞ
Web 2.0 ve sosyal medyanın gelişmesiyle birlikte, kullanıcılar içerik üretmeye ve
ürettikleri içerikleri paylaşabilmeye başlamışlardır. Sürekli gelişim halinde olan sosyal medya
platformları kullanıcılara farklı formatlara sahip içerikleri de aynı anda paylaşabilme imkânı
sağlamıştır. Örneğin metin, fotoğraf ve video gibi üç farklı formattaki veri aynı anda
paylaşılabilir olmuştur. Böylece farklı formatlardaki veri miktarı giderek artmış ve bu durum
bilgisayar bilimlerinden sosyal bilimlere, pazarlamadan, sağlık bilimlerine kadar birçok
bilimsel disiplinin dikkatini çekmiştir. Sürekli artan verinin analiz edilmesi de giderek
zorlaşmıştır. İşte tam bu noktada karşımıza çıkan Büyük Veri kavramı, farklı formatlardaki ve
sürekli artış içinde olan devasa miktardaki veriyi ve söz konusu verileri analiz edebilme
becerisi olarak ifade edilmektedir. Büyük Veri, sadece kullanıcılar tarafından üretilen veriyi
değil aynı zamanda makineler ve sensörler tarafından üretilen veriyi de kapsamaktadır. Birçok
alan için giderek önem kazanan Büyük Veri’nin analizi için özel şirketler ve kamu kuruluşları
tarafından ciddi yatırımlar yapılmakta, yeni teknikler ve yazılımlar geliştirilmektedir. Bu
bağlamda ortaya çıkan “Mevcut araştırma yöntem ve teknikleri Büyük Veri’nin
anlamlandırılması için uygun mudur?”, “Mevcut istatistiksel analiz teknikleri Büyük Veri için
uygun mudur?” ve “ Akademik çalışmalarda Büyük Veri yer almakta mıdır?” ifadeleri bu
çalışmanın cevap aradığı temel sorular olmuştur. Bu temel soruların yanında çalışmada
destekleyici bir işlev gören şu sorulara da cevap aranmıştır.
Sosyal bilimlerde geleneksel araştırmalarla internet araştırmalarının
benzerlikleri ve farklılıkları nelerdir?
Sosyal bilimlerdeki internet araştırmalarıyla Büyük Veri araştırmaları
arasındaki ilişki nedir?
Büyük Veri’yle ilgili Türkiye’deki akademik çalışmaların durumu nedir ve
dünyadaki akademik çalışmalarla paralellik göstermekte midir?
Bahsi geçen sorunsal bağlamında, bu çalışmanın amacı; Büyük Veri’nin
anlamlandırılması için sosyal bilimlerdeki geleneksel araştırma yöntemlerinin ve mevcut
istatistiksel analiz tekniklerinin uygun olup olmadığını tartışmak ve yapılan araştırmayla
Büyük Veri’nin akademik çalışmalarda kullanılıp kullanılmadığını incelemektir. Bu
çalışmada yöntem olarak literatür taraması kullanılmış olup, mevcut araştırma ve istatistiksel
analiz yöntemlerinin Büyük Veri analiz yöntemleriyle örtüşüp örtüşmediği tartışılmıştır. Aynı
2
zamanda yapılan nicel araştırmayla birlikte, akademik çalışmalarda Büyük Veri kullanımının
tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi bankası
olan EbscoHost tarafından tasarlanan Academic Search™ Complete (ASC) veritabanı
taranarak Büyük Veri ve analiz tekniklerinin akademik çalışmalarda kullanımı incelenmiştir.
Ayrıca, Yüksek Öğretim Kurumu (YÖK) tez veritabanında Büyük Veri kavramı taranarak
elde edilen bulgular ışığında Büyük Veri’yle ilgili Türkiye’deki akademik çalışmaların
sonuçlarıyla, EbschoHost ASC veritabanındaki akademik çalışmaların sonuçları
karşılaştırılmıştır.
Bu tez giriş ve sonuçla birlikte toplam 5 bölümden oluşmaktadır. Birinci bölüm giriş
kısmı, ikinci bölümde Büyük Veri’yi oluşturan veri ve veri çeşitleri ve meta veri ve Büyük
Veri ve özellikleri ele alınmıştır. Veri, enformasyon, bilgi (V-E-B) kavramları ve bilgi
hiyerarşisi açıklanarak, meta verinin V-E-B’le ilişkisi üzerine durulmuştur. Ayrıca ikinci
bölümde Büyük Veri’nin farklı tanımları, gelişim süreci ve temel özellikleri ve unsurları olan
veri çeşitliliği, veri hacmi, veri hızı ve veri değeri açıklanmıştır. Büyük Veri’nin temel
unsurları yanında Büyük Veri’nin kapsamlılığı, dizinselliği, çözünürlüğü ve esnekliği gibi
çeşitli özellikleri aktarılmıştır. Büyük Veri’nin disiplinler arası bir ifade olması nedeniyle
ilişkili olduğu temalar literatür dâhilinde tartışılmıştır. İnternet araştırmalarında Büyük
Veri’yle alakalı projelere değinilerek, Büyük Veri’nin yaşam üzerine etkisi ve Büyük Veri’nin
sınırlılıkları ve zorlukları ifade edilmiştir.
Üçüncü bölümde, sosyal bilimlerde geleneksel sosyal bilimler araştırmaları ile
internet araştırmaları karşılaştırılması yapılmış ve Büyük Veri analiz yöntem ve teknikleri
incelenmiştir. Sosyal bilimlerde araştırma süreçleri, veri toplama araçları ve nicel-nitel
araştırma yöntemleri sosyal medya ve internet bağlamında ele alınmıştır. Ayrıca üçüncü
bölümde, sosyal bilimlerde araştırmaların analizlerinde kullanılan teknikler aktarılmıştır.
İçerik analizi, söylem analizi ve istatistiksel analiz teknikleri geleneksel araştırmalar ve
internet araştırmaları bağlamında ele alınarak Büyük Veri analizi incelenmiştir. Büyük Veri
analiz süreci ve analiz yöntem ve tekniklerine odaklanılmıştır. Büyük Veri analiz süreci,
verinin toplanması ve ön işleme süreci detaylı olarak ifade edilmiştir. Büyük Veri analizinde
kullanılan çeşitli veri madenciliği teknikleriyle literatürde en çok yer alan çeşitli analiz
yöntem ve teknikleri açıklanmıştır. Bu tekniklerin ne olduğu ve nasıl yapıldığı aktarılarak,
her bir analiz tekniğinin geleneksel araştırma yöntemleri ve mevcut istatistiksel tekniklerle
olan benzerlikleri, farklılıkları ve ilişkileri tartışılmıştır.
3
Dördüncü bölüm, Büyük Veri’nin akademik çalışmalarda kullanımı üzerine yapılan
araştırmayı kapsamaktadır. EbscoHost ASC veritabanı taranarak Büyük Veri’nin ve analiz
tekniklerinin akademik çalışmaların başlıklarında, özetlerinde, anahtar kelimelerinde ve metin
içinde yer alma durumları incenmiş, Büyük Veri analiz tekniklerinden hangilerinin daha çok
uygulandığı belirlenmeye çalışılmıştır. Ayrıca Büyük Veri yılı olarak atfedilen 2012 yılının
öncesi ve sonrasındaki akademik çalışmalardan elde edilen sonuçları karşılaştırılarak, Büyük
Veri öncesi ve sonrası oluşan farklılıklara ortaya koyulmuştur. Bu bölümde ayrıca, Büyük
Veri’nin Türkiye’deki akademik çalışmalardaki durumu araştırılmıştır. Yüksek Öğrenim
Kurumu (YÖK) tez veritabanında yer alan yüksel lisans ve doktora tezleri taranarak
başlığında veya özetinde “Büyük Veri” veya “Big Data” kavramları geçen akademik
çalışmalar yıllara göre incelenmiştir. Büyük Veri’yle ilgili Türkiye’deki akademik
çalışmaların bulgularıyla, EbschoHost ASC veritabanındaki akademik çalışmalardan elde
bulguların benzerlikleri ve farklılıkları ortaya konmaya çalışılmıştır.
Son bölüm, sonuç ve değerlendirme kısmıdır. Bu bölümde Büyük Veri analizi
teknikleriyle, internet ve sosyal medya bağlamında ele alınan araştırma yöntem ve
tekniklerinin özellikleri değerlendirilmiş, elde edilen sonuçlar yorumlanmıştır. Yapılan
araştırma sonucunda Büyük Veri’nin akademik çalışmalarda kullanımı yorumlanmış ve
çalışmanın sınırlılıklarına ve bu alanda yapılabilecek çalışmalar için önerilere yer verilmiştir.
4
2. VERİ, ENFORMASYON, BİLGİ (V-E-B) VE META VERİ İLİŞKİSİ
VE BÜYÜK VERİ ÖZELLİKLERİ
Veri köken olarak Latince “vermek” anlamındaki dare sözcüğünden gelmektedir.
İngilizce’de data anlamına gelen veri kavramı ilk kez on yedinci yüzyılda matematikte
kullanılmış olup, daha sonra on sekizinci yüzyılda diğer disiplinlerde de kullanılmaya
başlanmıştır. On yedinci yüzyılda “bir argümanda verilen şeyler” anlamında kullanılan
sözcük on sekizinci yüzyılın sonuna doğru çeşitli yöntemlerle deney, gözlem, hesaplama veya
ölçümlerden elde edilen, çıkarılan gerçekler olarak nitelendirilmiştir (Rosenberg, 2013, s. 15).
Verinin anlamının süreç içinde değişmesindeki etkili olan faktör ise bilimin gelişmesidir.
Veri, günümüzde genel anlamda hesaplama, gözlem, deney ve kayıtlardan ortaya çıkarılan
kanıtlar, elementler, gerçekler veya olguları temsil eden formlar olarak nitelendirilmektedir.
Bilişim literatüründe veri kavramı “olgu, kavram veya komutların iletişim, yorum ve işlem
için elverişli biçimde gösterimi”, “bir çözüme ulaşmak için işlenebilir duruma getirilmiş
gözlemler, ölçümler”, “bilgisayar için işlenebilir duruma getirilmiş sayısal ya da sayısal
olmayan nicelikler” olarak ifade edilmektedir (Sankur, 2004).
Veri, farklı disiplinlerde kullanılan bir kavram olması nedeniyle birçok kişi
tarafından farklı anlamlarda ifade edilmektedir. Veri bilgi hiyerarşisinin en alt katmanıdır.
Veri enformasyona dönüşmekte, enformasyon da bilgiye dönüşmektedir (Bennet & Helen,
1999, s. 213). Kalseth ve Cummings’e göre veri, yorum katılmamış, içeriği olmayan sembol,
şekil ve/veya olgulardır (Kalseth & Cummings, 2001). Akgün ve Keskin’in ifadesiyle, veri
işlenmemiş, ham enformasyon parçacıklarıdır. Veri dışarıdan transfer edilen, alınan veya
kaydedilen formlardır (Akgün & Keskin, 2003). Bateson veriye bir sistemin iki durumu
arasında görülen veya tanınan bir farklılık olarak bakarken Ackoff ise verinin objeleri,
olayları veya onların özelliklerini aktaran semboller olduğunu belirtmektedir (Ackoff, 1999,
Aktaran: Yılmaz, 2009).
Öte yandan, Celep ve Çetin ise veriyi ham ve işlenmemiş gerçekler (raw facts) olarak
tanımlayıp, verinin aktarılması, düzenlenmesi veya sınıflandırılma gibi çeşitli işlemlere tabi
tutulduğunda değer kazanabileceğini belirtmektedir (Celep & Çetin, 2003, s. 7). Örneğin web
sitesindeki bir ürünün tıklanma sayısı, görüntülenme sayısı veya satış miktarı o site ve ürün
hakkında hiç bir şey bilmeyen bir kişi için sadece veridir ve bir değer taşımazken, o sitenin
yöneticisi için bu veriler değer taşımaktadır. Çünkü diğer günlerin verileri de mevcut olduğu
için bu verileri karşılaştırmak gibi farklı işlemlere tabi tutabilir.
5
Holmes (2001) veriyi gerçeklerin veya fikirlerin temsilcisi olarak tanımlamaktadır.
Verinin bazı işlemler yardımıyla iletilebilir veya değiştirilebilir olması verinin gerçeklerle ve
makinelerle ilişkili olduğunun göstermektedir.
Zins (2007)’in 16 farklı ülkeden önde gelen 57 enformasyon bilimcisi ile yapmış
olduğu çalışmasında veri, enformasyon ve bilgi kavramlarına verilen 130 tanıma yer
vermiştir. Çalışmasında veri kavramı için verilen cevaplardan bazıları aşağıda verilmiştir.
Duyu organlarıyla algılanan duyusal uyaranlardır.
Bilgisayarda kullanılmak üzere kayıtlar veya kodlanmış kayıtlardır.
Gözlem yoluyla depolanan, bağlam olmadan anlamdan yoksun olan
sayılardır.
Kurulu algoritmalara göre düzenlenmiş sembollerdir.
Algılanan gerçekleri temsil eden semboller kümesidir.
Bilgisayar tarafından depolanmak, işlenmek ve iletilmek amacıyla
oluşturulan ikili kodlu öğelerdir (Zins, 2007)
Davenport ve Prusak (2001, s. 7) veriyi tanımlarken verinin kendi önemi ya da bir
işe yarayıp yaramayacağı hakkında bir anlam belirtmediğini ifade etmişlerdir. Diğer yandan
enformasyon ve bilgi oluşumunda veri vazgeçilmez bir hammadde olmasından dolayı da
önemlidir.
Rosenberg’e göre veri retorik, kanıtlar epistemolojik ve gerçekler ise ontolojik
kavramlardır. Enformasyona dönüşecek olan argüman ve yorumlardan önce verinin var
olduğunu belirterek bu perspektiften verinin soyut, ayrık, başka bir veriyle birleşme gibi bazı
prensipler taşıdığını belirtmiştir (Rosenberg, 2013, s. 18). Bu özelliklere ek olarak veri
ortamdan, formattan, dilinden, kaynağından ve bağlamdan bağımsız olarak anlam
taşımaktadır. Örneğin bir veri analog ortamda veya dijital ortamda depolanması, kâğıt
üzerinde veya ekranda gösterilmesi onun anlamını değiştirmez (Floridi, 2010).
Veri genel olarak dünyayı soyut kategorilere, ölçülere ve numara, karakter, sembol,
imaj, ses, elektromanyetik dalga, bitler gibi yaratılan enformasyon ve bilgiden oluşan inşa
bloklarının meydana getirdiği diğer temsili formların ürettiği ham materyal olarak
anlaşılabilir. Veri doğası gereği temsilidir (örneğin bir kişinin yaşı, boyu, kilosu, rengi,
tansiyonu, düşüncesi, alışkanlıkları, yerleşim ölçüleri gibi vd.) fakat aynı zamanda somuttan
6
soyuta veya bir veriden üretilen başka veriyi ima edebilir ve hem analog ortamda hem de
dijital ortamda bit olarak kaydedilebilir ya da depolanabilir (Kitchin, 2014, s. 1).
2.1. VERİ SINIFLANDIRMALARI
Veri, bilimin gelişmesiyle birlikte farklı disiplinlerde kullanılmasından dolayı
standart bir tanımlama yapılamamaktadır. Disiplinler arası bir kavram olması aynı zamanda
verinin sınıflandırılmasında da farklı bakış açılarına sebep olmuştur. Kimi kaynaklarda veri
sadece şekline göre (nicel, nitel veri) sınıflandırılırken, kimi kaynaklarda veri üreticisine göre
(birincil veri, ikincil veri) sınıflandırılmıştır. Literatürde genel olarak veri; şekline, yapısına,
kaynağına, tipine, üreticisine, sırasına göre sınıflandırılmıştır. Ayrıca bu faktörlerin alt
ögelerine göre de farklı sınıflandırmalar mevcuttur. Bu çalışmada veri, nitel ve nicel veri,
birincil ve ikincil veri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veri, atıl veri
ve sosyal veri olmak üzere dokuz ana başlıkta incelenmiştir. Bu sınıflandırmalarda kesin bir
ayrım olmadığı gibi bir veri seti aynı anda farklı veri sınıflarına dâhil edilebilir çünkü verinin
amacına ve duruma göre sınıflandırması değişebilir.
2.1.1. Nicel ve Nitel Veri
Veri farklı şekillerde olabilir. Bunlardan başlıcaları sayı, metin, görüntü, video,
resim, sembol, fotoğraf, ses, elektro-manyetik dalgadır. Nicel veri, sayısal değerleri içeren
verilerdir. Uzunluk, ağırlık, mesafe, alan gibi fiziksel yani ölçülebilir özellikleri içerir. Nicel
veri fiziksel özelliklerin yanında fiziksel olmayan olaylar hakkında da içeriğe sahip olabilir.
Nicel verinin ölçülmesinde istatistikteki temek dört ölçekten faydalanır. Bu ölçeklere bağlı
olarak nicel veri analizi için betimsel ve çıkarımsal istatistik yöntemlerinden faydalanılır
(Kitchin, 2014). Veri ölçek türleri aşağıda belirtilmiştir.
Sınıflama Ölçeği (Kategorik, Nominal Ölçek): Veriyi ismine veya sınıfına
göre ayıran ölçek çeşitidir. Sınıflama ölçeği diğer ölçeklere nazaran daha az
açıklama içerir ve sınıflar arasında denklik söz konusudur. Örneğin cinsiyet,
meslek, tutulan takım, vd.
Sıralı Ölçek: Değişkenleri arasında üstünlük, hiyerarşi veya sıralama olan
ölçek çeşididir. Örneğin akademik unvanlar, sosyal statüler veya beğeni
düzeyleri “beğenmedim-kararsızım-beğendim” (Siegel, 1956, s. 22).
Aralık Ölçeği: Sıralı ölçeğin özelliklerine ek olarak, değerler arasındaki
farklar da biliniyorsa bu ölçek aralık ölçeğidir. Aralık ölçeğinde tüm değerler
7
sıradandır ve sıfır herhangi bir özellik taşımaz (Sencer, 1989, s. 253). Örneğin
100
C olan bir sıcaklık 50 C’den daha sıcaktır ancak iki kat sıcaklığında
değildir veya sıcaklığı 00 C olan bir nesnenin sıcaklığı yoktur denemez,
çünkü 0 değeri de diğer değerler gibidir, yokluk belirtmez. Değerler nicel
olarak ifade edilmektedir (Karagöz & Ekici, 2004).
Oran Ölçeği: Diğer ölçeklerin özelliklerini barındıran, başlangıç noktası
olarak sıfır noktasını alan ve değerleri arasında oran olan en kapsamlı
ölçektir. Oran ölçeğindeki sayılar birbirine oranlanabilir ve değerler değişse
de oran değişmez. Tüm istatistiksel yöntemler uygulanabilir. Sıfır değeri
yokluğu ifade eden oran ölçeği daha çok fiziki değerlerde kullanılır. Kilo,
uzunluk, yaş, gelir miktarı gibi numerik değerler oran ölçeğine örnektir
(Siegel, 1956, s. 29).
Nitel veri ise sayısal olmayan, nitelikleri belirten verilerdir. Metin, resim, çizim,
video, ses ve görüntü gibi formlardaki verilerdir. Nitel veri analiz için sayısallaştırılarak nicel
hale dönüştürülebilir ve bu dönüşümdeki amaçlar verinin güvenirlik derecesini artırmak,
objektifliği sağlamak ve veri grupları arasında karşılaştırma yapmaktır (Yıldırım & Şimşek,
2013). Öte yandan nicelleştirmenin, verilerin orijinalliğini yitirebileceğini bu yüzden nitel veri
işlenmesinin ve analizinin orjinal verilerle yapılması gerektiğini, bu işlemler içinde akıllı
makineler ve veri madenciliği gibi tekniklerin her geçen gün daha da gelişim gösterdiğini de
ifade edilmektedir (Kitchin, 2014, s. 5).
2.1.2. Birincil ve İkincil Veri
Birincil veri, düzenlenen araştırmaya göre araştırmacının doğrudan elde ettiği veridir.
Çalışmanın amacına göre hazırlanan sorulardan toplanan cevaplar veya anket ve görüşme gibi
farklı yöntemlerle araştırmacının doğrudan topladığı veriler birincil veriye örnektir (AtWork,
2008). Florini’ ne göre ise birincil veri; veritabanındaki başlıca verilerdir, örneğin
hesaplamadaki sayılar, sıfır ve birlerin dizimidir (Floridi, 2010, s. 30). İkincil veri ise birincil
verinin yokluğunda ya da eksikliğinde başka bir araştırmacı veya kaynaklardan elde edilen
veridir (AtWork, 2008). Araştırmacı doğrudan kendisi elde etmez. Birincil veriler, bir başka
araştırma için ikincil veri konumunda olabilirler. Örneğin Türkiye İstatistik Kurumu’nun
internet kullanım verileri birincil veriyken bir araştırmacının kendi çalışması için kullanması
o veriyi ikincil veri yapar. Döküman, rapor, sinema, gazete, dergi, makale ve kitap gibi farklı
kaynaklardan elde edilen veriler de ikincil veridir.
8
2.1.3. Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış Veri
Yapılandırılmış veri belirli bir veri modelini baz alarak kolaylıkla depolanabilen,
işlenebilen, iletilebilen ve veri formatı kesin ve belirli olan veri çeşididir (BThaber, 2012).
Yapılandırılmış veri için Microsoft SQL Server, Oracle, SAP, Access, Excel gibi geleneksel
veritabanı sistemler kullanılmaktadır. Yapılandırılmış veri, format olarak veri tabanlarına
uygundur yani satır ve sütun olarak kaydedilebilmektedir. Örneğin telefon numaralar, posta
kodları sayılardan oluşmuştur ve yapılandırılmış veriye örneklerdir.
Yapılandırılmamış veri ise geleneksel veritabanlarına uygun olmayan, tanımlanmış
tek bir formatı olmayan verilerdir. Access, SAP ve SQL yapılandırılmış veriler için birer veri
tabanı sistemi iken NoSQL veya MangoDB gibi veritabanı sistemleri ise yapılandırılmamış
veriler içindir. Yapılandırılmamış verilere mailler, metinler, görseller, ses kaydı, video, web
siteleri, bloglar, forumlar, sosyal ağlardaki gönderiler gibi farklı formatlarda yer alan veriler
örnek olarak verilebilir. Web 2.0 ile hayatımıza giren sosyal medya yapılandırılmamış veri
artışını etkilemiştir. Teradata’nın Müdür Yardımcısı Jerry Hill’in 2007’de Forbes
Dergisi’ndeki röportajında verinin %85’inin yapılandırılmamış olduğunu belirtmektedir
(Malone, 2007).
2011 yılındaysa dijital evrende bu oranın %90’nın üzerinde olduğu bilinmektedir
(Gantz & Reinsel, 2011, s. 2). Grafik 1’de görüldüğü gibi yapılandırılmamış veri hacmi her
geçen gün daha da arttığı, farklı formatlarda olduğu için depolama ve analiz edilmesinde de
zorluklar yaşanmaktadır. Bunun için Hadoop, Spark, MapReduce, Nvivo gibi platformlar ve
çeşitli veri madenciliği teknikleri yapılandırılmamış veri analizinde kullanılmaktadır.
9
Grafik 1: Yapılandırılmış ve Yapılandırılmamış Veri
Kaynak:http://oraclestorageguy.typepad.com/.a/6a00e009802a798833013486adc56
9970c-pi ’den uyarlanmıştır. (Erişim; 18 Ocak 2015)
Yarı yapılandırılmış veriler yapılandırılmış ile yapılandırılmamış veri arasındadır.
Yarı yapılandırılmış verilerin bir yapısı vardır ama toplanan tüm veriler aynı yapıda değildir.
Veriler bir yapıya sahiptir ama bir bütün olarak aynı yapıda değildir yani tabloların formal
yapılarına uygun değillerdir. Örneğin e-mail, Genişletilebilir İşaretleme Dili “eXtensible
Markup Language (XML)” ve mp3 olabilir, çünkü bu veriler yapılandırılmış verilerle
ilişkilidir (Gürsakal, 2014, s. 55-56). Bir hekimin hastasının hikâyesi ile ilgili olarak kayıt
altına aldığı veriler bu tip verilere örnek olarak verilebilir.
2.1.4. Atıl (Exhusted) Veri ve Sosyal Veri
Atıl veri (Exhaust Data) tüm çevrimiçi veya dijital faaliyetlerden kaynaklanan ürün
ve durumların bilgilerinin tutulduğu veri tipidir. Örneğin log dosyaları, gecici dosyalar,
çerezler gibi veriler ve yapılan tüm eylemlerin sonucu oluşmuş veriler atıl veriye örnektir. Bu
veriler özellikle pazarlamacılar ve ticari kuruluşlar için önemlidir. Çünkü kullanıcıların
bilgileri, tercihleri, alışkanlıkları gibi çeşitli özellikleri atıl veriler sayesinde elde
edilebilmektedir. Bu verilere göre de kurum ve kuruluşlar pazarlamada hedef kitle
belirlemede stratejiler geliştirilmektedir (Kitchin, 2014).
10
Web 2.0 gelişimiyle birlikte hayatımıza giren ve önemi günden güne artan sosyal
medyada kullanıcılar tarafından üretilen içeriğe (user generated content), veriye sosyal veri
ismi verilmektedir. Sosyal medyanın ortaya çıkması beraberinde sosyal ve kültürel
araştırmaların yapılabileceği yeni alanlara imkân tanımıştır. Milyonlarca insanın duygu ve
düşüncelerini takip etme, ürettikleri fotoğraf veya videoları görme, yaptıkları yorumlara ve
konuşmalara vakıf olma, gittikleri yerleri görme ve bu kişileri takip etme fırsatı sunan sosyal
medyada araştırma yapmak için izin alma zorunluluğu kalkmış durumdadır (Manovich,
2011). Çünkü sosyal verileri kullanmak araştırma için yeterlidir. Kullanıcılar tarafından
üretilen sosyal veri aynı zamanda, bu tez bağlamında incelenecek olan Büyük Veri’nin de
temel kaynaklarındandır. Zadrozny ve Kodali (2013, s. 2-3) Büyük Veri kaynaklarını makine
verileri (sensörler, banka işlemleri, kameralar, Nesnelerin İnterneti “IoT” vb.) ve kullanıcılar
tarafından üretilen veri olmak üzere iki kategoriye ayıran, kullanıcılar tarafından üretilen
içeriğin en başta sosyal medyadan geldiği ifade ederek sosyal veri hakkında aşağıdaki bilgileri
vermektedirler.
Şubat 2013’te kullacıcı sayısı 1 milyar ve günlük aktif kullanıcı sayısı 618
milyon olan Facebook’ta ortalama günlük 2, 5 milyar içerik paylaşılmakta ve
2,7 milyar “beğen” tıklanmakta, 500 Terabyte’n üzerinde veri üretilmektir.
Kasım 2012’de 500 milyon kullanıcıdan 200 milyonu günlük aktif olan
kullanıcılar Twitter’da günlük 500 milyon tweet atılmaktadır.
Ocak 2013’te Instagram’da kullanıcılar günde 40 milyon fotoğraf yüklemekte
ve saniyede 8 500 “beğeni” ve 1000 yorum yapılmaktadır.
Mart 2013’te WordPress’te aylık 40 milyon yeni gönderinin ve 42 milyon
yorumun yapıldığını, aylık 388 milyondan fazla insanın 3,6 milyardan fazla
sayfaya göz atmıştır.
Sosyal veri, birçok disiplini etkileyerek yeni alanların oluşmasına neden olmuştur.
Bu yeni alanlardan biri dördüncü bölümde incelenecek olan netnografi, bir diğeri ise sosyal
hesaplama “social computing” dir. Sosyal hesaplamada sosyal ve beşeri bilimlerde sosyal
davranışların, sosyal etkileşimin ve sosyal unsurların belirlenmesinde, analiz edilip
yorumlanmasında bilgisayar, bilgi ve iletişim teknolojilerinden faydalanmaktadır (Wang ve
diğerleri, 2007). Sosyal hesaplama kavramı ilk olarak MIT Medya Lab’dan Natham Eagle ve
danışmanı Alex Petland tarafından ortaya atılmıştır. Özel yazılımlı cep telefonlarını 100
öğrenciye dağıtarak, cep telefonlarından toplanan veriler üzerinden insan davranışlarına dair
analizler yapılmıştır (Manovich, 2011, s. 4). Sosyal hesaplama, kişilerin seyahat
11
kararlarından, yemek yiyecekleri mekânı tercih etmelerine kadar birçok durumu
etkilemektedir. Bunun nedeni; daha önce seyahat etmiş veya deneyimlemiş kişiler, olumlu-
olumsuz görüşlerini veya deneyimlerini tripadvisor.com ve benzeri sitelerden paylaşarak
diğer insanları uyarmakta ve gidecek olan kişiler de eski yorumlara bakarak fikir edinip ona
göre karar vermektedirler (Turban ve diğerleri, 2012, s. 48).
Verinin tanımı, gelişim süreci ve çeşitleri ifade edildikten sonra bu bölümde
enformasyon ve bilgi kavramları ele alınacaktır.
2.2. ENFORMASYON VE BİLGİ KAVRAMLARI
Türk Dil Kurumu sözlüğünde enformasyon; Latince kökenli olup “Danışma,
tanıtma”, “Haber alma, Haber verme, Haberleşme” olarak tanımlanmaktadır. Bilişim
sözlüğünde ise “Bilgi işlemde kullanılan kabul edilmiş kurallardan yola çıkarak veriye
yöneltilen anlam”, “Bilişim kuramında, birçok olası olay arasında belirli bir olayın meydana
gelme belirsizliğini, bilinmezliğini azaltan herhangi bir bilgi” ve “Bilgi işlemede, verilerden
elde edilen herhangi bir kavram, olgu, anlam” şeklinde ifade edilmektedir (Sankur, 2004).
Enformasyon, etimolojik olarak “informatio” ya da “informare” kökünden gelmektedir. Veri
bilginin en ufak parçasını oluştururken, enformasyon ise bilginin alt bileşenidir. Enformasyon
bilgiye erişimin alt basamağıdır ve veri de enformasyonun alt basamağıdır. Düzenlenmiş ya
da organize edilmiş veri de denebilecek olan enformasyon, ham bilgilerin elde edilmesi,
bunların çeşitli işlemlerden geçirilmesi ve sonuçta bilginin oluşturulmasında meydana gelen
yarı işlenmiş bir üründür (Çelik M. , 2004, s. 30-32).
Enformasyonun “genellikle belge şeklinde ya da görsel ve işitsel mesaj” olarak ifade
eden Davenport ve Prusak enformasyonun iletişime dayandığı, iletişim de alınan mesajın
enformasyon niteliği taşıyıp taşımadığına dayandırmaktadırlar. Enformasyon, bir belge veya
buna benzer bir araç yardımıyla genellikle bir mesaj olarak anlaşılmaktadır. Enformasyonun
amacı, alıcının bir konudaki düşüncelerini değiştirmek, bir durumu yorumlatmak ya da
davranışında etki oluşturmaktır. Bu çerçevede enformasyon alıcıda fark oluşturan veridir
(Davenport & Prusak, 2001, s. 24).
Enformasyon kavramını iletişim bağlamında değerlendirildiğinde ise Gürdal (2000)
enformasyonu, “alıcıda şüpheyi indirgeyen ve onun üzerinde etki bırakan bilgi ve bu
nitelikleri taşıyan bilginin uygun bir kanal aracılığıyla iletimi eylemi” olarak ifade etmektedir.
Enformasyonun kavramının yaygınlaşmasında Shannon ve Weaver’in “matematiksel iletişim
12
kuramı” temel olmuştur. Bu kuramla birlikte 1940’lı yılların sonundan itibaren, fen
bilimlerindeki bilimsel yöntem ve modeller iletişim biliminde de uygulanmaya başlanmıştır.
Enformasyon, zamanla, farklı kavramların da disiplinler arası olmasını sağlayan temel bir
unsur olmuştur. Enformasyon ölçülebilir ve taşınabilir bir nicelik olması, iletişimin
makinelerle sağlanmasında etkili olmuştur (Törenli, 2004, s. 18).
Karar verme sürecinde hangi seçeneğin hangi sonuca gideceğini hesaplayabilmek
için enformasyon gereklidir. Enformasyon miktarı ile belirsizlik arasında ilişki vardır. Kişinin
sahip olduğu enformasyon miktarı ne kadar fazla olursa yapacağı hareketin sonucunu
kestirebilme olasılığı da artacaktır. Karar mekanizmalarında mevcut durumla ilgili
enformasyona deney veya gözlemle ulaşabilir ancak karar ortamlarının giderek değişmesi
karar verenin önemini ve enformasyonun önemini artırmıştır. Bu yüzden karar sürecinde
enformasyonun alınıp, verilmesi, aktarılması ve depolanması kurum ve örgüt iletişiminde
önemli rol oynamaktadır. Orkan (1992, s. 3) örgüt iletişiminin önemli olmasının iki nedenini
şöyle açıklamıştır; örgütü amaçlarına ulaştıracak gerekli enformasyonun sağlanması, ikincisi
ise örgütte yer alan kişilerin faaliyetlerini amaçlara uygun doğrultuda olması için gerekli
enformasyonun kişilere aktarılmasıdır. Davenport ve Prusak (1998) enformasyonun veri gibi
olmayıp, anlam taşıdığı ve bu anlamın aslında enformasyonun biçiminde ve bağlamla
ilişkisinde olduğunu ifade etmektedir. Enformasyon amaca göre şekillendirilmekte ve anlam
kazanmaktadır. Verinin enformasyona dönüşüp, anlam kazanabilmesi için çeşitli süreçlerden
geçmesi gerekmektedir. Bu süreçler Şekil 1’de gösterilmiştir.
Şekil 1: Verinin Enformasyona Dönüşüm Süreci
Kaynak: Yeung (2001) personal.cityu.edu.hk/~mepatri/knowledge_management.ppt
den uyarlanmıştır. (Erişim: 19 Şubat 2015)
Sıkıştırma (Condensed): Veri özetlenerek daha kısa hale dönüştürülüp,
gereksiz boşluklar temizlenir.
13
Bağlamsallaştırma (Contextualized): Verinin toplanma nedeni bilinir.
Hesaplama (Calculated): Analiz edilmiş veri, yoğunlaştırılmış veri gibi olur.
Sınıflandırma (Categorized): Analiz ünitesi bilinir.
Düzeltme (Corrected): Hatalar düzeltilir, kayıp ‘veri delikleri’ doldurulur.
Farklı disiplinlerin farklı anlamlar yüklediği bilgi kavramı, Türkçe sözlükte “ insan
aklının erebileceği olgu, gerçek ve ilkelerin bütünü, bili, malumat”, “öğrenme, araştırma veya
gözlem yolu ile elde edilen gerçek, malumat, vukuf” anlamlarına gelmektedir (TDK, 2006).
Bilişim literatüründe ise bilgi: “Kurallardan yararlanarak kişinin veriye yönelttiği anlam” ve
“yapay zekâda bir programın akıllı bir şekilde işlenmesine elveren olaylar, olgular, kurallar ve
buluşsal ipuçları” olarak belirtilmektedir (Sankur, 2004, s. 441). Bilginin önemi bilgiyi
oluşturan enformasyonu ölçülebilir bir nicelik haline dönüşmüş olmasında yatmaktadır.
Tuomi (2000, s. 108) bilgiyi “enformasyonun daha yüksek biçimi” olarak tanımlayarak,
bilginin karar verme durumlarında kullanılan ve değerlendirilebilen, kıyaslanabilen ve
ölçülebilen özelliklerde olması gerektiğini belirtmektedir.
Daniel Bell’e göre bilgi; sistematik bir biçimde rastgele bir iletişim vasıtasıyla diğer
insanlara aktarılan, makul bir zihinsel muhakemeye ya da tecrübeye dayanan, sonucu
gösteren, olgu veya fikirlerle ilgili sistematik ifadeler olarak açıklanabilir. Bilgi doğruluğu
saptanmış inançlardır. Bilgi, sosyal olaylarda karşılaşılan eylem ve olayların anlaşılmasına ve
kavranmasına yardımcı olan işaret ve kavrayışlardır. Bilgi, gözleme dayalı, ölçülebilir,
hesaplanabilir, değerlendirilebilir bir davranış ya da tutuma yönelik değerler bütünüdür. Bilgi,
belli bir aşamalardan geçmiş veri olarak da tanımlanabilir (Dura & Atik, 2002, s. 12).
Mevcut tanımlardan farklı olarak Earl (1994), bilginin ayırt edici özelliğinin onun
sosyal kabul görmesi veya toplumsal onaylama olarak ifade ederek, bilginin kişilerarası ve
nesnel olması gerektiği görüşünü savunmaktadır. Earl’a göre bilgi, her biri gittikçe artan
miktarda yapıyı, kesinliği ve geçerliliği ifade eden dört seviyeye sahiptir. İlkin, olaylar
vakalar veriye dönüştürülmek için toplanmalı ve düzenlenmeli. Sonra veriler enformasyonun
üretilmesi için işlenmeli, yorumlanmalı ve sunulmalıdır. Daha sonra enformasyon test
edildikçe, geçerliliğe sahip oldukça ve sistemleştikçe bilgiye dönüşmektedir. Earl, toplumsal
onaylama, kişiler arası onaylama yoluyla bilginin ortaya çıktığını anlatmaktadır (Aktaran:
Tuomi, 2000, s. 110-111).
14
Veri, enformasyon ve bilgi kavramları ayrı başlıklar halinde yukarıda açıklanmıştı.
Bu kavramlara ilişkin farklı tanımlamalar ve karşılaştırmaları ise Durna ve Demirel (2008)
Tablo 1’deki gibi belirtmektedir.
Tablo 1 : Veri-Enformasyon-Bilgi’ye Yönelik Farklı Kavramsal Bakış Açıları
Yazarlar Veri Enformasyon Bilgi
Wing -
Bir olayı açıklamak
için ayarlanmış
gerçekler.
Gerçekler ve
beklentilerin
yorumu.
Nonaka & Takeuchi - Anlamlı mesajların
akışı.
Mesajlardan
çıkarılan araçlar.
Spek & Spijkervet
Henüz yorum
getirilmemiş
semboller.
Anlamlı verileri içeren
bir bütün.
Enformasyona
anlam kazandırma
yeteneği.
Davenport Basit gözlemleri
içeren süreçler.
Belirli bir amacı olan
veriler.
İnsan zihninden
kaynaklanan
enformasyon.
Dovenport& Prusak Birbirinden farklı
süreçleri içeren set.
Alıcının ön yargısını
kırmak için gönderilen
mesajlar.
Tecrübe ve
değerlere dayalı
enformasyon.
Quigley&Debons
Çeşitli özel durumlar
için anlam içermeyen
ifadeler.
Kim ne zaman, ne
nerede, hangi gibi
sorulara cevap veren
metinler.
Niçin ve nasıl
sorularına cevap
veren metinler.
Choo ve diğerleri Olgular ve mesajlar Anlam ifade eden
veriler bütünü.
Haklılığı ispat
edilmiş gerçek
kanaatler.
Hussain ve diğerleri
Gerçeklerin, istatiksel
olarak hesaplanmış
bütünüdür.
Düzenlenmiş ve kesin
olan verilerdir.
Uygulanabilir,
anlamlı
enformasyon.
Tuomi
Enformasyona
çevrilmek üzere
düzenlenen ham
gerçekler.
Verilerin
düzenlenmesi ve ona
anlam kazandırılması
işlemi.
Enformasyonun
yorumlanması
sonucu ona anlam
katma işlemi.
Marchand -
Diğer kişilerden
alınan verilerin
düzenlenip sıraya
dizilmesi.
Kişisel yorumlara
dayalı enformasyon.
Terra&Angeloni - Düzenlenmiş ve
yorumlanabilen veri.
Deneyim ve
tecrübeye dayalı
inançlar.
Hey Henüz işlenmemiş
enformasyon.
Elektronik araçlarla
anlam kazandırılan
veriler.
Kişilerin
deneyimleri ile
biçimlenen
enformasyondur.
Kaynak: Durna & Demirel (2008, s. 138).
15
Veri, enformasyon ve bilgi kavramlarına dair çeşitli görüşler olsa da genel olarak bu
görüşlerin ortak tarafı, bu üç kavramın birbiriyle ilişkili olduklarıdır. Veriden enformasyona,
enformasyondan da bilgiye yönelik bir geçiş olduğudur. Bir sonraki başlıkta giderek önem
kazanan meta veri ve meta verinin veri, enformasyon ve bilgi ilişkisinden bahsedilecektir.
2.3. META VERİ VE V-E-B İLİŞKİSİ
İnternet ve iletişim teknolojilerinin gelişmesiyle birlikte veri kaynakları sayısı ve
çeşitliliği artmıştır. İstenilen veriye, bilgiye ulaşmak veri çokluğu içinde zorlaşmıştır. Aranan,
istenilen veriye daha kolay ulaşılabilmeyi sağlayan faktörlerin başında meta veri gelmektedir.
Meta veri ya da üstveri en genel anlamıyla “veri hakkındaki veri/bilgi” olarak
tanımlanmaktadır.
Meta Veri ilk olarak Jack E. Meyers tarafından 1969 yılında ifade edilmiş ve ilk
olarak 1973 yılında bir ürün broşüründe kullanılmıştır. Jack E. Meyers bu terimi kendi
MetaModel’i ile ilgili mevcut ve gelecekteki ürünleri temsil etmek ve bu ürünleri geliştirmek
ve pazarlamak için bir şirket kurmak amacıyla kullanmıştır. METADATA® 1986 yılında
Amerika’da tescil edilmiştir. Meyers’in kullanımı üzerine inşa edilen meta veri, bilgisayar
bilimi, istatistik, veritabanı ve kütüphane ve bilgi bilimi topluluklarında veri hakkında veri
(data about data) anlamında kullanılmak üzere benimsenmiştir (Greenberg, 2005).
Bilgisayarların yapılandırılmamış verileri okuyabilmesi için müdahale gereklidir.
Bu müdahalede meta veri sayesinde olur, çünkü meta veri verilere ait açıklamalardır. Meta
veri, herhangi bir verinin ölçülen özelliklerini, adları, birimleri, tarihi, formatını ve tasarımını
açıklar. Bir anlamda meta veri bir veri kümesine erişimizi, nesne veya kaynağın nasıl
biçimlendirildiği, ne zaman ve kimler tarafından toplandığını, verilerin nasıl ölçülüp
hesaplandığını içeren açıklayıcı bilgidir. Verinin bilgisayar tarafından analiz edilebilmesi için,
bilgisayarın o veriyi tanıyabilmesi gerekir. Bu tanıma işlemini sağlayan faktör de meta
veridir. Örneğin bir dosyanın JPEG formatında olduğunu belirttiğimizde, program o dosyanın
bir görsel olduğunu anlayabilir. Meta veri ne kadar açıklayıcı ve çoksa farklı disiplinlerin ve
programlarının veriyi anlaması ve paylaşımı o kadar kolay ve etkili olur (Gray & Liu, 2005) .
Meta Veri Türleri
Meta verinin farklı türlerinin ortaya çıkmasındaki etken, farklı yapılarda veri türlerinin
ortaya çıkması, bu farklı verilerin farklı yöntemlerle saklanması analiz edilmesi ve farklı
16
şekillerde işlenmesidir. Meta veri Swetland tarafından 5 ayrı kategoriye ayrılmıştır. Bunlar, Tablo
2’de tanımları ve örnekleri ile açıklanmıştır (Gilliland Swetland, 2000).
Tablo 2: Meta Veri Türleri ve Tanımları
Türü Tanım Örnek
Tanımlayıcı
(Descriptive)
Bilgi kaynaklarını
tanımlama ve
kimliklendirmede kullanılır
Katalog kayıtları, başlık, yazar
Yönetimsel
(Administrative)
Bilgi kaynaklarının
yönetiminde kullanılan meta
veridir.
Erişim izinleri, oluşturma tarihleri
Koruma (Preservation)
Kaynağı koruma ve
arşivleme için gerekli
bilgileri içerir.
Kaynaklarun fiziksel ve dijital
korunmasına yönelik eylemlerin
dökümantasyonu
Teknik (Technical)
Sistemin nasıl çalışacağına
veya meta verinin nasıl
kullanılacağına ilişkin
Yazılım ve donanım
dökümantasyonu sayısallaştırma
bilgisi(format-sıkıştırma oranı,
güvenlik verisi gibi)
Kullanım (Use)
Bilgi kaynaklarının
kullanım türü ve düzeyine
ilişkin meta veri
Kullanım ve kullanıcıyı izleme,
bilginin birden fazla formatta
tutulması(HTML, PDF gibi)
Kaynak: Gilliland Swetland (2000, s.5)’dan uyarlanmıştır.
Meta veri bir verinin hem insanlar hem de makineler tarafından birlikte
anlamlandırılmasını olumlu etkiler. Veri miktarının ve çeşitliliğinin artmasıyla da meta veri
de artmıştır. Bu yüzden ortaya meta verinin standartlaştırılması ihtiyaç haline gelmiştir. Bu
standartlaşma meta veri şemalarıyla mümkün kılınmıştır. En çok kullanılan meta veri şemaları
aşağıda verilmiştir (National Information Standards Organization, 2004);
Dublin Core - Her kaynak için
TEI (Text Encoded Initiative) - Metinler için
EAD (Encoded Archival Description) - Arşivler için
RDF (Resource Description Framework) - Kaynak Tanımlama Çatısı
VRA (Visual Resources Association) - Görsel Kaynaklar için
ONIX (Online Information Exchange) - Çevirimiçi Bilgi Değişimi
FGDC (Federal Geographic Commitee’s Content Standart for Digital
Geospatial Metadata) - Coğrafik Veriler için
GILS (Government Information Locator Service) - Hükümet yayınları için
MPEG (Moving Picture Experts Group) - Ses ve videolar için
17
Meta veri şemaları sadece yukarıda yazılanlardan ibaret değildir. Ama hepsinin
amacı veriler hakkındaki veri olan meta veriyi standart hale getirmektir. Ancak günümüzde
her bir servisinde kendine has meta verileri vardır. Aşağıdaki başlıkta çeşitli servislerin meta
verileri sıralanmıştır.
Çeşitli Servislerin Meta Verileri
Yukarıda belirtilen meta veri standartları ışığında günümüzde en çok kullanılan sosyal
ağların ve çeşitli servislerin meta verileri aşağıda Tablo 3’te belirtilmiştir. Bu servislerin ortak
özelliği, veri üretir konumda olmaları ve bu verinin çeşitlilik göstermesi, yapılandırılmamış
veya yarı yapılandırılmış olmasıdır.
Tablo 3: Çeşitli Servislerin Meta Verileri
E-Posta Facebook
• Göndericinin adı, e-mail ve ip adresi.
• Alıcının ve e-mail adresi
• Sunucu transferi bilgisi
• Tarih, saat ve saat dilimi
• İçerik türü ve kodlama
• IP adresi ile posta istemcisi giriş kayıtları
• Posta istemcisi başlık biçimleri
• Öncelik ve kategoriler
• E-posta durumu
• Doğum günü, memleket, iş geçmişi ve biyografi bilgileri
• Kullanıcı adı
• Abonelikler
• Yaşadığı yer
• Aile ve İlişkiler
• Cihaz
• Etkinlik tarihi, saati
• Faaliyetle, like’lar, check-in'ler ve olaylar
Telefon Web tarayıcısı-Google Search • Her arayanın telefon numarası
• Katılan telefonların benzersiz seri
numaraları
• Çağrını zamanı
• Çağrı süresi
• Her katılımcının yeri • Telefon arama kartı numaraları
• Sayfaların ne zaman ziyaret edildiğini içeren aktivite
kaydı
• Kullanıcı verileri ve özellikleri ve otomatik doldurma ile
muhtemel kullanıcı giriş bilgileri
• IP adresi, internet servis sağlayıcısı, cihaz, donanım
detayları, işletim sistemi ve tarayıcı sürümü • Çerezler ve internet sitelerinden önbelleğe alınan veriler
• Arama sorguları
• Arama sonuçları
• Arama sonucu ziyaret edilenler
Twitter Kamera
• Ad, konum, dil, profil bilgisi ve url
• Kullanıcı adı ve benzersiz tanımlayıcı
• Tweet'in konumu, tarih ve saat
• Tweet'in benzersiz kimliği ve cevap tweet
kimliği
• Katılımcı kimlikleri
• Takipçi, takip edilen ve favori sayısı • Doğrulama durumu
• Fotoğrafçı tanımlama
• Oluşturma - değiştirme tarih ve saati
• Fotoğrafın çekildiği yer
• Bir fotoğrafın içeriği hakkında detaylar
• Telif hakkı bilgileri
• Kamera markası ve modeli
• Kamera ayarları: deklanşör hızı, f-stop, odak uzaklığı ve flaş türü
• Fotoğraf boyutları, çözünürlüğü ve oryantasyonu
Kaynak: Guardian US Interactive Team (2013)
18
Meta veri oluşturmanın önemli nedeni konuyla ilgili bilgilerin keşfini
kolaylaştırmaktır. Kaynak keşfine ek olarak metadata, elektronik kaynakları organize etmeyi,
birlikte işlerliği ve kaynakların entegre edilmesini sağlar, ayrıca dijital kimliklendirme,
arşivlemeyi destekler ve korur (National Information Standards Organization, 2004). Bilgi
hiyerarşisinde bir basamakta yer almasa da, meta veri, verinin alınmasında, depolanmasında,
işlenmesinde ve verinin bilgisayarlara tarafından okunmasında faydalıdır. Ayrıca verinin
enformasyona, enformasyonun bilgiye dönüşünde meta veri etkin rol oynar. Veri ve
enformasyon hakkında bilgilendiricidir ve geçiş ve dönüşüm süreçlerini hızlandırır. Meta veri
ne kadar fazla ise bilgisayarlar da insanlar da daha hızlı anlar ve yorumlama yapabilirler.
Örneğin bir metnin başlığı o metne ait meta veridir ve kişi başlığı okuduğunda o metnin ne
hakkında olduğunu kestirebilir.
2.4. BİLGİ HİYERARŞİSİ
20. ve 21. yüzyılda enformasyonun ölçülebilir bir meta olmasında veri, enformasyon
ve bilgi (VEB) hiyerarşisinin fen bilimleri şemsiyesi altında değerlendirilmesinin olumlu
etkisi vardır. Ancak veri, enformasyon ve bilgi hiyerarşi ilk olarak fen bilimlerinde değil
sosyal bilimlerde yer bulmuştur. İlk kez 1982 yılında Harlan Cleveland’ın “Information as
Resource” isimli makalesinde bilgi hiyerarşisinden bahsedilmektedir. Clevand makalesinde
şair T.S. Eliot’un 1934 yılında yayınladığı The Rock isimli şiirini enformasyon, bilgi ve
bilgelik kavramlarına ışık tuttuğunu belirtmektedir (Dilmen & Öğüt, 2006).
Where is the wisdom that we have lost in knowledge?
(Bilgi içinde kaybettiğimiz bilgelik nerede?)
Where is the knowledge that we have lost in information?
(Enformasyon içinde kaybettiğimiz bilgi nerede?)
Eliot bu mısralarda bilgeliğin bilgiye, bilginin ise enformasyona olan bağımlılığını
hiyerarşik bir sıralamayla anlatmaktadır. Şekil 2’de bilgi hiyerarşisi gösterilmektedir.
19
Şekil 2: Veri-Enformasyon-Bilgi Hiyerarşisi
Bilgi hiyerarşisi, “Bilgi Piramidi” veya “Enformasyon Hiyerarşisi” gibi farklı
kavramlar da ifade edilmektedir. Veri, enformasyon, bilgi ve bilgelik (VEBB) sıralaması bilgi
yönetimi alanında bilgi hiyerarşisi, enformasyon alanında yapılan çalışmalarda ise
enformasyon hiyerarşisi olarak tanımlanmaktadır. Bu tanımlamaların seçilmesinde ilgili
çalışmaların yapıldığı alanların etkisi yatmaktadır.
Bilginin oluşumuyla ilgili genel kabul gören hiyerarşi veri, enformasyon, bilgi
şeklindeki sıralamadır ancak bilgisayar bilimlerinde buna ek olarak veri öncesine sinyal ve
felsefe bilimlerinde de bilginin sonuna bilgelik -akıl- ilave edilmektedir (Mertins, Heisig, &
Vorbeck, 2003, s. 3). Bu tez kapsamında bilgi hiyerarşisi içinde veri enformasyon ve bilgi
kavramları ve birbirleriyle ilişkileri ele alınmaktadır.
Bilgi hiyerarşisinin üç aşamadan oluştuğunu ifade eden Sağsan (2009, s. 629)’a göre
ilk aşama; belirsizlik ve bulanıklığın giderilmeye çalışıldığını, belirsizliğin en aza indirilmesi
sonucu elde edilen göstergelerin gözlem yolu ile toplanarak kodlanıp verinin elde
edilebileceği aşamadır. İkinci aşama ise elde edilen bulguların organizasyonunu
gerektirmektedir. Karmaşık süreçlerin yaşandığı bu aşamada, verileri sıraya koyma, birbirleri
ile ilişkisi olanları kümeleme, belirli bir süzgeçten geçirme, aralarındaki ilişkiyi kurma ve
belirgin bir bağlam içinde örgütsel süreçleri gerçekleştirme gibi eylemler, verinin
enformasyona dönüştürülmesinde kullanılmaktadır. Üçüncü aşamada ise enformasyon bir
diğer enformasyon ile karşılaştırılmakta, belirsizlikler ortadan kaldırılmaya çalışılmaktadır.
Elde edilen enformasyon açıklanarak ve anlaşılarak belirsizliği ortadan kaldırılıp bilgi haline
dönüştürülmektedir. Bir anlamda bilgi bağlantılar kullanılarak hayata geçirilmiştir.
Devenport ve Purusak (2001), bilgiyi tanımlarken insanın özüne vurgu yaparlar.
Onlara göre bilgi insanın içindedir, karmaşık ve önceden bilinmez, insan doğasının bir parçası
20
olarak hep var olur. Aynı zamanda enformasyonu bilgiye dönüştürmek için karşılaştırma,
sonuçlar, bağlantılar, konuşmalar şeklinde işlemlerden geçirilmesi gerektiğini belirtmişlerdir.
Enformasyonun bilgiye dönüşmesi için gerekli olan süreç ise şu şekilde sıralanmaktadır
(Davenport & Prusak, 1998, s. 6).
Karşılaştırma: Mevcut duruma ilişkin enformasyon ile diğer durumlara ilişkin
bildiğimiz enformasyonlar arasındaki benzerlik ve farklılıkların belirlenmesi.
Sonuçlar: Enformasyonun kararlar üzerinde ne kadar etkili olduğunun bilinmesi.
Bağlantılar: Mevcut bilgi parçası ile diğerleri arasındaki ilişkinin nasıl olduğunun
ortaya konulması.
Konuşmalar: Diğer çalışanların bu enformasyon hakkındaki düşüncelerinin
öğrenilmesidir.
Açık bir şekilde görülmektedir ki, bu bilgi oluşturma süreci kendi içinde ve insanlar
arasında gerçekleşmektedir. Böylece bilginin temelinde enformasyon, onun da temelinde
verilerin olduğu görülmektedir. Verinin enformasyona, enformasyonun bilgiye dönüşünde
meta verinin önemi günümüzde daha da büyüktür çünkü bilgisayarlar ve makineler meta
veriler sayesinde verileri anlamlandırır, işleyebilir ve analiz edebilirler. Meta veri miktarı
fazla oldukça da veriyi işleyip enformasyona ve enformasyonu da bilgiye dönüştürme hızı
hem makineler hem bilgisayarlar için artar.
Makinelerin ve bilgisayarların verileri otomatik olarak okuyup, işleyip,
anlamlandırmaları için yapılan çalışmalar beraberinde yeni kavramları da ortaya çıkarmıştır.
Bu kavramlardan en önemlileri Büyük Veri ve Nesnelerin İnterneti (Internet of Things)’dir.
Bu tez bağlamında bir sonraki başlıkta Büyük Veri ve özellikleri, sınırlılıkları ve zorlukları
açıklanacaktır.
21
2.5. BÜYÜK VERİ VE ÖZELLİKLERİ
Teknolojik gelişmelerle birlikte üretilen, saklanan ve işlenen veri miktarı hızla
artmaya başlamıştır. Günümüzde Web, akıllı telefonlar, televizyonlar, uydular, sosyal ağlar,
kameralar, bankalar, kredi kartları, uçaklar, hastaneler, Küresel Konumlama Sistemi (Global
Positioning System-GPS) cihazları, radyolar ve algılayıcılar gibi birçok unsur sürekli farklı
formatlarda veri üretmektedirler. Örneğin “Bir jet uçağı uçtuğu her 30 dakikada 10
terabyte’lık algılayıcı verisi ve New York Borsası her gün yapılan hisse senedi alışverişlerine
ilişkin 1 terabyte’lık veri toplamaktadır.” (Sun & Heller, 2012). YouTube’a günlük ortalama
65 bin video yüklenmekte ve Amazon’a ait sadece iki veritabanında 42 terabyte’lık veri
bulunmaktadır. WhatsApp’ta günlük ortalama 27 milyar mesaj gönderilmekte, Google günlük
24 petabyte veri işlemektedir (Davenport ve diğerleri, 2012, s. 22). Bu bağlamda hayatımızın
her alanında “veri seli” hissedilmekte ve yaşanmaktadır. Veri miktarı ve çeşitliliği arttıkça da
literatüre yeni kavramlar girmeye başlamıştır. Büyük Veri kavramı da bu kapsamda ilk olarak
John Mashey tarafından 1990’lı yılların ortalarında büyük veri setlerinin yönetimi ve analizi
olarak kullanılmıştır. Ancak akademik referans anlamında ilk olarak Weiss ve Indurkhya
(1998) tarafından bilgisayar biliminde, Diabold tarafından 2000 yılında ekonometri ve
istatistik alanlarında Büyük Veri kavramı mevcut anlamı ile kullanılmıştır (Diebold, 2012).
Büyük Veri, 2008 yılına kadar hem akademik literatürde hem de bilişim sektöründe
bilinirliği sınırlı kalmış bir kavram olarak karşımıza çıkmaktadır. 2008 yılının Haziran ayında
Wired dergisinde yayınlanan Petabyte Çağı (The Petabyte Age) başlıklı yazıyla birlikte
popüler olan Büyük Veri kavramı bu yazıda “bilimi, tıbbı, işletme yönetimini ve teknolojiyi
değişime uğratan devasa miktarda veriyi tutma, depolama ve anlama kabiliyeti” olarak ifade
edilmektedir (Wired, 2008). Özellikle 2012 yılında Büyük Veri ile ilgili birçok yayın, dergi
makalesi ortaya çıkmıştır. Harvard Nicel Sosyal Bilimler Enstitüsü yöneticisi Gary King’in
2012 yılı Şubat sayısı New York Times’ta yayınlanan Büyük Veri Çağı (The Age of Big
Data) başlıklı yazısında, Büyük Veri’nin bilim dünyasından iş dünyasına ve kamu
yönetimlerine kadar her alanı etkileyeceğini ve etkilenmeyecek bir alanının olmayacağını
belirterek Büyük Veri olgusunun bir devrim olduğunu belirtmektedir (Lohr, 2012). Dünya
Ekonomik Forumu (World Economic Forum) 2012’de yayınlamış olduğu “Büyük Veri Büyük
Etki” (Big Data Big Impact) başlıklı raporda Büyük Veri’nin kamu ve özel sektörün
22
uluslararası gelişimi ve yeni imkânlar sunmasına değinmiştir. Ayrıca, bu zirvede Büyük
Veri’nin, altın ya da para gibi ekonomik varlıkların yeni bir türü olarak ilan edildiğini de
belirtmekte fayda var. Amerikan İstatistik Derneği ve Amerikan Matematik Derneği başta
olmak üzere birçok dernek 2012 Nisan ayını “Matematik, İstatistik ve Veri Seli için
Farkındalık Ayı” olarak ilan ederek sürekli artan miktardaki veriyi anlamak için istatistik ve
matematiğin önemine vurgu yapmıştır (Mathematical Association of America, 2012).
2012’nin Büyük Veri yılı olmasından dolayı 2012’de Araştırma Trendleri Dergisi, Büyük
Veri özel sayısını çıkarmıştır.
Büyük Veri teknolojik gelişmelerle birlikte çok hızlı ve geniş yelpazeli bir şekilde
geliştiği için farklı disiplinlerde farklı anlamlarla ifade edilebilmektedir. Disiplinler arası bir
kavram olması nedeniyle hem farklı disiplinlerdeki araştırmacıların hem de Büyük Veri’yle
ilgilenen kurumların Büyük Veri’ye yükledikleri anlam ve bakışı farklılıklar göstermektedir.
Tablo 4’te Büyük Veri’nin farklı tanımları gösterilmiştir.
Tablo 4 : Büyük Veri Tanımları
Kaynak Büyük Veri Tanımı
Dijcks (2012) Büyük Veri'yi tanımlayan 4 özellik hacim, hız, çeşitlilik ve
değerdir.
Intel (2012) Karmaşık, yapılandırılmamış veya devasa miktarlarda veri
Suthaharan (2013) 3 Özellikle tanımlanabilir; nicelik, süreklilik, karmaşıklık.
(Schroeck vd. (2012) Büyük Veri günümüzün dijital pazarında firmalara rekabette
avantaj sağlayacak, fırsatlar yaratan hacim, çeşitlilik, hız ve
doğruluk özelliklerini taşıyan bir kombinasyondur.
(Beyer & Laney (2012) Karar verme ve doğru çıkarımlarda bulunabilmek için maliyeti
ucuz ve inovatif enformasyon işleme şekilleri gerektiren ve
yüksek hacim, hız ve çeşitlilik enformasyon varlıklarıdır.
(NIST Big Data Public
Working Group (2014)
Depolama, işleme ve analiz için ölçülebilir bir yapı gerektiren
büyük veri setlerinin hacim, hız, çeşitlilik ve/veya doğruluk
özelliklerini taşır.
Ward & Barker (2013) NoSQL, MapReduce ve makine öğrenmesi gibi yöntemleri
kapsayan ama bunlarla sınırlı olmayan büyük ve karmaşık veri
setlerinin depolanması ve analizi.
Microsoft (2013) Ciddi ve önemli hesaplama gücü, uygulama işlemi, makine
öğrenmesi ve yapay zekâdaki en son gelişmelerden çok çok
büyük ve çok karmaşık verisetlerini içerir.
Dumbill (2013) Klasik veritabanlarının işlem kapasitelerini aşan veriye denir.
23
Fisher vd. (2012) Kolaylıkla işlenemeyen ve baş edilemeyen veridir.
Shneiderman (2008) Ekrana sığamayacak kadar büyük veri setidir.
Manyika vd. (2011) Geleneksel veritabanı yazılım araçlarının depolayıp,
yönetemediği ve analiz edemediği veya bunları yapma
kapasitesini aşan büyüklükteki veri kümeleridir.
Chen vd. (2012) Çok büyük, karmaşık ve gelişmiş veri depolama, yönetme, analiz
ve görselleştirme teknolojileri gerektiren veri kümeleri ve analitik
teknikleridir.
Boyd&Crawford (2012) Teknoloji, analiz ve mitolojinin birbiriyle ilişkisine dayanan
kültürel, teknolojik ve bilimsel bir olgudur.
Mayer-Schönberger&
Cukier (2013)
Toplumu anlama ve düzenleme biçimimizi değiştiren, bilgiyi
analiz etmemizde üç değişimi temsil eden olgudur: 1. Daha fazla
veri, 2. Daha dağınık veri, 3. Nedensellikten korelasyona geçiş.
Kaynak: Mauro, Greco&Grimaldi 2014 s.7’den uyarlanmıştır.
Yapılan literatür araştırmasında geçen Büyük Veri tanımları incelendiğinde “hacim”
“hız”, ve “çeşitlilik” kavramlarının Büyük Veri’nin temel özellikleri olduğunu, analitik
yöntemlere ihtiyaç duyulduğunu, Büyük Veri’nin sahip olduğu “değer” kavramının kurum ve
toplumları dönüştürdüğünü çıkarabiliriz.
Bu tez çalışmasında Büyük Veri kavramı Mayer-Schönberger&Cukier (2013) ve
Manyika vd. (2011) yapmış oldukları tanımlara dayandırılmaktadır. Büyük Veri, “Geleneksel
veritabanı yazılım araçlarının depolayıp yönetemediği ve analiz edemediği veya bunları
yapma kapasitesini aşan büyüklükteki veriyi ve toplumu anlama ve düzenleme biçimimizi
değiştiren, bilgiyi analiz etmemizde değişimi temsil eden olgu” olarak kabul edilerek bu
bölümde Büyük Veri’nin boyutları, özellikleri, ilişkili olduğu alanlar ve sınırlılıklarıyla
zorluklarına değinilmiştir.
2.6. BÜYÜK VERİ’NİN BOYUTLARI
Büyük Veri’nin farklı disiplinlerde farklı anlam ve özellikleri olsa da en çok kabul
edilen özellikleri; veri hacmi (volume), veri hızı (velocity) ve veri çeşitliğidir (variety) ve
bunlar 3V ile ifade edilir (Laney, 2001). Çeşitli kaynaklarda doğruluk (verification) ve değer
(value) de bu özelliklere ilave edilerek 5V olarak belirtilmektedir. Diğer yandan kimi
kaynaklarda ise Büyük Veri boyutları hacim, hız ve çeşitliliğe ek olarak sadece doğruluk veya
sadece değer eklenerek 4V olarak da literatürde yer almaktadır. Bu beş kavram için standart
24
bir tanımlama bulunmamakla birlikte bunlar çeşitli kaynaklarda Büyük Veri
Bileşenleri/Unsurları/Elementleri/ Özellikleri/Boyutları gibi farlı isimlerle ifade edilmektedir.
Veri hacmi verinin miktarını, veri hızı; üretildiği anda yayılabileceğini, veri çeşitliliği ise veri
yapısının farklı formatlarda olabilmesini ifade etmektedir (Zikopoulos, 2012). Doğruluk,
Büyük Veri’nin güvenilirliğini ve Büyük Veri’nin sahip olduğu en önemli özellik olarak
atfedilen değer kavramı ise Büyük Veri’de yatan soyut anlamı ve kurum için artı bir değer
yaratıyor olmasıdır. Büyük Veri öncesinde ilk üç özellikleri veri tabanları aynı anda birlikte
barındıramıyorlardı, sadece ikisini (büyük ve hızlı, çeşitli ve hızlı, büyük ve çeşitli)
barındırabiliyorlardı. Büyük Veri ile birlikte bu üç özellik bir araya gelmiştir (Croll, 2012).
Şekil 3’te Büyük Veri’nin 5 Boyutu gösterilmektedir.
25
Şekil 3: Büyük Veri Boyutları
Kaynak: http://andressilvaa.tumblr.com/post/87206443764/big-data-refers-to-5vs-
volume’den uyarlanmıştır (Erişim: 19.07.2015)
Literatürde daha çok yer bulduğu için bu tez bağlamında Büyük Veri’nin
boyutlarından veri çeşitliği, veri hızı ve veri hacmi ifadeleri daha detaylı olarak
incelenecektir. Google arama motorunda, 3V olarak adlandırılan Büyük Veri unsurlarının
hangi sıralamada daha çok Büyük Veri’yle kullanıldığını belirlemek için, bu üç kavramın
birlikte yer aldığı farklı permütasyonlar aratılmıştır. Bu aramalardan birine örnek verecek
olursak, “big data”+“volume velocity variety” şeklindedir. Arama dilinin İngilizce olmasının
nedeni bu üç unsurun Türkçe kaynaklarda “hacim” veya “veri hacmi” gibi farklı şekilderde
Büyük Veri'nin 5 V'si
Yıllık-Aylık
Günlük-Saatlik
Gerçeğe Yakın
Gerçek Zamanlı
İstatistiki
Olgular
Korelasyonlar
Varsayımsal
Güvenilirlilik
Gerçeklik
Kaynak, Saygınlık
Ulaşılabilirlik
Hesaplanabilirlik
Yapılandırlmış
Yarı Yapılandırılmış
Yapılandırılmamış
Çok faktörlü
Olasılıksal
Terabaytlar
Kayıtlar
İşlemler
Tablolar
Velocity (Veri Hızı)
Value
(Veri Değeri)
Veracity
(Veri Doğruluğu)
Variety
(Veri Çeşitliliği)
Volume
(Veri Hacmi)
26
ifade edilmesinden kaynaklanan anlam karmaşasının önüne geçmektir. Bu sıralamalar Tablo
5’te belirtilmiştir.
Tablo 5: Büyük Veri Boyutlarının Google’da Arama Sıralamaları Sonuçları
Google’da Arama Sıralamaları Sayfa
Sayısı
variety volume velocity 28300
velocity Variety volume 20800
volume velocity variety 17800
volume Variety velocity 12500
velocity volume variety 1840
variety velocity volume 1600
Kaynak: Google (Erişim: 27 Mart 2015)
Yapılan Google aramalarından elde edilen sonuçlara göre Büyük Veri ile birlikte Veri
Çeşitliliği, Veri Hacmi ve Veri Hızı” sıralaması yaklaşık 28300 sayfada bulunmuştur. “Veri
Hızı, Veri Çeşitliliği ve Veri Hacmi” sıralaması ise yaklaşık 20800 sayfada kullanılmaktadır.
Büyük Veri’nin üç boyutlarının farklı sıralama permütasyonlarının Google arama motoru
sonuçları doğrultusunda elde edilen sayfa sayılarına göre en çok “Veri Çeşitliliği, Veri Hacmi
ve Veri Hızı” Büyük Veri’yle kullanıldığı için bu tez çalışması bağlamında da bu sıralamaya
göre devam edilerek daha sonra Büyük Veri ile anılmaya başlayan diğer boyutlar olan veri
doğruluğu ve veri değeri açıklanacaktır.
2.6.1. Veri Çeşitliliği
Veri çeşitliliği, Büyük Veri’nin yapısındaki farklılık ve zenginliğin ölçüsüdür. Veri
yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış, sayı, metin, resim, video, ses ve
diğer farklı formatlarda bulunabilir. Büyük Veri’nin bu çeşitli formatları aynı anda
bulundurması analizinde zorluklara sebep olmaktadır. (Kaisler ve diğerleri, 2013). İnternetle
birlikte yapılandırılmamış veri miktarı hızla artmakta ve dijital evrende yapılandırılmamış
veri miktarı oranı %90’nın üzerinde olduğu ifade edilmektedir (Gantz & Reinsel, 2011).
Büyük Veri’de farklı yapıdaki veriler genellikle birleştirilmiş ve bağlanmış, birleştirilmiş
yapısal ve yapısal olmayan veriler şeklindedir. Örneğin Facebook gönderilerinde fotoğraf,
video, diğer web sitelerinden link ve yorumları içerebilen farklı formatları aynı anda
bulunabilmektedir (Kitchin, 2014).
27
Geleneksel analitik platformlar farklı çeşitlilikteki verilerle aynı anda baş
edememekte ve analiz edemememektedir. Bununla birlikte geleneksel veritabanları farklı
formattaki veriyi depolayamamaktadır. Kurumlar, yatırımlarını Büyük Veri’nin çeşitliliğinde
bulunun değeri yeni yöntemlerle analiz edip, çıkararak rekabet ortamında öne geçmeyi
hedeflemektedirler. Ayrıca geleneksel ilişkisel veritabanlarında numerik veriler kullanılarak
çeşitli istatistiksel analizler yapılabilmekteyken, numerik olmayan verilerde ise analiz yapma
gücü zayıf kalmıştır (Zikopoulos, 2012, s. 8). Bu yüzden temelinde mevcut istatistiksel
tekniklerin yer aldığı yeni veri analiz teknikleri geliştirilmiştir. Bu analizlerin bir kısmı veri
madenciliği adı altında sınıflandırılmıştır. Bu yöntem ve teknikler bu tez bağlamında beşinci
bölümde ele alınmıştır. Open Data Center Alliance (2012) ’nın raporuna göre, Büyük Veri
öncesinde yapısal olmayan veri ya yok sayılırdı ya da en iyi ihtimalle verimsiz olarak
kullanırdı. Ama NoSQL yapısı kullanılarak dizayn edilen veri tabanlarındaki yapısal olmayan
veriler, veri madenciliği yöntemleri ve Hadoop ve MapReduce gibi yeni tekniklerle
yönetilebilir, işlenebilir ve analiz edilebilir olmuştur.
Web 2.0’la ortaya çıkan sosyal medyada kullanıcılar artık aynı anda farklı
formatlardaki verileri paylaşabilir olmuşlardır. Örneğin sosyal ağlarda paylaşılan bir içerikte
metin, link ve video aynı anda bulunabilmektedir. Kişilerin sosyal medyada paylaşımları
sayesinde de ortaya çıkan Büyük Veri, araştırmalar içinde ham madde konumundadır.
Özellikle sosyal medya, internet araştırmalarına ev sahipliği yapmakta ve toplanan veriler
hem mevcut istatistiksel hem de yeni gelişen analiz teknikleriyle analiz edilmektedir. Bu tez
bağlamında toplanan Büyük Veri’nin analizinde kullanılan yöntem ve teknikler
açıklanacaktır.
2.6.2. Veri Hacmi
Büyük Veri özelliklerinden ilk akla gelen veri hacminin büyüklüğüdür. Büyük Veri
kavramındaki “Büyük” ifadesi de aslında verinin hacminden gelmektedir (Zadrozny &
Kodali, 2013). Web 2.0 ve sosyal medya ile birlikte günlük bazda üretilen ve işleme konulan
veri miktarının artışı dikkat çekicidir. Birçok şirket dünyadaki enformasyon miktarını ölçerek
dijital evreninin büyüklüğünü belirlemeye çalışmaktadır. Örneğin EMC şirketi
sponsorluğunda IDC’nin yapmış olduğu çalışmada dijital evrenin 2020 yılında 2009 yılından
44 kat daha büyük olacağı ifade edilmiştir (IDC iView, 2010).
28
Ganz&Reinsel ve Hilbert&Lopez yapmış oldukları çalışmalarda dünyada var olan
veri hacmini hesaplamaya çalışmış, farklı metotlar ve tanımlar denemişlerdir. Bu
çalışmalardaki ortak görüş veri artış oranının üstel olduğu yani katlanarak devam ettiğidir
(Hilbert & López, 2012, Ganz & Reinsel, 2011). Günümüzdeki bu artış içinde olan veriye ait
veri hacim ölçüleri Tablo 6’da gösterilmiştir.
Tablo 6: Veri Hacmi Ölçüleri
Birim Büyüklük Anlamı
Bit(b) 0 veya 1
"İkili sayı"nın (binary digit) kısaltılması.
Bilgisayarlar verileri ikili kod (0-1) temelinde saklar
ve işlerler.
Byte (B) 8 bit Bir harf veya sayıyı bilgisayar kodunda oluşturmak
için yeterli enformasyon. Temel hesaplama birimi.
Kilobyte (KB) 1000 veya 210
byte Yunancadaki "bin". Bir sayfa yazı 2 KB.
Megabyte (MB) 1000 KB; 220
byte Yunancadaki "büyük". Shakespeare'in bütün eserleri
5 MB, tipik bir pop şarkı 4 MB.
Gigabyte (GB) 1000 MB; 230
byte Yunancadaki "dev". İki saatlik bir film 1-2 GB'ye
sıkıştırılabilir.
Terabyte (TB) 1000 GB; 240
byte Yunancadaki "dev". Amerikan Kongre
Kütüphanesi'ndeki kitaplar 15 TB.
Petabyte (PB) 1000 TB; 250
byte Google her saatte 1 PB işliyor.
Exabyte (EB) 1000 PB; 260
byte Economist dergisinin 10 milyar kopyasına eşdeğer.
Zetabyte (ZB) 1000 EB; 260
byte 2010 yılında var olan tüm bilgi 1,2 ZB olarak
öngörülüyor.
Yotabyte(YB) 1000 ZB; 280
byte Hayal etmesi zor.
Kaynak: The Economist http://www.economist.com/node/15557421) (Erişim 12
Ocak 2015).
Short, Bohn ve Baru (2011)’nun “Ne Kadar Enformasyon” (How much information?)
adlı yıllık raporuna göre, 2008 yılı itibariyle dünya sunucuları 9.57 ZB enformasyonu
işlemiştir. 2013 yılında AB Dijital Ajansı komisyoncusu Neelie Kroes dakika başına dünyada
1.7 milyon byte veri üretildiğini bildirmiştir (Rial, 2013). Gantz ve Reinsel (2011)’in hesabına
göre internet üzerinde üretilen ve yinelenen veri miktarı 2011 yılında 500 quadrilyon dosya
içerisinde 1.8 ZB'yi geçmektedir.
29
Tech America'nın tahminine göre dünya üzerinde her gün 114 milyar e-mail, 24
milyar kısa mesaj gönderilmekte ve 12 milyar telefon çağrısı gerçekleşmektedir (Strohm &
Timothy R., 2013). Cisco'ya göre, 2013 yılında 10 milyar nesne Nesnelerin İnterneti’ne
bağlanmakta, çeşitli miktarlarda veri üretmektedir ve bu sayının 2020 yılı itibariyle 50
milyara çıkması beklenmektedir. (Cisco, 2013). 2012 yılında Google’da, her biri kayda alınan
günlük 3 milyon arama sorgusu gerçekleşmiştir. Bu sorguların günlük hacmi 24 PB
civarındadır (Mayer-Schönberger & Cukier, 2013). 2011 yılında Facebook'taki aktif
kullanıcılar, ayda ortalama 9,3 milyar saatten fazla bir süreyi bu sitede online olarak
geçirmektedirler (Manyika ve diğerleri, 2011). Facebook kullacıcı sayısı 1 milyarı aşmakta ve
günlük aktif kullanıcı sayısı 650 milyona yaklaşmaktadır. Facebook’ta günlük ortalama 2,5
milyar içerik paylaşılmakta, 2,7 milyar “beğen” düğmesi tıklanmakta ve 500 Terabyte’n
üzerinde veri üretilmektir (Zadrozny & Kodali, 2013, s. 2).
Bilimsel projelerde de üretilen veri miktarı çok yüksektir. CERN’de bulunan Geniş
Hadron Çarpıştıcısı her saniyede 40 TB veri üretmektedir. Slon Digital Sky Survey, 2000
yılında çalışmaya başladığında, New México da bulunan teleskoplarında birkaç ay içerisinde
o güne kadar insanlık tarihinin astronomi alanında üretmiş olduğu veriden daha fazla miktarda
gözlemsel veriyi toplamıştır. 2010 yılında bu arşiv 140 TB veriden oluşmaktadır (The
Economist, 2010).
Hükümetler ve kamu kurumları da vatandaşlar için çok yüksek miktarda veri
üretmektedir. Örneğin ulaşım kartları verileriyle kişilerin nerden nereye hangi araçla gittiği, o
araçlarda kimlerin olduğu bilgisine ulaşılabilir (Kitchin, 2014, s. 71). DARPA ve ABD
Ordusu bünyesindeki ARGUS-IS görüntü platformu 7 gün 24 saat Neywork City ve
Manhattan gözetleyen dronlarla günlük 8 PB’lık video görüntüsü kaydetmektedir. Güvenliği
sağlayan 16 istihbarat teşkilatıyla beraber Amerikan Ordusu saat bazında çok yüksek
miktarda veriyi tarayıp, depolayarak analiz etmekte ve binlerce analist bu verilerin
ayıklanması ve yorumlanması için çalıştırılmaktadır (Anthony, 2013).
2.6.3. Veri Hızı
Büyük Veri’yi farklı kılan en önemli özellik veri üretiminin dinamik doğasıdır. Küçük
veri genellikle belirli bir zaman ve mekânda yapılan sabit çerçeveli çalışmalardan oluşur.
30
Boylamsal çalışmalarda veri belirli zaman aralıklarıyla (her ay, her yıl gibi) elde edilmektedir.
Diğer yandan Büyük Veri ise sürekli, devam eden bir yapıda gerçek zamanlı ya da gerçeğe
çok yakın süreyle üretilir. Aralıklı, kesintili bir veri akışından ziyade veri selinden elde edilir
ve veri, hızıyla birlikteyken işlenir. Bundan dolayı, veri yığınlarından akan veriye doğru
kayan bir ilgi vardır (Zikopoulos, 2012).
Hız, süreç içinde her zaman açık olan sistemlerin çalışması ve bu sistemlerde tekrar
edilen gözlemlerin zaman veya mekân içerisinde sürekli olarak tekrarlı şekilde devam
etmesinden kaynaklanır (Jacobs, 2009). Örneğin web siteleri kullanıcıların yaptığı işlemler ve
ziyaretler hakkında sürekli olarak aynı şekilde log tutar, tıbbi cihazlar yaşamsal belirtileri
sürekli olarak takip eder, mobil telefon şirketleri cihazları sürekli izleyerek her saniye şebeke
durumunu kontrol eder, hava sensörleri her dakika atmosfer hakkında ölçüm yaparak hava
tahmini için ilgili veriyi işler, şehirdeki otobüs ve tren işletmeleri sürekli olarak ulaşım
aletlerini kontrol eder ve zamanlama hakkında bilgi verir, bir teleskop sürekli olarak uzay ve
gezegenler hakkında radyo dalgaları ile ölçüm yapar ve yeni keşiflere imkân sağlar. Bu
durumların hepsi akan veriye örnektir ve verinin hızıyla birlikte analiz edilmesine ihtiyaç
duyulmaktadır.
İnternetle birlikte hayatımıza giren e-ticaret şirketleri ve çevrimiçi satıcıları da veri
hızı ile ilgilenmektedir. Sadece ürünün son satışı ile değil, müşterilerin her etkileşimini ve
tıklamalarını takip eden çevrimiçi şirketler, anlık olarak hemen kullanıcıların verilerini analiz
ederek, kullanıcılara satın alabileceği ek ürünler sunmakta, kullanıcıların yaptıkları aramalar
doğrultusunda onlara benzer şeyler önererek rekabet ortamında öne geçmektedirler. Akıllı
telefonlar sayesinde veri akışı hızlanmaktadır, çünkü kullanıcılar onları yanlarında taşıyarak
konum bilgilerinin verisini yaymaktadır (Dumbill, 2012). Bu veriyi analiz eden şirketler
kişilere konum tabanlı reklam, mesaj göndermekte ve bu durum giderek yaygınlaşmaktadır.
Verilerin anlık olarak izlenmesi, ölçümlenmesi ve analiz edilmesi pazarlama sektörü
açısından hayati önem taşımaktadır. Çünkü rekabetçi ortamda kurumlar veriyi ne kadar hızlı
analiz edebilirse, o kadar hızlı pazarlama stratejileri geliştirerek hedef kitlelerini
belirleyebilirler. Böylece kişilerin ihtiyaç duydukları bir ürünü/hizmeti anlık olarak
belirleyerek kişilere ilgili ürün/hizmetleri gerçek zamanlı olarak sunabilir ve böylelikle pazar
paylarını genişletebilirler.
31
2.6.4. Doğruluk
Büyük Veri’nin doğruluğu iki anlamı ifade etmektedir. Birincisi, Büyük Veri’yi
oluşturan kaynağın güvenilirliğinin yüksek olmasını ve ikincisi de verinin hedef kitleye uygun
olmasını ifade etmektedir. Doğruluk günümüzde Büyük Veri açısından en zor temin edilen
durumdur. Çünkü Büyük Veri’nin çoğunluğu farklı kaynaklardan gelmektedir ve bu
kaynakları veriyi toparlayan kurumlar kontrol edememektedir (Sütcü & Çiğdem, 2013, s. 94).
Örneğin Twitter’da belirli bir hashtag ile oluşturulmuş içeriklerin güvenilirliğini ve o hashtag
ile ilgili olup olmadığını kontrol etmek güçtür. Kitap mağazasının tüm müşterilerine aynı
kitap reklamını yapması da uygun olmayabilir. Özellikle sosyal medyada reklam vermek için
hedef kitlenin belirlenmesinde filtreleme ne kadar hassas olursa reklamın doğru kişilerce
alınması da doğru olacaktır. Büyük Veri’nin doğruluğunu ve kalitesini etkileyen en önemli
unsurlar veri hacmi ve veri miktarıdır. Çünkü veri miktarı arttıkça ve veri kaynakları
çeşitlendikçe verini güvenilirliği ve kalitesi azalmaktadır. Günümüzde çeşitli Büyük Veri
analitikleri bu tür durumlarla da baş edebilmek için sürekli gelişim halindedirler (Marr, 2014).
2.6.5. Veri Değeri
Büyük verinin sahip olduğu özelliklerden en önemlisi değerdir. Ruffatti (2013) 5V
olarak nitelendirilen bu özelliklerin en anlamlısı olarak değer olduğunu ve değeri “veriden
anlam çıkarma” olarak ifade etmektedir. Elde edilen verinin içerisinde taşıdığı anlamı ifade
eden veri değeri; Büyük Veri’yi anlamlandırmaya olanak sağlamakta ve böylelikle Büyük
Veri’yi kullanmak için mantığa göndermede bulunmaktadır. Veri değeri özelliği veriden
soyut anlamın daha efektif olarak çekilmesini sağlayarak verim ve fayda kazanılmasını
sağlamaktadır (Ruffatti, 2013). Büyük Veri’nin diğer tüm boyutlarının amacının aslında
Büyük Veri’nin sahip olduğu değeri ortaya çıkarmak için hizmet ettiğini vurgulayan (Swoyer,
2012, s. 2) kurumların Büyük Veri’den fayda elde etmelerinde ve veriyi karar alma
süreçlerine uygulayabilmeleri için veri değerini ortaya koymak zorunda olduklarını ve Büyük
Veri özelliklerinden veri hacmi, veri hızı ve veri çeşitliliğinin tek başına veride yatan değeri
ortaya çıkarmada yetersiz olduklarını bir anlam ifade etmedikleri belirtmektedir.
Diğer yandan, günümüz iş dünyasında kurumlar Büyük Veri’nin sahip olduğu
değerin yardımıyla bir yol haritası elde etmektedirler. Dolayısıyla yatırımlarında en az
32
maliyetle en yüksek karlılığı sağlarlar. İş durumlarının belirlenmesinde, projelerin
belirlenmesinde, uygulanmasında ve devam eden yatırımların sürdürülebilirliğinde değer
kavramı önemlidir. Yatırım getirisi veya yatırımın geri dönüşü olarak ifade edilen “Return of
Investment (ROI)” Büyük Veri’nin sahip olduğu değerle paralellik göstermesi durumunda iş
dünyasındaki kurumlar geleceğe yönelik yatırım yapmaya devam eder (Saporito, 2014).
Bununla birlikte, bilinmesi gereken bir diğer husus değerin yalnızca Büyük Veri’nin
ifade ettiği ölçülerdeki büyüklükler için anlam taşımadığıdır. Vorhies’in ifadesiyle hem büyük
hem de küçük olarak nitelendirilebilecek büyüklükteki verinin analizinde değer özelliği
bulunmak zorundadır. Eskiden müşterileri gruplar halinde kaydederek, eldeki kayıtlar
üzerinden verinin sahip olduğu değeri bulmaya çalışan kurumlar, Büyük Veri ile birlikte
kurumlar müşterilerine dair verileri bireysel olarak kaydetmektedirler. Böylece her bir müşteri
için kişeye özel teklifler sunarak, rekabetçi ortamda Büyük Veri’den elde ettikleri değerle
fayda sağlamaktadırlar (Vorhies, 2013).
2.7. BÜYÜK VERİ’NİN DİĞER ÖZELLİKLERİ
Büyük Veri’nin veri çeşitliliği, veri hacmi, veri hızı, doğruluğu ve değeri olmak üzere beş
temel boyutunun yanında Büyük Veri’nin kapsamlılığı, esnekliği, ilişkiselliği, dizinselliği ve
çözünürlüğü gibi farklı özelliklerine de literatürde yer verilmiştir.
2.7.1. Büyük Veri’nin Kapsamlılığı
Büyük Veri, daha küçük miktarda veri setlerini kabul etmek zorunda kalmak yerine,
bir konu hakkındaki çok fazla miktarda hatta tüm veriyle analiz etmeye çalışma becerisidir.
Uzun yıllar araştırmacılar az miktarda veri ile çalışmışlardır. Bunun nedeni; veriyi toplama,
düzenleme, depolama ve analiz etme araçlarının yeterli olmamasıdır. Bu yüzden az miktarda
veri ile çalışılarak örneklemeler ve geneli ifade eden çıkarımlar yapılmıştır ki bu da aslında
bir anlamda istatistiğin amacıdır. Bu yöntem toplam popülasyon çok büyük olduğunda, bütün
verilerin tek tek alınmasının vakit ve mekân açısından imkânsızlığı nedeniyle
kullanılmaktadır. Büyük Veri, büyük miktarlarda verinin kontrol edilerek analiz edilebilmesi
sayesinde örneklemeye ve çıkarıma ihtiyaç kalmamasını sağlayabilmektedir. Büyük Veri
projeleri bütün popülasyonunu yakalamaya çalışmaktadır. N=hepsi ya da tüm veri setinin
mümkün olan en büyük bölümünü kullanılır. (Mayer-Schönberger & Cukier, 2013, s. 27-34).
33
Büyük Veri’nin kapsamlılığı konusunda en önemli örneklerden biri Google Grip
Trendleri’dir.
Google Grip Trendleri, dünya çapındaki grip etkinliklerini hemen
hemen gerçek-zamanlı olarak tahmin etmek için toplu Google arama
verilerinden yararlanmaktadır. Griple ilgili arama yapan kişi sayısı ile
gerçekten grip semptomları taşıyan kişi sayısı arasında yakın bir ilişki olduğu
tespit edilmiştir. Elbette "grip" için arama yapan herkes hasta değildir, ancak
griple ilgili tüm arama sorguları birbirine eklendiğinde bir model ortaya
çıkar. Sorgu sayımları geleneksel grip izleme sistemleriyle
karşılaştırıldığında birçok arama sorgusunun grip mevsiminin başlamasıyla
birlikte kesin bir şekilde artma eğiliminde olduğu görülmüştür. Bu arama
sorgularının ne sıklıkta görüldüğü sayılarak gribin dünya çapındaki farklı
ülkelerde ve bölgelerde ne kadar dolaştığı tahmin edilebilir (Google Grip
Trendleri, 2011).
Büyük Veri’yle ilgilen Google, Windows ve Facebook gibi şirketlerin kullanıcılara
ait tüm bilgileri kaydettiği konusu tartışmalıdır. Yakın zamanda medyada yer alan haberlere
göre Facebook’tan kullanıcı bilgilerini isteyen Max Schrems’e Facebook tarafından 1222
sayfalık bir pdf dosyası gönderilmiştir. Bu dosyadan silinmiş mesajlar, aranılan isimler,
sohbet kayıtları, oynanan oyunlar, bakılan fotoğraflar, beğeniler kısacası Facebook’ta
yapılabilecek her şeyin kayıtlı olduğu görülmektedir. Günümüzde Facebook’un 1,3 milyar
kullanıcıyı aşan sayısı ile sahip olduğu Büyük Veri düşünüldüğünde, kişilerin özel hayatlarına
varana kadar kapsamlı bir boyutta olduğu anlaşılmaktadır (Hill, 2012).
Dumbill (2012) Büyük Veri’nin altında yatan temel prensibin "Yapabiliyorsan her
şeyi kaydet" olduğunu ifade etmektedir. Ne kadar çok veriye ulaşılırsa, o kadar iyi karar
verilip, verinin sahip olduğu değere daha iyi ulaşılabilir. Diğer yandan Büyük Veri’nin
kapsamlılığının doğruluğu, nesnelliği ve verilerin nasıl toplandığına dair etik sorunlar da
vardır (Boyd & Crawford, 2012). Bu etik sorunlara Büyük Veri’nin etkisi ve zorluklarında
değinilmiştir.
34
2.7.2. Büyük Veri’nin Dizinsellik ve Çözünürlük Özelliği
Veri kapsamlılığına ek olarak, dizinsellik (özgün etiketlendirme ve kimliklendirme)
ile Büyük Veri giderek çok daha detaycı bir çözünürlülüğe sahip olmaktadır (Dodge &
Kitchin, 2003). Geliştirilmiş çözünürlülüğe örnek olarak uzaktan ölçümlü resimler verilebilir.
1980’nin sonlarında, kamu harici araştırmacıların sahip olduğu yeryüzüne ait en yüksek
çözünürlüklü resimler Landsat uydularından elde ediliyordu ve her bir piksel 30x30 metre
toprak parseline tekâmül ediyordu. Şimdi ise Google Earth üzerindeki resimlerin birçoğu
“2,5m x 2,5m” çözünürlüğe sahiptir (NASA Technology, 2015). Bu oran çok daha detaylı
görüntü elde etmeyi ve daha iyi analiz yapılmasını sağlamaktadır. Veri çözünürlüğünün
artması; insanların, eşyaların, bölgelerin vb. kimliklendirilmesi ile doğada daha çok
dizinselliği de yanında getirmektedir. Örneğin Radyo Frekansı ile Tanımlama (RFID)
sistemiyle etiketlenmiş bir ürün özel olarak kimliklendirilir. Her ürün belirli bir mesafeden
radyo dalgalarıyla okunabilecek özel bir ID koduna sahiptir. Böylelikle her bir ürün
üreticiden, tedarik zincirindeki her bir noktadan, müşterisinin alış veriş çantasına girene kadar
gerçekleşen süreçte detaylı bir şekilde takip edilebilmektedir (Galli, 2012). Başka bir deyişle,
her bir bireysel ürünün anlık olarak zaman ve mekân çerçevesinde hangi süreçlerden geçtiği,
neler olduğu ve nasıl bir yol izlediği kesin ve doğru bir şekilde dizinsellik sayesinde
görülebilmektedir. Bunlar da şirketler için karar alma ve yatırım yapma süreçlerinde önemli
bir rol oynamaktadır.
2.7.3. Büyük Veri’nin İlişkiselliği
İlişkisellik boyut olarak, farklı veri setlerinin nasıl birleştirildiğini ve bu birleşimlerin
yeni soruları cevaplandırmada nasıl kullanıldığını kapsamaktadır. İlişkisellik, geleneksel veri
tabanlarının temel mantığını oluşturmaktadır, çünkü birbirleriyle ilişkili verileri tekrar tekrar
karşımıza çıkarmak yerine veritabanı sadece birini depolamaktadır. İlişkisellik sayesinde
nüfus sayımları ile bir ülkenin nüfusu ve bu nüfusun zaman ve mekân içerisinde nasıl
değiştiğini anlayabiliriz. Küçük veri çalışmaları ilişkisellikleri bakımından çeşitlilik gösterir;
yapısal veri içerenler yapısal olmayanlara göre daha fazla veri ilişkilendirmelerine sahiptir
(Kitchin, 2014, s. 75).
35
Büyük Veri her ne kadar ilişkisel veritabanlarını kullanmasa da, büyük verinin
doğasında ilişkisellik vardır. Büyük Veri temel olarak şebekelendirilmiştir. Büyük Veri’nin
değeri bireyler hakkında, bireylerin başkalarıyla arasındaki ilişkileri hakkında, bir grup insan
hakkındaki veri parçalarının birleştirilerek oluşan örüntüden, düzenden gelmektedir. İlişkisel
veritabanlarından farklı olarak, numerik olmayan verilerde -yapısal olsun veya olmasın- ve iki
şeyin kesişimlerinden bir değer çıkarmada Büyük Veri etkilidir (Boyd & Crawford, 2011, s.
2).
Obama’nın seçim kampanyası ilişkisellik açısından güzel bir örnektir. Obama’nın
ekibi, nüfus sayımlarındaki verilerden kablolu TV kullanıcılarına, kredibilite notlarından
anketlere kadar birçok veriyi birleştirmişlerdir. Neticede ortaya devasa büyüklükteki veri
tabanları çıkmıştır. Bunlar, her bir seçmenin ve potansiyel seçmenlerin demografik
dağılımından oy geçmişlerine, Obama’nın kampanyasına karşı verdikleri tepkilerden
tüketimsel ve davranışsal alışkanlıklarına, sosyo-ekonomik geçmişlerinden verdikleri fikir ve
tepkilerine kadar birçok farklı değişken içermektedir. Sürekli olarak gün içerisinde getirilen
yeni verilerle veri tabanları güncellenmiştir. Obama’nın veri analistleri bir seçmenin siyasi
görüşünü bilmeme durumuna karşı kişilerin oy verecekleri siyasi partiyi anlamak için,
seçmenlerin seçim kararlarını etkileyen değişkenler arasında ilişkiselliği üzerinde
durmuşlardır. Sonuç olarak, seçmenlerin profilleriyle tahmini oy oranlarını, yeni uygulanacak
politikalara karşı verilecek tepkileri ve çok çeşitli değişkenleri ölçmek için birbiriyle
ilişkilendirilmiş milyarlarca veriyle analizler yaparak seçim stratejileri üretmişlerdir.
(Issenberg, 2012).
İlişkisellik matematikte bağıntı olarak ifade edilmektedir. İlişkiselliğe bir örnek
verecek olursak, A ve B herhangi iki küme olmak üzere; A ve B’nin eleman sayıları s(A) = m
ve s(B) = n olarak verilmiştir.
A dan B’ ye 2mn
tane bağıntı (relation) tanımlanabilir.
A kümesi 3 elemanlı, B kümesi 2 elemanlı ise, A’dan B’ye oluşacak bağıntı sayısı;
23x2
= 26=64 tanedir. A kümesinin eleman sayısı 1 artırıldığında ise durum değişecektir.
Yeni durumda 24x2
= 28=256 tane bağıntı oluşacaktır. Eleman sayısı 1 artarken artış miktarı
üstel olmuştur. Bu durum eleman sayısı 2, 3 olan basit kümelerde bile bu denli artış
36
gösterirken, veri hacmi çok büyük olan veri setlerinde oluşan Büyük Veri’de ise çok çok daha
fazla bağıntı sayısı ortaya çıkacaktır.
2.7.4. Büyük Veri’nin Esneklik Özelliği
Küçük veri projelerinde saha çalışmalarına ve analizlere başlandığında örneklemde,
araştırma yönteminde ve veri yönetiminde değişiklik yapmak zordur çünkü seçimler
yapılmıştır ve çok esnek olmayabilir. Ayni şekilde ilişkisel veri tabanlarında veri belirli bir
formda olmak zorundadır ve ölçek limitlidir. Buna karşılık Büyük Veri sistemleri
genişlenebilirlik (yeni alanlar kolayca eklenebilir) ve ölçeklenebilirlik (hızlıca büyüyebilir)
özelliklerini koruyacak şekilde, doğası gereği esnek olarak dizayn edilmektedir (Marz &
Warren, 2012). NoSQL veritabanları değişebilir, çok yüksek hızdaki verinin yönetilmesini ve
yeni alanlara uygulanmasını sağlar. Bunun anlamı, veri üretiminin bir döngüye uyarlanmasına
ve uyarlanabilirlik testinin uygulanmasına imkân sağlıyor olmasıdır. Örneğin Facebook
zaman zaman arayüz tasarımında değişiklikler yaparak, kullanıcıların bu değişikliklere
verdiği tepkileri izleyip analiz ederek, kullanıcıların tepkilerine göre değişiklikleri
geliştirmekte ve bu değişimleri genişletmektedir (Kitchin, 2014, s. 78).
Mauro ve diğerleri (2014) yapmış oldukları çalışmada Büyük Veri’ye ait kelime
bulutu oluşturmuş ve Büyük Veri ile birlikte kullanılan kavramlardan öne çıkanlarını şöyle
sıralamışlardır; “hacim”, “hız”, “çeşitlilik”, “karmaşıklık”, “değişkenlik”, “depolama”,
“enformasyon”, “işlem”, “veritabanı”, “karar”, “değer”.
2.8. BÜYÜK VERİ’NİN İLİŞKİSİ OLDUĞU TEMALAR
Büyük Veri disiplinler arası bir kavram ve olgu olması sebebiyle de litaratürde tek
bir tanımla ve tek bir tema altında değerlendirilmemektedir. Ancak hem akademik anlamda
hem de iş dünyasında ortak temalarla ilişkilidir. Bu bölümde Büyük Veri ile ilişkisi bulunan
enformasyon, teknoloji, yöntem ve etki olmak üzere 4 ana temanın Büyük Veri ile ilişkisine
değinilecektir. Bu temalar Şekil 4’te gösterilmiştir.
37
Şekil 4: Büyük Veri Temaları
Kaynak: Mauro, A. D., Greco, M., & Grimaldi, M. (2014). What is Big Data? A Consensual
Definition and a Review of Key Research Topics. 4th International Conference on Integrated
Conference (s. 97-104). New York: AIP Conference Proceedings.
Büyük Veri ve Enformasyon İlişkisi
Büyük Veri’yi oluşturan, onun yakıtı niteliğinde olan ve onu tüm disiplinlerle
ilişkilendiren ortak temaların ilki enformasyondur. Enformasyonun dijitalleşmesi ve
verileştirilmesi, Büyük Veri’yle olan ilişkide temel niteliğindedir. Enformasyonun
dijitalleşmesi (sayısallaşması), enformasyonun iletilmesi, işlenmesi ve depolanması teknoloji
üzerinde çok büyük bir etkiye sahiptir. “Dijitalleşme, kâğıt belge, fotoğraf ya da grafik
malzemeler gibi fiziksel ya da analog materyallerin elektronik ortama ya da elektronik
ortamda depolanan görüntülere dönüştürülmesi ya da genel olarak, elektronik sistemlerce
algılanamayan yapılandırılmamış formdaki bilginin elektronik ortamca algılanabilecek
yapılandırılmış forma çevrilmesidir.” (Coyle, 2006). Bu anlamda en büyük projelerden biri
2004’te başlayan Google tarafından yapılmış olan kitap tarama projesi “Google Print Library
Project”tir. Bu projeyle birçok üniversitenin kütüphanesindeki eserler dijitalleştirilmiştir.
Dijitalleşmeden sonraki basamak ise verileştirilmesidir. Verileştirme “bir olayı
38
çizelgelenebileceği ve analiz edilebileceği şekilde nicel bir formata sokmaktır.”
Verileştirmenin temel unsurları ölçmek ve kaydetmektir. Verileştirme, dijitalleşmeden daha
eskiye dayanmakla birlikte dijitalleştirilmiş verilerin analiz edilmesine ve değerinin çıkmasına
imkân sağlamıştır. Dijitalleşme ile verileştirme kavramları karıştırılmaktadır. Bunu bir
örnekle açıklamak gerekirse, Google kütüphanelerdeki metinleri dijitalleştirdi, ama kişinin
istediği, aradığı bilginin hangi kitapta olacağını bulması ve arama yapabilmesi gerekmekteydi.
Buna da verileştirme imkan sağladı ve metni aranabilir ve endekslenebilir yaptı. Sosyal ağlar
da verileştirmede büyük bir rol oynamışlardır. Örneğin Facebook ilişkileri, Twitter duyguları,
LinkedIn mesleki becerilerimizi verileştirmiştir (Mayer-Schönberger & Cukier, 2013, s. 85-
91). Dijitalleşme ve verileştirmede en önemli etken dijital sensörlerin sayısıdır. Gartner
(2014)’e göre, 2020 yılında yeryüzünde 26 milyar aygıt ve kişilerin her birinin 3’ten fazla
aygıta sahip olacağı tahmin edilmektedir. Bu aygıtların ve sensörlerin çokluğu, internete bağlı
olması, sürekli veri üretir olmaları da Nesnelerin İnterneti “Internet of Things” kavramını
ortaya çıkarmıştır (Evans, 2011). Günümüzde üretilen enformasyonun diğer bir özelliği ise
çok çeşitli olmasıdır. Yapılandırılmış, yapılandırılmamış veya yarı-yapılandırılmış gibi
çeşitlilik göstermesi, bu enformasyonun yönetiminde de zorluğa sebep olmaktadır.
Büyük Veri ve Teknoloji İlişkisi
“İlk zamanlarda ağır yükleri öküzlerle çekerlerdi ve daha büyük bir kütük çekmek
istediklerinde, daha büyük bir öküz yetiştirmezlerdi. Daha büyük bilgisayarlar için değil,
daha fazla bilgisayar sistemi için gayret etmeliyiz.” Grace Hopper (Mauro ve diğerleri, 2014).
Teknolojinin gelişimiyle birlikte ortaya çıkan Büyük Veri’nin sahip olduğu
büyüklük, hız, karmaşıklık gibi özelliklerle depolanıp analiz edilebilmesi için teknolojiye
ihtiyaç duyulmaktadır. Büyük Veri’yle ilgili önde gelen teknolojik kavram “Hadoop”tur.
Hadoop, Java dilinde yazılmış açık kodlu bir veri platformudur. Hadoop Dağıtık Dosya
Sistemi “HDFS” ve Eşleİndirge “MapReduce” olmak üzere iki bileşene sahiptir. Bu
kavramları da ilk kez ortaya atan Google olmuştur ve Apache çerçevesinde geliştirilmiştir
(Ghemawat ve diğerleri, 2003). Dosya sistemi çok sayıda bilgisayarlardan oluşan büyük veri
kümelerini içermekte, Eşleİndirge “MapReduce” ise bu büyük miktarda veriyi alt kümelere
bölerek ve onları düğümlere dağıtarak, daha kolay analiz edilebilecek kümelere
dönüştürmektedir (Doug, 2011). MapReduce gibi aynı anda birden fazla işlemciye ayrıştırma
39
aslında paralel işleme tekniğiyle gelişmiştir. Büyük Veri analizinde MapReduce, Dryad ve
Message Passing Interface (MPI) en çok uygulanan paralel işleme modelleridir. Bu teknikler
daha detaylı olarak Büyük Veri analizi başlığında incelenmiştir.
Diğer teknolojik unsur ise devasa büyüklükteki verinin depolanabilmesi için gerekli
olan depolama aygıtlarıdır. Veri miktarındaki artışın üstel olduğunu vurgulayan ve bu artıştaki
veriyi depolamak için teknolojik gelişmelerinde süreklilik arz etmesi gerektiğini ifade eden
Hilbert ve Lopez (2011) özellikle fotoğraf, ses ve videoların hacmi genişlettiğini
söylemektedir. Bulut Bilişim (Cloud Computing) Büyük Veri bağlamında ortaya çıkan önemli
bir teknolojik gelişimdir. Bulut Bilişim’le sunucu sayısının çoklu olması ve birçok
kullanıcıların aynı anda işlem yapabilmesi veri miktarını artırmaktadır. Elde edilen verinin
depolanması aynı zamanda Büyük Veri’nin zorluklarındandır, çünkü geleneksel depolama
aygıtları Büyük Veri’nin sahip olduğu değişken için tasarlanmamışlardır. Onlar satır ve
sütunlardan oluşan yapısal veriler için tasarlanmıştır. Depolanan veri miktarı arttıkça sunucu
ihtiyacı artmakta ve doğrusal olarak maliyeti de artmaktadır. Bulut Bilişimde server sayısı çok
sayıda olmasına rağmen süreç tek mimari sistem üzerinden çalışmakta ve bu durum da
güvenlik açıklarına sebep olmaktadır. Bunun yanında depolama miktarına bağlı olarak
sistemin performansı da etkilenmektedir. Performansa bağlı olarak da anlık veri analizlerinin
sonuçlarının görselleştirilmesi ve karar verme süreçleri de etkilenmektedir.
Büyük Veri ve Yöntem İlişkisi
Çok büyük nicelik ve çeşitlilikteki Büyük Veri’nin sahip olduğu değeri çıkarmak,
veriden yeni değerler üretebilmek günümüzde zorunlu hale gelmiştir. Bunun için geleneksel
istatistik yöntemlerinin yanında çok yüksek veri hacmine sahip olan ve çeşitlilik gösteren
Büyük Veri’yi analiz edebilmek için yeni yöntemlere ihtiyaç duyulmaktadır. Bu yöntemler
günümüzde veri madenciliği bünyesinde ifade edilmektedir. Manyika vd. (2011) Büyük Veri
analizinde aşağıda yer alan farklı yöntemler önermişleridir. Bu yöntemlerden bir kısmı
sonraki bölümde incelenecektir.
A\B Testi “A/B testing”
İlişkilendirme Kuralları “Association rule learning”
Sınıflandırma “Classification”
40
Kümeleme “Cluster analysis”
Makine Öğrenmesi “Machine learning”
Veri Füzyonu ve Entegrasyonu
Ağ Analizi “Network analysis”
Örüntü Tanıma “Pattern recognition”
Yapay Zekâ Algoritmaları
Denetimli ve Denetimsiz öğrenme “Supervised and Unsupervised learning”
Regresyon “Regression”
Öngörüsel Modelleme “Predictive modelling”
İstatistik “Statistics”
Fikir Madenciliği “Sentiment Analysis”
Görselleştirme “Visualization”
Kurumların karar verme süreçlerinde bilimsel araştırmaları ve Büyük Veri Analitik
Yöntemlerini kullanmalarının günümüzde ihtiyaç haline geldiğini ifade eden Chen ve
diğerleri (2012), kurumların iş zekâsına ve analizlerine yatırım yapmaları gerektiğini ve
özellikle disiplinler arası çalışabilen, bilgi teknolojilerinde becerikli, iletişim becerileri yüksek
bireyler yetiştirmeleri gerektiğini tavsiye etmişlerdir. Veri bilimcisi denilen yeni meslek
grubu da istatistik, matematik, bilgisayar programlama ve iletişim alanlarında donanımlı ve
Büyük Veri’yi inceleyip, çeşitli yöntemlerle gelecekle ilgili çıkarımlar yapabilen, verideki
değeri ortaya çıkarabilen kişileri kapsamaktadır (Mayer-Schönberger & Cukier, 2013, s.
132). Veri bilimcileri Büyük Veri’yle ilişkili yöntemleri bilen ve Büyük Veri’nin gücünü ve
sınırlılıklarının farkında olarak hem kurumlar hem de toplumun karar verme süreçlerinde
veriye dayalı olarak karar vermelerini yaygınlaştıracak, hem de çıkarımlarında geçerlilik ve
doğruluk faktörlerini dikkate alacaklardır.
Büyük Veri’nin Yaşama Etkisi
Büyük Veri hakkında olumlu ve başarılı yöntemler, uygulamalar ve gelişme
hikâyeleri kurumların ve toplumun hem algısını hem de yapısını değiştirmektedir.
Günümüzde her alana yayılmış olan verinin üretimi ve ulaşılabilirliği birbirinden farklı
sektörlerde ve bilimsel alanlarda ortak olarak kullanılabilmektedir. Bazen de aynı yöntem ve
41
veri farklı alanlarda farklı problemleri çözmek için kullanılmaktadır. Örneğin Google arama
günlüklerinden faydalanılarak korelasyon analiziyle grip salgınının yanı sıra, Ginsberg ve
diğerleri (2009) işsizlik oranlarını, Askitas & Zimmermann (2009) ve Guzman (2011)
enflasyonu tahmin etmekte Büyük Veri’den faydalanmışlardır. Laney (2011, s. 22)’e göre,
Büyük Veri işletmelere 3 farklı yolla etki etmektedir. Bunlar; daha bilgili ve daha iyi kararlar
verme, gizli içgörüleri keşfetme ve iş süreçlerini otomatikleştirme olarak sıralanabilir.
Büyük Veri’nin yaşamımızdaki olumlu etkilerinin yanında olumsuz veya riskli
etkileri de mevcuttur. Bunların en başında mahremiyet ve etik (Boyd & Crawford, 2012),
eğilimlerin cezalandırılması ve verinin diktatörlüğü gibi sorunlar gelmektedir. (Manovich,
2011). Kişilerin özel hayatlarıyla alakalı fotoğraflardan alışveriş kayıtlarına, kredi kartı
numaralarından ev adreslerine, sağlık bilgilerinden mesaj ve e-postalarına kadar birçok kişisel
bilgi Büyük Veri kapsamındadır. Bunlar ve bunlar gibi internet ortamında bırakılan dijital
izler sebebiyle kişilere ulaşılabilir ve mahremiyet ve etik konusunda sıkıntılar yaşanabilir.
Kişisel bilgilerin veri setlerinden çıkarılarak “anonimleştirme” tekniği mahremiyeti korumada
kullanılmaktadır. Ancak anonimleştirme küçük veri setlerinde uygulanabilir olsa da Büyük
Veri’de uygulanması zordur (Narayanan & Shmatikov, 2006). Ayrıca Büyük Veri sayesinde
kişilerin eğilimleri sonucunda bir suç işlemesi sebebiyle “suç işleme olasılığı yüksek” diye
cezalandırma gibi uygulamalara da gidilebilir (Mayer-Schönberger & Cukier, 2013). Bu
durumu anlatan en güzel örneklerden biri, 2006 yapımı olan “Azınlık Raporu” adlı filmdir.
Bu filmde Büyük Veri’yle suç işlemeye yönelik eğilimler ve toplumda huzursuzluk
çıkarabilecek durumlar çıkarımsal olarak hesaplanıp müdahale edilmektedir. Günümüzde
Brian Lapping tarafından geliştirilen Pax sistemi, dünyanın farklı bölgelerinden yapılan
telefon aramaları, sosyal medya gönderileri yardımıyla çıkabilecek yasadışı olay, eylem,
katliam gibi olumsuz durumları kestirerek duruma dair bilgileri hükümetlere satmaktadır
(Krotoski, 2012). Bunun yanında, kullanıcıların bilgilerine en fazla sahip olan sosyal ağ
siteleri ve işletim sistemi sahipleri bu sosyal verilerle güçlenebilmekte ve bu da hem kurumlar
hem de kişiler üzerinde risk yaratabilmektedir. Bu durumu Manovich “verinin diktatörlüğü”
olarak ifade etmekte ve insanlar hakkında daha çok veriye sahip olanların hem daha güçlü
olduğunu, hem de onları daha hızlı etkileyebileceğini belirtmektedir. (Manovich, 2011).
42
Günümüzde akademik çalışmalarda kullanılmak üzere ihtiyaç duyulan Büyük
Veri’ye erişim hem teknik anlamda hem de Google ve Facebook gibi veri zenginlerinin
verilerini paylaşmaması nedeniyle kısıtlılıklara neden olmaktadır. 2014 yılı Şubat ayında
geliştirdiği Twitter Data Grants adlı projeyle Twitter sahip olduğu tüm veriyi akademi ve
araştırma merkezleriyle paylaşabileceklerini duyurmuşlardır. Günlük 500 milyondan fazla
tweet atıldığını ve eldeki Büyük Veri yardımıyla akademi ve araştırma merkezleri için sağlık,
ekonomi, spor gibi çeşitli konularda verinin analiz edilip, öngörüler oluşturulabileceği ve bu
sayede akademiye veri sağlanabileceği üzerinde durulmuştur. Twitter’ın bu pilot projesine 60
ülkeden 1300’den fazla proje başvurusu yapılmıştır. Aslında bu sayılar dünya genelinde
akademinin Büyük Veri’ye erişiminin ne kadar zor olduğunu da göstermektedir. Ancak
sadece 6 kurum Twitter’ın sahip olduğu Büyük Veri’den faydalanmaktadır. Bu projeler ve
sahibi olan ülkeler Twitter tarafından aşağıdaki gibi duyurulmuştur (Raffi, 2014);
Twitter Verilerini kullanarak Gıda Kaynaklı Hastalıkları Gözetleme- Harvard
Medical School / Boston Children’s Hospital (ABD)
Afet Bilgi Analizi Sistemi - NICT (Japonya)
Twitter'da Kanser Erken Teşhis Kampanyaları Difüzyonu ve Etkililiği- Twente
Üniversitesi (Hollanda)
Mutlu insanlar mı mutlu görseller yakalar? Kentlerin Mutluluğunu Ölçme-
UCSD (ABD)
Coğrafi Sosyal (GeoSocial) Kullanarak Endonezya’daki Selleri Modellemek-
Wollongong Üniversitesi (Avusturalya)
Tweetler ve Spor Takımları Performansı Arasındaki İlişkiyi Keşfetmek-Doğu
Londra Üniversitesi (İngiltere)
Bu projelerin konularına bakıldığında insan yaşamına dair birçok alanda Büyük
Veri’nin etkin kullanılabileceğini görmekteyiz. Spordan sağlığa, afetten duygularımızın
analizine kadar birçok alanda Büyük Veri kullanılabilmektedir. Bu gibi internet
araştırmalarının temelinde de Büyük Veri’ye erişmek ve onu analiz edebilmek yatmaktadır.
Büyük Veri’ye erişimde ve Büyük Veri’nin doğasından kaynaklanan çeşitli zorluklar ve
sınırlılıklar sonraki başlıkta ele alınmaktadır.
43
2.9. BÜYÜK VERİ’NİN SINIRLILIKLARI VE ZORLUKLARI
Büyük Veri’nin sahip olduğu değeri, bilgiyi ve veride yatan deseni ortaya çıkarma
sürecinde ve Büyük Veri’nin kendi doğasından kaynaklanan bazı zorlukları ve sınırlılıkları
vardır. Bunlar genel çerçevede incelendiğinde, ilki veri politikaları kapsamında
değerlendirilebilir. Veri miktarı arttıkça veri politikaları da artmaya başlamıştır. Çünkü veri
politikaları mahremiyet, güvenlik, telif hakkı gibi birçok unsuru ve bunlarla alakalı kanun,
yasa ve maddeleri bünyesinde barındırmaktadır. Sağlık bilgileri, finans kayıtları gibi bilgiler
kişiseldir ve bazen bu bilgiler kişiler için çok faydalı olarak kullanılabilecek pozisyonda
olmalarına rağmen, bazen olumsuz durumlar da yaşanabilmektedir. Bu verilerin paylaşımı -
kimisi yaşanmış ve yaşanabilecek olumsuz durumlardan dolayı- kanunlarca uygun değildir.
Çünkü kişilerin güvenliği ve mahremiyeti hem de devletlerin güvenliği söz konusudur. Veri
politikaları bir taraftan artarken diğer yandan Büyük Veri’den sağlanabilecek fayda ve
çıkarılacak değer ise yasalarca sınırlandırılmaktadır. Veri güvenliği, verinin ürün olduğu ve
rekabet ortamında onu öne geçirecek faktör olmasından dolayı hem özel sektör hem de kamu
sektörü için önemli bir konudur. Amerika Birleşik Devletleri’nde 2005-2009 yılları arasında
veri güvenliği ihlalleriyle ilgili olarak yıllık ortalamada %30 oranında artış gözlenmiştir
(Widup, 2010 ).
Büyük Veri’yi sınırlayan ve sahip olduğu değerin ortaya çıkarılmasına engel olan
diğer bir unsur ise teknoloji ve tekniklerdir. Veriyi elde etmekten temizlemeye, işlemeye
kadar her aşamada tekniklere ihtiyaç duyulmaktadır. Veri çeşitliliği, hacmi, hızı giderek
artmakta ve verinin elde edilmesi depolanması, işlenmesi ve analiz edilmesi için yeni yöntem
ve yazılımlara ihtiyaç duyulmaktadır. Farklı yapılardaki verilerin entegrasyonu daha zor olsa
da bu verilerin kullanılması fayda sağlamaktadır.
Büyük Veri’nin sınırlılık ve zorluklarından biri de veriye erişimdir. Veriye erişim ne
kadar kolay ve geniş ölçekli ise, Büyük Veri’den elde edilecek değere erişim de o denli kolay
olur. Kurumlar giderek üçüncü parti veri kaynaklarından daha çok faydalanmaktadırlar ve bu
verileri kendi verileriyle birleştirerek Büyük Veri’nin sahip olduğu potansiyeli çıkarmayı
hedeflemektedirler. Büyük Veri’ye sahip kurumlar veri paylaşımlarında cimri davranmakta ya
da veri karşılığı ciddi miktarlarda ücret talep etmektedir. Kullanıcıların şirketler
veritabanlarından depolanmış verileri alabilmeleri için geliştirilen Programlama Uygulama
44
Arayüzü (API) araçları bulunmaktadır. Sosyal medya şirketlerinin kullanıcılara sunduğu açık
API’ler bu şirketlerin tüm verilerini vermemektedir (Gürsakal, 2014, s. 16-17). Örneğin sağlık
sektöründe yer alan kurumlar ciddi yatırımlar yapmak istese de, kişilerin sağlık bilgileri sağlık
bakanlıklarınca dışarıya verilmemektedir.
Veriye erişim Büyük Veri’nin zorluklarından biri olsa da günümüz bilgi çağıdır ve
kurumlar için kendi müşterilerinin verilerine erişimi zor değildir. Burada önemli olan
kurumların sahip olduğu ya da internet ortamından elde ettiği verilerden yararlanabilme ve bu
verileri kullanabilme yeteneğidir. Bu anlamda kurumların veriye bakış açıları ve kurumların
Büyük Veri’yi işleme yetenekleri onlar için zorluk yaratabilmektedir. (Manyika ve diğerleri,
2011). Büyük Veri pazarı başlıca finans, telekomünikasyon, üretim, sağlık, bankacılık,
pazarlama, kamu, medya ve eğlence sektörleri tarafından beslenmektedir. Finans, sağlık ve
kamu sektörleri pazarın en büyük katılımcılarıdır ve 2012’de pazarın %55’inden fazlasını
oluşturmaktadırlar. Yapısal olmayan video, fotoğraf ve oyun gibi veri kaynakları da medya ve
eğlence sektörlerinin payını giderek artırmaktadır (Transparency Market Research, 2012).
Başarı eskiden veriyi bulmaktı, Büyük Veri çağında ise, devasa miktardaki yapılandırılmamış
veriyi analiz ederek en mantıklı kararlar alabilme yeteneğine sahip olmak başarı olmuştur
(VerisignInc, 2013). Bu analiz ve araştırmaların nasıl yapıldığı, hangi yöntem ve tekniklerin
kullanıldığı bu tez bağlamında ele alınmış, sosyal bilimlerde araştırma yöntemleriyle internet
araştırmaları bir sonraki bölümde karşılaştırılmıştır, daha sonra ise Büyük Veri analiz süreci
ve teknikleri irdelenmiş ve geleneksel sosyal bilimlerdeki araştırma yöntemleriyle Büyük Veri
analiz yöntemleri tartışılmıştır.
45
3. SOSYAL BİLİMLERDE GELENEKSEL SOSYAL BİLİMLER
ARAŞTIRMALARI İLE İNTERNET ARAŞTIRMALARININ
KARŞILAŞTIRILMASI
İnternetin yaşamın birçok alanını etkimeye başlamasıyla birlikte, sosyal bilimlerde
araştırma mecrası olarak kullanılmaya başlanmıştır. İnternetin sürekli gelişim halinde ve
dinamik olması, internet araştırmalarında uygulanacak yöntem ve tekniklerin de yeniliğe açık
bir yapıda olmasına neden olmuştur. Bu bölümde geleneksel sosyal bilimlerdeki araştırmalar
ile internet araştırmalarının karşılaştırılması hedeflenmektedir. Bu hedef doğrultusunda önce
araştırma ve araştırma süreci açıklanmış ve araştırmalarda kullanılan veri toplama araçları
hem geleneksel hem de internet bağlamında ele alınmıştır. Sosyal bilimlerde nicel ve nitel
araştırma yöntemleri incelenmiş ve internet ortamında bu yöntemlerin nasıl yapıldığı
aktarılmıştır. Sosyal bilimlerde yapılan araştırmalarda toplanan verilerin analizinde en yaygım
olan içerik analizi ve söylem analizi internet bağlamında incelenmiş ve özellikle internet
bağlamında yapılan araştırmalarda elde edilen verilerin Büyük Veri özelliklerini taşıdığı ve
analiz edilirken de kullanılan Nvivo gibi araçların Büyük Veri analiz araçları ile benzerlikleri
olduğu görülmüştür. Bu bölümde son olarak internet araştırmalarında Büyük Veri alt
başlığıyla araştırmalarda kullanılan istatistiksel analiz teknikleri ve Büyük Veri analiz yöntem
ve teknikleri açıklanarak Büyük Veri analiz yöntem ve teknikleriyle geleneksel araştırmalarda
ve internet araştırmalarında kullanılan yöntem ve teknikler arasındaki ilişki ortaya koyulmaya
çalışılmıştır.
3.1. SOSYAL BİLİMLERDE ARAŞTIRMANIN TEMELLERİ
Bir konu hakkında araştırma yaparken çeşitli yöntemler doğrultusunda istenilen
sonuca ulaşmak amaçlanır. Bilgiye ulaşmanın birçok yolu vardır ve her araştırılan konuya
uygun farklı metotlar bulunmaktadır. Fraenkel ve Wallen (2007, s. 4-5)’e göre, bilgiye
ulaşmanın yöntemleri deneyim, görüş birliği, uzman görüşü ve mantıktır. Bilgiyi çevredeki
insanlar ile görüş birliği yaparak elde etmek en çok kullanılan yöntemdir. Uzman görüşüne
başvurmak daha güvenilir görünse de, günlük hayatta birçok insan bilgiyi elde ederken
mantık ile hareket etmektedir. Bilgiye ulaşmak için izlenen yollar kişiyi yanıltabileceğinden
en güvenilir yöntem bilimsel araştırmadır.
46
Bilim, Türk Dil Kurumu tarafından “genel geçerlik ve kesinlik nitelikleri gösteren
yöntemli ve dizgesel bilgi” olarak tanımlanmıştır (TDK, 2006). Araştırma kavramının birçok
farklı tanımı bulunmaktadır. Mouly’e göre araştırma, problemlere güvenilir çözümler aramak
amacıyla planlı ve sistemli olarak, verilerin toplanması, analizi, yorumlanarak
değerlendirilmesi ve rapor edilmesi sürecidir (Karasar, 2011, s. 8). Webster (1984) ise
araştırmayı “Gerçek ve ilkeleri ortaya çıkarmak ya da koymak için bazı bilgi alanlarında
yapılan dikkatli, sistematik ve dayanıklı çalışma ve inceleme” olarak tanımlamaktadır
(Aktaran: Demirbaş, 2015, s. 9). Buna paralel olarak bilimsel araştırma, kesinlik ifade eden
araştırma yöntemi olarak anlaşılmaktadır. O nedenle bir konu hakkında araştırma yapılmak
isteniyor ise doğru sonuca ulaşabilmek adına bilimsel araştırma süreçleri kullanılmalıdır.
3.1.1. Araştırma Süreci Bağlamında Karşılaştırma
Bilimsel araştırmaların geçerlilik kazanabilmesi için belirli süreçlerden geçmesi
gerekmektedir. Bu süreçler; literatür taraması, problemi tanıma, soruları/hipotezi belirleme,
araştırma desenini oluşturma, örneklemi seçme, araçları belirleme, analiz yöntemini
belirleme, veri toplama/uygulama, verileri analiz etme, raporlaştırma olarak tanımlanmıştır
(Büyüköztürk ve diğerleri, 2014, s. 24). Bilimsel araştırmada kullanılan yöntem ne olursa
olsun, araştırmaların bu süreçler doğrultusunda ilerlemesi tavsiye edilmektedir. Her bir adım
çok kapsamlı olsa da bu tez çalışmasında bilimsel araştırma süreçleri özet olarak
anlatılacaktır. Hem internet araştırmalarında hem de geleneksel sosyal bilimler
araştırmalarında araştırma süreci benzer özelikler taşımaktadır. Bu süreçler aşağıda
verilmiştir.
Literatür Taraması: Araştırmaların başlangıç noktası literatür taramasıdır. Literatür
taraması, araştırılacak konu ile ilgili bilgi içeren tüm dokümanların sistematik bir düzende
betimlenmesi olarak ifade edilmektedir (Esgin, 2009, s. 1). Literatür taraması yapılırken amaç
doğru olarak belirlenmelidir. Aksi durumda konudan sapmalar olabilir ve ilişkisiz literatürler
taranarak vakit kaybına sebep olunabilir.
Problemi Tanımlama: Literatür taramasından sonra ikinci önemli adım problemin
belirlenmesidir. Çeşitli taramalar desteklenerek problem cümlesi oluşturulmalı, mantıksal
açıklamalar ve kaynakçalar ile birlikte sunulmalıdır.
47
Soruları / Hipotezleri Belirleme: Hipotez, bir araştırmacının ilgilendiği konu ile
ilgili gerçekliği ispatlanmamış bir önerme veya araştırmacının problemine ve değişkenine
ilişkin beklentileri ve tahminleri olarak tanımlanmaktadır (Yükselen, 2010). Tanımdan da
anlaşıldığı üzere hipotez bir tahmindir ve bu tahmin çeşitli literatür taramaları ile
desteklenerek problem doğrultusunda yapılmalıdır.
Araştırma Desenini Oluşturma: Araştırma ile ilgili hipotezler belirlendikten sonra,
araştırma sürecinde hangi yöntem ve metotların kullanılacağı belirlenmelidir.
Örneklemi Seçme: Örneklem, var olan bir evren üzerinden bir takım kurallar
doğrultusunda seçilmiş, yeterliliği kabul görmüş küçük bir küme olarak tanımlanmıştır
(Karasar, 2011, s. 110). Araştırmalar genellikle belirli örneklemler üzerinde yapılır ve bu
örneklemlerden alınan sonuçlar ile genelleme yapılır.
Araçları Belirleme: Örneklem grubu belirlendikten sonra bu grup üzerinde
yapılacak çeşitli testlerin ölçülmesi gerekmektedir. Bu doğrultuda Büyüköztürk ve diğerleri,
ölçme araçlarının her birinin detaylı bir şekilde tanımlanması ve neden kullanıldığına ilişkin
gerekçe belirtilmesi gerektiğini vurgulamıştır (Büyüköztürk ve diğerleri, 2014, s. 25).
Analiz Yöntemini Belirleme: Araçlar seçildikten sonra araştırma verilerinin hangi
yöntemler ile analiz edileceği belirlenmelidir.
Veri Toplama / Uygulama: Bir araştırmanın en önemli aşaması veri toplamadır.
Çeşitli veri toplama yöntemleri ile araştırma en iyi şekilde incelenmelidir. Güler’e göre, bir
araştırmanın var olabilmesi için ilk olarak elde edilmesi gereken şey o araştırmacının sahip
olduğu verilerdir (Güler, 2013, s. 102).
Verileri Analiz Etme: Veri toplama aşamasından sonra bu verileri en iyi şekilde
analiz etmek gerekmektedir. Büyüköztürk ve diğerleri (2014, s. 27), veri analizinde mümkün
olabilecek her türlü istatistiksel tekniğin kullanılması taraftarıdır.
Raporlaştırma: Veri analizinden elde edilen sonuçlar çeşitli yorumlar
doğrultusunda rapor haline getirilmelidir. Rapor içeriğinde araştırmanın tüm aşamaları
yorumlanmalıdır ve bu yorumlar sonuca ışık tutmalıdır.
48
3.1.2. Veri Toplama Araçları Bağlamında Karşılaştırma
Bilimsel bir araştırmanın önemli adımlarından biri olan veri toplama, araştırma
sonucunda doğru sonuca ulaşabilmek adına en tutarlı şekilde olmalıdır. Araştırmanın türüne
göre gözlem, anket, görüşme ve doküman tarama gibi çeşitli veri toplama araçları
bulunmaktadır. Fraenkel ve Wallen (2007) bu veri toplama araçlarını doğrudan, telefon, posta
ve internet yardımıyla uygulanabileceğini ve bu yöntemlere göre de farklı özelliklerde
olacağını belirtmiştir. Tablo 7’de veri toplama araçlarının farklı özellikleri gösterilmektedir.
Tablo 7: Veri Toplama Araçları ve Özellikleri
Nitelik Doğrudan
Uygulama
Telefon Posta Görüşme İnternet
Maliyet Az Orta Orta Yüksek Az
Uygulama Ortamı Gerekli mi? Evet Hayır Hayır Evet Hayır
Veri Toplayıcı Eğitimli Olmalı mı? Evet Evet Hayır Evet Hayır
Veri Toplama Süresi Kısa Kısa Uzun Uzun Orta
Yanıt oranı Yüksek İyi Zayıf Yüksek Orta
Aynı anda çok kişiye uygulanabilir mi? Evet Hayır Evet Hayır Evet
Seçkisiz örneklem almaya uygun mu? Evet Evet Evet Evet Evet
Yanıtlayanlar eğitimli olmalı mı? Evet Hayır Evet Hayır Evet
Yanıta göre ek soru sorulabilir mi? Hayır Evet Hayır Evet Hayır
Duyarlı konulara yanıt verilmesini
cesaretlendirilebilir mi?
Belki Belki Evet Zayıf Evet
Yanıtlar analiz için kolay kodlanabilir mi? Evet Kısmen Evet Hayır Evet
Kaynak: Fraenkel & Wallen (2007, s. 400)
Bu bölümde veri toplama araçlarının temel özelliklerine değinilecektir. Ayrıca veri
toplama araçlarının internet yoluyla uygulanmasıyla diğer yollarla uygulanması arasındaki
farklılıklar tartışılacaktır.
Gözlem
Gözlem, kişilerin günlük hayatında gözleyerek, gözlem sürecinde gerçekleşen
olaylar için fikir sahibi olma amacıyla yapılan bir araştırma tekniğidir (Güler, 2013, s. 102).
Gözlem araştırmacıya verileri doğal ortamında birinci elden ve derinlemesine veri toplama
imkânı sağlar. Araştırmacının rolüne göre katılımcı ve katılımcı olunmayan gözlem olarak iki
49
gruba ayrılır. Katılımcı gözlemde araştırmacı gruba dâhil olur, etkileşimde bulunur ve veri
toplama sürecinin parçası olur, öte yandan eğer hiçbir müdahalede bulunmadan, soru
sormadan onları gözlemlemek suretiyle veri sağlıyorsa katılımcı olunmayan gözlem söz
konusudur. (Aktaş, 2015, s. 357). Özellikle nitel araştırma veri araçlarından olan internet ve
sosyal medya alanlarında da aynı şekilde izlenen yöntemle uygulanan gözlem tekniğinde
araştırmacı, araştıracağı konu hakkındaki çevrimiçi gruplara üye olarak gözlem yapabilir,
etkileşimde bulunabilir. Birinci elden veri toplama, sözel olmayan davranışların da
gözlenmesi, gözlem süresinin araştırmacı tarafından ayarlanması ve örneklemin küçük olması
avantajlarını oluştururken, araştırmacının önyargıları ve bakışı, gözlenen kişilerin doğal
davranmama durumu ve gözlemcinin araştırmasını etkileyecek dış etkenleri kontrol altına
almasının mümkün olmaması gözlemin dezavantajlarındandır (Aktaş, 2015, s. 356).
Anket
Anket, kişilerin hayat koşullarını, alışkanlıklarını, yaşam tarzlarını ve inançlarını,
tercihlerini ve demografik özelliklerini belirlemek için ya da bir konu, olay ve durum
hakkında bireylerin görüşlerini belirlemeye yönelik çeşitli miktarlarda sorudan oluşan nicel
bir veri toplama aracıdır. Ankette toplanan veri numeriktir veya numerik değilse de analiz
edilmek üzere numerik formata çevrilmiştir (Lewin, 2009, s. 219). Anketler uygulama
şekillerine göre yüz yüze, telefonla, mektupla, faksla, e-postayla ve internet aracılığıyla
yapılabilmektedir. E-posta, Web ve çevrimiçi anketler diğer yöntemlere göre daha az
maliyetle daha çok kişiye ulaşma imkanı sağlar. Ayrıca internet üzerinden uygulanan
anketlerde araştırmacı istediği anda ankette değişiklik yapabilir ve anketten elde edilen
verileri otomatik olarak analiz araçlarına aktararak analiz edebilir. Web anketlerinin temel
ihtiyaçları çevrimiçi uzman anket hazırlama yazılımı (surveymonkey.com vb.), internet
tarayıcısı ve anketin çalışabilmesi için temel Java, HTML gibi yazılımlardır (Mert, 2014, s.
95). İnternet ve e-posta yoluyla yapılan anketlerin bazı sınırlılıkları ve dezavantajlarını
Neuman (2012, s. 437-438) söyle belirmiştir:
Kapsam sorunu; anketin sadece internet erişimi olan ve interneti kullanabilen
kişilere ulaşması,
Gizlilik ve doğrulama sorunu; her bir katılımcının sadece bir kez ankete
cevap vermesi,
50
Tasarım sorunu; anketlerin farklı işletim sistemlerini veya mobil
uygulamaları desteklemiyor olması,
Katılımcıları cevaplamaya güdülemenin zor olması ve geri dönme ya da
cevaplanma oranlarının düşük olması anketin temel sorunlarındandır.
Özellikle internet ve e-posta anketlerinde katılımı artırmak için çevrimiçi erişim
panelleri, müşteri veritabanları, pazarlama veritabanları, müşteri panelleri, web sitesi
ziyaretçileri ve gelişigüzel örnekleme gibi çeşitli yöntemler vardır (Poynter, 2012, s. 8).
İnternet, e-posta ve telefon anketlerinde dünyanın önde gelen kuruluşu olan Pew Research
Center’ın anketleri çok geniş bir yelpazededir. Anket sonuçlarını çevrimiçi ve telefonla olmak
üzere karşılaştırarak rapor eden Pew Research anketleri birçok bilimsel araştırmada
kullanılmaktadır.
Görüşme
Belirli bir konu hakkında ilgili kişi ya da kişilerden bilgi toplama aracı olarak ifade
edilen görüşme, araştırmacıya derinlemesine veri sağlamaktadır. Görüşme, araştırmanın
amaçlarına göre bireylerin neyi neden düşündüklerini, inanç ve tavırlarını, duygu ve
düşüncelerini etkileyen faktörlerin ortaya çıkarılmasını sağlamaktadır (Aktaş, 2015, s. 339).
Görüşmeler, anket ve gözlem gibi diğer yöntemlerle birleştirilerek de uygulanabilir. Görüşme
yöntemleri yapılandırılmış, yapılandırılmamış, yarı yapılandırılmış, etnografik ve odak grup
görüşmeleri olarak sınıflandırılabilir (Büyüköztürk ve diğerleri, 2014, s. 150-151). İnternet
ortamında yapılan görüşmeler eş zamansız ve eşzamanlı olarak iki gruba ayrılmaktadır. Eş
zamansız görüşmelerde katılımcı ve araştırmacı aynı zamanda görüşmek zorunda değildirler.
Eşzamanlı görüşmede ise katılımcı ve araştırmacı aynı zamanda etkileşim kurarlar, yüz yüze
görüşmelere benzerlik göstermektedir. Çevrimiçi görüşme yöntemlerinde Skype, Google
Hangouts, Facebook Messenger gibi araçlar olabileceği gibi, e-posta ile röportaj yöntemi de
kullanılabilir. Çevrimiçi görüşmede araştırmacı görüşülen katılımcıya araştırmanın amacını
ve içeriğini söylemelidir (Alyanak, 2013, s. 150). Görüşme yöntemlerinden biri olan odak
grup görüşmeleri çevrimiçi ortamlarda da uygulanmaktadır. Poynter, çevrimiçi odak grup
görüşmelerinin yüz yüze çalışan geleneksel odak grup görüşmeleriyle aynı özelliklerde
olduğunu belirtmektedir. Geleneksel odak grup görüşmelerinde olduğu gibi çevrimiçi odak
grup görüşmelerinde de bir moderatör tarafından yönetildiğini ve katılımcıların neler
51
dediklerinin, neler yazdıklarının takip edilip not edilmesi gerektiğini vurgular. Aynı zamanda,
odak grup görüşmelerinin dezavantajları ve sınırlılıklarını değerlendirirken maliyetin yüksek
olması, yüz yüze görüşmelerdeki kalitede olmaması, katılımcıların rolü ve teknolojiyi
hepsinin aynı rahatlıkta kullanamaması, internete erişim ve hız gibi unsurlardan bahsetmiştir
(Poynter, 2012, s. 156-162). Görüşmelerde daha derinlemesine bilgi elde etmek için
araştırmacı ek sorular sorabilir, sorular anlaşılmadığı zaman müdahale edebilir. Bizzat
kendisinin bulunmasından dolayı yanıt oranının tama yakın olması görüşme yönteminin
avantajlarındandır (Aktaş, 2015, s. 340).
3.2. SOSYAL BİLİNLERDE NİCEL VE NİTEL YÖNTEMLER
Araştırma, kişinin karşılaştığı problemlere çözüm bulmak üzere içinde bulunduğu
toplumu, çevresini tanımak amacıyla sistemli olarak attığı adımları kapsamaktadır. Bu yüzden
karşılaşılan sorunların çeşitliği, karmaşıklığı ve çok boyutlu olması gibi nedenler beraberinde
yeni araştırma yaklaşımlarına neden olmuştur. Araştırmalar literatürde dayandıkları görüşün
farklılığına göre farklı gruplara ayrılmaktadırlar. Örneğin; temel aldıkları felsefeye göre, veri
toplama tekniklerine göre, kullandıkları verinin özelliğine göre, veri toplama tekniklerine
göre, amacına göre ve verilerin toplanma zamanına göre farklı sınıflandırmalara sahiptir
(Büyüköztürk ve diğerleri, 2014, s. 12-13). Bu tez bağlamında bilimsel araştırmalar, temel
aldıkları felsefeye göre ortaya çıkan nicel ve nitel araştırmalar olmak üzere iki ana grupta ele
alınacaktır. Ayrıca nicel ve nitel araştırma yöntemlerinin geleneksel araştırmalarda ve
internet araştırmalarında kullanımı bu bölümde karşılaştırılacaktır.
3.2.1. Nicel Araştırma Yöntemler Bağlamında Karşılaştırma
Nicel araştırmanın temel mantığı elde edilen bilgilerin sayısal olarak ifade
edilmesidir. Sayısal olarak ifade edilen bilginin ölçülebilir olması sonucunda ortaya atılan
hipotezlerin test edilebilirliği ve kanıtlanabilirliği ortaya çıkmaktadır. Bu açıdan bakıldığında
kişinin yaşadığı toplumu anlamak, çevreyi tanımak, karşılaştığı sorunlara çözüm bulmak
amacıyla giriştiği sistematik çözüm üretme yolu nicel verileri kullanmaktan geçmektedir
(Demirbaş, 2015, s. 14).
Nicel araştırma, değişkenler arasındaki ilişkileri inceleme yoluyla objektif hipotezleri
test etmek için bir araçtır. Nicel araştırma, gerçekliği değişkenler ve değişkenler arasındaki
52
ilişkiler açısından kavramsallaştırır. Ölçmeye dayanır ve bu nedenle de veriler, genellikle
araştırma soruları, kavramsal çerçeve ve tasarım alanları önceden yapılandırılır. Örneklemler
nitel çalışmalarınkinden daha büyüktür ve buradan hareketle genelleme çoğu kere önemlidir
(Punch, 2011, s. 228). Nicel araştırma, olgu ve olayları nesnelleştirerek gözlemlenebilir,
ölçülebilir ve sayısal olarak ifade edilebilir bir şekilde ortaya koyan bir araştırma yöntemidir.
Amaç, bireylerin toplumsal davranışlarını gözlem, deney ve test yoluyla nesnel bir şekilde
ölçmek ve sayısal verilerle açıklamaktır. Hipotez kurmayı ve test etmeyi amaçlayan nicel
araştırma, araştırmacının sistematik yöntemlerle dışarıdan gözleyerek gerçeği ortaya
çıkarabileceği mantığına dayanır. Değişkenlerin ayrıntılı olarak tanımlanması ve birbirinden
bağımsız olması önemlidir. Aksi takdirde, nicel araştırmanın geçerliliği konusunda şüpheler
ortaya çıkacaktır (Yıldırım & Şimşek, 2011).
Kaptan ise nicel araştırma yöntemlerini basite indirgemiştir. Ona göre nicel araştırma
yöntemleri, ankete benzer şekilde kalem-kağıt yoluyla objenin, bireyin ya da grubun kendisi
hakkında bilgi vermesi şeklidir. Nicel araştırma yöntemleri sayısal verilerin toplanması ve
istatistiksel çözümlenmesine odaklanmıştır. Nicel araştırmalarda verilerin esas alınması,
araştırmaların veri toplamaya odaklanmasından kaynaklanır. Araştırma yöntemi denildiğinde
ise, araştırma amaçlarının belirginleştirilip verilerin elde edilmeye başlamasından itibaren
yapılan işlemler anlaşılmaktadır. Nicel araştırmalar, araştırma yoluyla ürettikleri bilginin
nesnel olduğu varsayımından yola çıkarak insan ve toplumla ilgili çeşitli genellemeler
yapmışlardır (Kaptan, 1998, s. 138). Bu bölümde nicel araştırma yöntemlerinden tarama, blog
tarama, korelasyonel araştırmalar, deneysel araştırmalar ve meta analiz hem geleneksel hem
de internet ve sosyal medya bağlamında incelenecektir.
Tarama Araştırmaları
Tarama araştırması, geçmişte veya halen var olan bir durumu var olduğu şekliyle
betimlemeyi amaçlayan araştırma yaklaşımıdır. Araştırmaya konu olan olay, birey ya da
nesne kendi koşulları içinde ve olduğu gibi tanımlanmaya çalışılır (Karasar, 2011). Tarama
yöntemi ile belli bir zamanda mevcut koşulların doğasını açıklamak amacıyla veri toplanır.
Araştırmaya konu olan olay, birey ya da nesne, kendi koşulları içinde ve olduğu gibi
tanımlanmaya çalışılır. Onları, herhangi bir şekilde değiştirme, etkileme çabası görülmez.
Bilinmek istenen şey, vardır ve oradadır. Önemli olan, onu uygun bir biçimde gözleyip
53
betimleyebilmektir. Nesnelerin, toplumların, kurumların yapısını ve olayların işleyişini
tanımlamak amacıyla kullanılır, bunun için de tarama yöntemi eğitimsel, psikolojik ve
sosyolojik değişkenler arasındaki ilişkiler, ayırımlar ve örneklerle ilgilenmektedir (Wiersma,
2000, s. 83).
Fraenkel ve Wallen (2007, s. 396)’e göre tarama araştırması, araştırmacı tarafından
seçilen bir gruptaki insanların belirlenen bir konuyla ilgili düşüncelerini açığa çıkarmak
amacıyla yapılan bir araştırma türüdür. Tarama tipi araştırmanın üç temel özelliği vardır.
Bunlar;
1. Bilgi bir popülasyonun belli bir konudaki düşüncelerini ya da özelliklerini
tanımlamak amacıyla bu popülasyonun parçası olan bir gruptan toplanır.
2. Bilgiyi toplamak amacıyla kullanılan temel yol soru sormadır, gruptaki insanların
bu sorulara verdikleri cevaplar çalışmanın verilerini oluşturur.
3. Bilgi genellikle popülasyonun tümünden değil bir örneklemden toplanır.
Tarama tipi araştırmaların temel amaçlarından birisi hedeflenen popülasyonun
özelliklerini açığa çıkarmaktır. Hedeflenen popülasyona ulaşmak genellikle zor olduğu için
popülasyonun bütün üyelerinden bilgi toplanamayabilir. Hedeflenen popülasyona ulaşılamasa
da onun yerine bu popülasyondan seçilen örneklemle çalışılır. Bu örneklemden elde edilen
sonuçlar ışığında popülasyon hakkında genel bir tanımlama çıkartılabilir yani genelleyicidir
(Özdemir, 2015, s. 79-80).
Tarama çalışmalarında veri toplama aracı olarak anket, başarı testi ve tutum ölçeği
kullanılmaktadır. Araştırmacılar veri toplama araçlarından hangilerini kullanırlarsa
kullansınlar, literatürde bulunan standartlaşmış aracı kullanmaları önerilir veya var olan
araçları uyarlamaları önerilir. Bunun yanında araştırmacıların kendileri bağımsız bir veri
toplama aracı da geliştirebilirler, ancak özellikle geçerlilik ve güvenilirliğini test etmelidirler
(Özdemir, 2015, s. 86).
Tarama araştırmaları Fraenkel ve Wallen (2007) kesitsel ve boylamsal olmak üzere
iki ana gruba ayrılmaktadır. Tablo 8’de tarama türlerinin özellikleri verilmiştir.
54
Tablo 8: Tarama Araştırması Türleri
Kaynak: Fraenkel & Wallen (2007, s. 399)
Tarama araştırmalarından özellikle boylamsal araştırma sosyal medyada daha etkili
kullanılabilir. Çünkü kullanıcıların sosyal medyadaki gönderileri üzerinden zaman içindeki
değişimleri izlenebilir. Araştırılan konu hakkında aynı kullanıcıların veya farklı kullanıcıların
bir süre önce neler düşündüğü, davranış ve eğilimleriyle belirli bir zaman dilimi ardından aynı
konudaki görüşleri kaydedilerek analizler yapılabilir.
Tarama araştırmaları internet ve sosyal medya araçlarının gelişmesiyle birlikte
gelişerek yeni kavramları ortaya çıkarmıştır. Bunlar; blog madenciliği (blog mining), içerik
süzgeci (web scraping) ve buzz (vızıltı, dedikodu) veri madenciliği ve metin madenciliği gibi
kavramlardır. Geleneksel araştırma yöntemlerinde tarama araştırmalarının internet ortamında
karşılık gelen veya benzerlik gösteren yöntem blog ve buzz veri madenciliğidir. Blog ve buzz
veri madenciliğinde web, bloglar, forumlar, Twitter, sosyal ağlar, yorumlar kısacası
kullanıcıların görüş ve yorumlarını yazdıkları her yer taranmaktadır. Bu tekniğin üstünlüğü
özellikle pazarlamada marka, hizmet ve ürünler hakkında konuşmaları fark etmektir. İzleme,
Kesitsel Tarama
Veri toplama sürecinin bir seferde
gerçekleşmesidir. Amaç taranan olgunun süreç
içindeki değişimini değil herhangi bir andaki durumunu betimlemektir. Örneğin sosyal
medyanın yemek tercihinde rolünü öğrenmek
isteyen araştırmacı örnekleme amaca yönelik tek
seferde bir anket uygulayarak kişilerin cevaplarını alır. Kişilerin yanıtları o andaki cevaplardır ve
yemek tercihlerinde sosyal medyanın rolünü o an
betimlemektedir.
Boylamsal Tarama
Bilimsel araştırmalarda incelenen konular genellikle zaman içinde değişebilmektedir. Bu
nedenle bilimsel araştırmalarda bir durumu anlık
olarak betimlemek yerine zaman içerisindeki değişimlere de odaklanmak gerekir. Kesitsel
taramanın aksine, boylamsal tarama veri toplama
sürecinin zaman içinde tekrarlanarak yapıldığı
tarama türüdür. Boylamsal taramanın kohort, panel ve trend olmak üzere üç alt türü
bulunmaktadır.
55
dinleme kavramlarına da karşılık gelen “monitoring” marka/ürün/kurum hakkında kimin neler
söylediğini elde etmeyi sağlar. Blog ve buzz veri madenciliği süreci üç temel aşamadan
oluşmaktadır (Poynter, 2012, s. 290-292). Bunlar;
1. Bulmak: Web’de bir şeyler bulmak için arama motoru gibi araçlar kullanmak
2. Çıkarmak: Web’de bulunan verileri erişilebilir şekilde depolamak
3. Analiz etmek: Farklı yazılımlar yardımıyla elde edilen çok miktarlardaki
metinleri analiz etmek ve içgörüler üretmek.
Blog ve buzz veri madenciliği sürecinde ilk adım kullanıcıların araştırılmak istenen
konu hakkında neler söylediğini dinlemektir. Ancak internet ortamı çok geniş olduğundan
bunun için özel araç ve yöntemlere ihtiyaç duyulmaktadır. Bu tez kapsamında blog tarama
üzerine durulacaktır.
Blog Tarama
İnternet araştırmalarında kullanılan önemli bir bilgi kaynağı olan bloglar, orijinalinde
“Web‟ ve “log” kelimeleri, web’in kaydının tutulduğu günlük anlamına gelecek şekilde
“weblog” olarak birleştirilmiş, daha sonra kısaltılarak “blog” olarak kullanılmaya
başlanmıştır. Walker bütün blogların ortak adına “blogosfer” ismini vermektedir (Alyanak,
2013). Bloglar, kullanıcı tarafından üretilen çeşitli içeriklerin anahtar sözcük arama üzerinden
yapılandırıldığı ve özellikle markaların kendileri hakkında ne konuşulduğunu öğrenmek
amacıyla kullandıkları bir araçtır. Sosyal bilimler araştırmalarında kullanılan bu yöntemde
araştırmacılar çeşitli yazılımlardan faydalanmaktadırlar. Bu yazılımların hepsinin ortak
özelliği blogları taramaları ve bunun neticesi olarak da hepsinin birer monitöring aracı
olmalarıdır. Bazıları monitöring özelliğinin yanında analiz de yaparak sosyal medyada
ölçümleme, analiz ve raporlama da yapmaktadır. Bilişim teknolojilerinin hızlı gelişimi ve
sürekli değişim halinde olması dolayısıyla bu alandaki araçlar sürekli değişmektedir. Blog
tarama yazılımlarından Technorati, BlogPulse, BlogScope (Sysmos) ve IceRoket bu tez
kapsamında incelenecektir. Bunlardan başka çok daha çeşitli araçlar da bulunmaktadır ve
birçoğunun farklı özellikleri mevcuttur. Bu blog tarama araçları ve özellikleri Tablo 9’da
gösterilmiştir.
56
Tablo 9: Blog Tarama Araçları ve Özellikleri
Tech
no
ra
ti
100 milyondan fazla blogu tarar.
“Authority” özelliği sayesinde her blogu
eşit değerlendirmez. Blogların reytingini,
başka kaç sitenin bloga bağlantı verdiğini
ölçer. Ne kadar çok bağlantı yapılırsa
blogun “authority” puanı daha yüksek
olur. Search menüsü sayesinde anahtar
kelime aratarak, kelimenin derecesini ve
tüm gönderileri vermektedir.
(http://technorati.com/)
Blo
gP
ulse
Nielsen şirketi tarafından geliştirilmiş
olan BlogPulse, 100 milyondan fazla
blogu tarar. Arama sonuçlarından RSS
beslemeler çıkartma özelliğini bulunan
arama motoruna sahiptir. Üç terime ait
görünme sıklığını gösteren trend şeması
gösterme özelliği vardır.
(https://en.wikipedia.org/wiki/BlogPulse)
Sysm
os
Toronto Üniversitesi tarafından
geliştirilen Sysmo bir blog arama
motorudur. Sysmo 40 milyon dolayında
blog taramaktadır. Diğer yazılımlardan
farklı olarak ek bilgiler de vermektedir.
Piyasa araştırmalarında en çok birlikte
kullanılan sözcükleri sıralayarak,
pazarlamacılara yön veren Sysmo ülke
bazında filtreleme ve diğer filtreleme
araçları sayesinde hangi terimin hangi
ülkelerde daha çok konuşulduğunu
göstermektedir. (http://sysomos.com/).
57
IceR
ok
et
Blog tarama araçlarından IceRoket
kullanıcı dostu arayüzü ile karşımıza
çıkmaktadır. Ayrıca ayrı ayrı bloglar,
Twitter, Facebook ve bunların hepsini
kapsayan arama seçenekleri mevcuttur.
Seçilen beş terimin son üç ay boyunca
görünme sıklığını grafik şeklinde
vermektedir.(http://www.icerocket.com/).
Yukarıda belirtilen blog tarama araçlarının yanında bilmediğimiz birçok araç
mevcuttur ancak burada popüler ve ücretsiz olan blog tarama araçları incelenmiştir. Bu
araçların geneline bakıldığında her birinin kullandığı veri sosyal veridir, yani sosyal medyada
kullanıcılar tarafından üretilen veridir. Ayrıca bu araçlardan bazıları monitöring yapmanın
yanında ölçümleme de yaparak araştırmacılara doğru karar almalarında yardımcı
olmaktadırlar. Birlikte kullanılan terimleri listelerken Büyük Veri analiz yöntemlerinden
birliktelik kuralına göre çalışan bu araçlar aynı zamanda trendleri kategorilere ayırırken
sınıflandırma tekniklerinden faydalanmaktadırlar.
Korelasyonel Araştırmaları
Korelasyonel araştırma veya ilişkisel araştırma yöntemi, iki ya da daha çok değişken
arasındaki ilişkinin herhangi bir şekilde bu değişkenlere müdahale edilmeden incelendiği,
ortaya çıkarılmaya çalışıldığı araştırmalardır. Değişkenlere müdahale edilmemesi nedeniyle
korelasyonel araştırmalarla nedensel karşılaştırma araştırmaları birbirine benzemektedir.
Ancak nedensel karşılaştırmalarda bağımlı değişkeni etkileyen bağımsız değişkenlerde neden-
sonuç ilişkisi belirlenmeye çalışılırken, korelasyonel araştırmalarda sadece değişkenlerin
birlikte değişimleri incelenir. Değişkenler arasında ilişkilerin tanımlanması nedeniyle
korelasyonel araştırmalar; betimsel araştırmaların bir türü olarak nitelendirilmektedir
(Fraenkel & Wallen, 2007, s. 340). Diğer yandan bir değişkenin bilinmeyeni, henüz
gözlenemeyen bir özelliğinin var olan değerlerden yola çıkılarak elde edilmeye çalışılması
nedeniyle de çıkarımsal istatistik yöntem ve teknikleri de kullanılmaktadır. Korelasyon
araştırması basamakları; problemin belirlenmesi, örneklemin seçilmesi, veri toplama
araçlarının geliştirilmesi, verilerin toplanması ve verilerin analiz edilip yorumlanmasıdır.
58
Korelasyonel araştırmalar, değişkenler arasındaki ilişkilerin açığa çıkarılması ve bu
ilişkilerin düzeylerinin belirlenmesinde etkilidir. Bu ilişkiyi gösteren korelasyon katsayısı
hesaplanır ve -1 ile +1 arasında olan bu katsayı ilişkinin yönünü ve düzeyini ifade eder. Eğer
negatif ise değişkenler arasında ilişki ters yönlüdür yani biri artarken diğeri azalmaktadır.
Korelasyonel araştırmalar betimsel ve çıkarımsal olmak üzere iki modele sahiptir.
Değişkenler arası ilişkilerin belirlenmeye çalışıldığı araştırmalara betimsel korelasyon
araştırmaları denmektedir. Çıkarımsal korelasyon araştırmalarında ise; değişkenler arası ilişki
belirlenerek bir değişkene ait bilinen bir değerden diğer değişkenin bilinmeyen bir değeri
tahmin edilmeye, çıkarım yapılmaya çalışılır (Fraenkel & Wallen, 2007). İnternet
araştırmalarında korelasyon analiz teknikleri kullanılmaktadır. Ancak internette birden fazla
değişken olduğu için tek başına korelasyon analizleri yeterli olmayabilmektedir. Bu yüzden
doğrusal regresyon veya çoklu regresyon tekniklerinden yararlanılmaktadır (Tekbıyık, 2015,
s. 103).
İnternet ve sosyal medya üzerinden yapılan “ilişkisel araştırma yöntemi”, geleneksel
yöntemle benzerlik göstermektedir. Her yöntemde de değişkenler arasındaki ilişki incelenir.
Birçok alanda kullanılan bu araştırma yöntemi, pazarlama alanında da müşterilerin satın alma
davranışları ile raf düzeni arasındaki ilişkide ya da bankacılık alanında bankalar müşterilerine
kredi skoru verirken korelasyon ve regresyon gibi daha üst tekniklerden de faydalanarak
kullanılmaktadır.
Deneysel Araştırmalar
Deneysel araştırmalar, değişkenler arasındaki neden-sonuç ilişkilerinin araştırıldığı
ve değişkenlerin gözlemlenerek istenilen verilerin üretildiği araştırmalardır. Deneysel
yöntem; etkisi ölçülecek etkenin belirli kurallar ve koşullar altında deneklere uygulanması,
deneklerin etkene verdikleri yanıtların ölçülmesi ve elde edilen sonuçların karşılaştırılarak
karara varılması işlemlerini içeren bir araştırma türü olarak tanımlanmaktadır (Çepni, 2007, s.
82).
Deneysel araştırmalar ayrıca doğaya ilişkin uygun, net soruların sorulması ve
cevapların kaydedilmesini tanımlar. Bu soruları cevaplayabilmek için süreç planlanmış olarak
ele alınır ve olası ilişkiler yoklanır. Ayrıca, fen olayları sürecini etkileyen bütün faktörler
59
kontrol edilir. En uygun faktörlerden biri değiştirilirken, diğerleri sabit kalır. Deneysel
araştırmaların iki temel özelliği bulunmaktadır. Birincisi, bağımsız değişkenin bağımlı
değişken üzerindeki etkisini doğrudan gösterebilmesidir. İkincisi de değişkenler arasındaki
ilişkiye yönelik olarak hipotezlerin test edilebilmesine olanak sağlamasıdır. Ayrıca deneysel
araştırmalarda araştırmacı bağımsız değişkeni kendisi kontrol edebilmektedir (Karakaya,
2009, s. 55). Tek denekli araştırmalar, sadece bir deneğe ait verilerin analiz edilip,
yorumlandığı yarı deneysel araştırmalardır. Tek denekli araştırmaların düzenlenmesinde farklı
desenler mevcuttur. Bu desenler, deneklerin değişimleri grafiklerle izlendiğinde, bir zaman
serisi çalışması olarak tanımlanabilmektedir. Bu yöntemler psikoloji, ilaç sanayi, eğitim, özel
eğitim, işletme, pazarlama ve sosyal hizmetler gibi alanlarda sıklıkla kullanılmaktadır
(Büyüköztürk ve diğerleri, 2014, s. 214-215). Şekil 5’te çevrimiçi deneylerin yapısı
gösterilmiştir. Bir grup deney grubu iken, diğer grup ise kontrol grubudur. Bu ayrışım
istatistiksel olarak, eşit olarak bölünmeye çalışılır ve araştırmacı tarafından karar verilir.
Kullanıcıların araca olan tepkileri ve etkileşimleri analiz edilerek ve karşılaştırılarak deneyin
sonuçları yorumlanır.
Şekil 5: Çevrimiçi Deneylerin Yapısı
Kaynak:http://statisticalconcepts.blogspot.com.tr/2010_03_01_archive.html
(Erişim:11 Mayıs 2015)
60
İnternetin araştırma alanlarını etkilemesiyle birlikte 1990’ların sonuna doğru
çevrimiçi kontrollü deneyler yapılmaya başlanmıştır. Günümüzde Amazon, Facebook,
LinkedIn gibi birçok büyük siteler her yıl binlerce deney yapmaktadır. Bu deneyler; kullanıcı
arayüzü değişikliklerini test etme, arama, reklam, kişileştirme ve öneri sistemleri gibi
algoritmaların iyileştirilmesinde, uygulamaları ve içerik yönetimi değişikliklerini test etmede
kullanılır. Çevrimiçi deneyler günümüzde girişimci ve küçük web siteleri için vazgeçilmez
olarak görülmektedir. Diğer birçok veri madenciliği tekniğinin üzerinde durduğu ilişki
desenlerinin aksine, deneysel araştırmalarda neden sonuç ilişkisi belirlenmeye çalışılmaktadır
(Kohavi & Longbotham, 2015). Ayrıca internet ve sosyal medyada kontrol gruplarıyla
yapılan çalışmalarda web sitelerinde hangi metin özelliklerinin, hangi görselin, hangi
fotoğrafın ve renklerin uygulanması gerektiğine karar vermede ve özellikle e-ticaret ve sosyal
ağ sitelerinin trafiğini ve kullanıcı dostlu olma özelliğini artırmada bu tür testler
uygulanmaktadır.
Meta-Analiz
Günümüzde bilimsel araştırmaların sayısının artmasıyla, araştırma hedeflerinin
kitlelere aktarılması zorlaşmakta, okuyucunun istediği bilgiye kısa sürede ulaşması
güçleşmektedir. Birbirinden bağımsız ve belirli konularda yapılan çalışmalarda sıklıkla
birbirinden farklı sonuçlara ulaşılmakta ve her geçen gün aynı konu hakkındaki farklı
araştırmaların sayısı artmaktadır. Bu bilgi yığınını yorumlamak ve yeni çalışmalara yol açmak
için, kapsayıcı ve güvenilir nitelikte üst çalışmalara ihtiyaç vardır. Bu sebepler bilgilerin bir
çatı altında toplanıp yeniden analiz edilmesi ve yeni yargılara varılması ihtiyacını
doğurmuştur (Sağlam & Yüksel, 2007). Meta analiz, aynı ya da ilişkili amaca sahip araştırma
sonuçlarının bütünleştirilmesi ile daha da genellenebilir. Meta analiz araştırmalarında aynı
probleme yönelik farklı araştırmaların istatistiksel bulgularına yer verilmektedir (Büyüköztürk
ve diğerleri, 2014, s. 222-223).
İnternet ve sosyal medyanın hayatımızda ve bilim dünyasında aktif kullanımıyla
birlikte, aynı konu hakkında yapılan araştırmalar artmaktadır. Böylece akademik dergiler ve
akademik veri tabanları sayısı da aynı paralellikte hızla artmaktadır. Bu çok sayıdaki
araştırmanın bulgularından yola çıkılarak yapılan çeşitli istatistik hesaplamalarla daha genel
ve geçerli meta analiz araştırma sonuçlarına ulaşılmaktadır. En çok bilinen yazılımlar ise
61
“Comprehensive Meta-Analysis (CMA) 2.0”, “Revman 5.0”, “Stata Macros with Stata 10.0”,
”SPSS”, “SAS” ve “excel”dir (Borenstein ve diğerleri, 2011). Şekil 6’da meta analiz
araştırmalarında kullanılan yazılımlardan CMA’nın çalışma arayüzü gösterilmiştir. Arayüzü
satır ve sütunlardan oluşan CMA, Microsoft Excel’in arayüzüne benzemektedir.
Şekil 6: Comprehensive Meta-Analysis (CMA) 2.0 Arayüzü
Kaynak: http://www.meta-analysis.com/pages/features.php (Erişim:24 Mayıs 2015)
Excel arayüzüne benzer olan programda grafik ve tablo olarak çıktı alınabilmektedir.
Hesaplama adımları adım adım gösterilerek yanlış yapma durumunda kullanıcının bunu fark
etmesi sağlanmaktadır. Ayrıca araştırmalarda alt gruplar varsa alt grup analizleri yapılmakta,
regresyon ve çalışmaların etki büyüklüğü hesaplanmaktadır. Şekil 7’de aynı mortalite üzerine
yapılan tedavilerin etkisi çalışması gösterilmiştir. CMA ile bu farklı yıllarda yapılan
çalışmaların meta analiz diyagramı rahatlıkla oluşturulmaktadır.
62
Şekil 7: CMA 2.0 ile Yapılmış Örnek Bir Meta Analiz Diagramı
Kaynak: http://www.meta-analysis.com/pages/features.php (Erişim:24 Mayıs 2015)
Aynı tedaviyle ilgili olarak 1932 yılından 2000 yılına kadar yapılan ve aynı amacı
taşıyan araştırmaların sonuçları değerlendirilmiş ve tedaviyle ilgili bir genelleme yapılmıştır.
Her bir çalışmanın istatistiksel sonuçları girilerek toplam verilerden diyagramlar
oluşturulmuştur. Böylece farklı araştırmalar harmanlanarak ortak sonuçlara varılmıştır.
Sonuç olarak, nicel araştırmalar farklı gruplar arasında karşılaştırmalar yapılabilmesi,
kuramların doğruluk derecelerinin test edilmesi ve belirli bir yapı içerisindeki ilişkilerin
incelenmesi gibi uygulamalara imkân sağlamaktadır. Öte yandan nicel araştırmaların yetersiz
kalması, belirli olay ve durumlar hakkında derinlemesine bilgi sağlamaması, sonuçlarının
kuramlar üretmekte yetersiz olması ve süreç içinde esnek olamaması gibi bazı sebeplerden
dolayı nitel araştırma yöntemleri, nicel araştırma yöntemlerine göre daha etkilidir. Sıradaki
bölümde nitel araştırma yöntemleri bağlamında geleneksel araştırmalarla internet
araştırmaları ele alınacaktır.
3.2.2. Nitel Araştırma Yöntemler Bağlamında Karşılaştırma
Nitel araştırmalar ilişkilerin, etkinliklerin, durumların ya da materyallerin
niteliğinin incelendiği araştırmalardır. Dünyanın çeşitli gerçekliklerden oluştuğunu ve aynı
durumun farklı bireylerce farklı biçimlerde yorumlanabileceğinin üzerinde durulmaktadır.
Nitel araştırmacılar daha çok katılımcıların bakış açısından olay ve durumları anlamaya
çalışırlar. Bu yüzden nitel araştırmalarda katılımcılar genelde doğrudan ve aktif olarak
63
araştırma sürecinde yer alırlar (Fraenkel & Wallen, 2007, s. 15). Yıldırım ve Şimşek
(2000) ise nitel araştırmayı, gözlem görüşme ve doküman analizi gibi nitel veri toplama
yöntemlerinin kullanıldığı, algıların ve olayların doğal ortamda gerçekçi ve bütüncül bir
biçimde ortaya konmasına yönelik nitel bir sürecin izlendiği araştırma süreci olarak
tanımlar. Başka bir deyişle nitel araştırma, kuram oluşturmayı temel alan bir anlayışla
sosyal olguları bağlı bulundukları çevre içerisinde araştırmayı ve anlamayı ön plana alan
bir yaklaşımdır (Yıldırım & Şimşek, 2013, s. 19). Nitel araştırmalar psikolojik ve sosyal
olaylarla ilgili daha derinlemesine bilgi sağlarlar. Geleneksel araştırma yöntemleriyle ifade
edilmesi zor olan sorulara cevap bulmak için nitel araştırmalar gereklidir. Araştırmaların
doğal ortamlarda geçmesi ve katılımcılardan doğrudan veri toplanması nitel araştırmaların
temel özelliklerindendir. Tablo 10’da Fraenkel & Wallen (2007, s. 424)’a göre nitel
araştırmaların özellikleri verilmiştir.
Tablo 10: Nitel Araştırmaların Özellikleri
Özellikler Açıklamalar
Doğal ortam Olguların, olayların ya da davranışların
gerçekleştiği doğal ortamda çalışılır.
Doğrudan veri toplama Araştırmacı verilere doğrudan kaynağından
ulaşır.
Zengin betimlemelerin yapılması Bağlam ve olguların derinlemesine anlaşılmasını
sağlayacak detaylı betimlemeler yapılır.
Sürece yönelik Olgu ve davranışların nasıl ve neden
gerçekleştiğine odaklanır.
Tümevarımcı veri analizi Sentezlenerek elde edilen bilgilerden yola
çıkarak ikna edici genellemeler yapılır.
Araştırmacının katılımcı rolü Katılımcının anlamasına ve anlamlandırmasına
odaklanır.
Araştırma desenlerinde esneklik Araştırma deseni, çalışmanın gerçekleştiği
duruma göre gelişir ve değişir.
Kaynak: Fraenkel & Wallen (2007, s. 424).
Nitel yaklaşımda araştırmanın amacı elde edilen bulgulara dayalı olarak derinlemesine
açıklama yapmaktadır ve nitel araştırma yorumlayıcı nitelikte olduğu için bu yeni yaklaşımla
sosyal olgu ve olayın sayılamayan “Niçin?” ve “Nasıl?” sorularına cevap bulmak amaç
edinilmiştir. Bu sorulara alınacak cevapları yorumlayarak anlamlandırmak ve böylece insan
64
davranışlarını, sosyal olgu ve olayları daha iyi açıklanabilir hale getirmek yöntemin başlıca
amacıdır. Bu amaç doğrultusunda nitel araştırmalar etnografi, tarihi araştırma, eylem
araştırması, durum çalışması, anlatı araştırması, temellendirilmiş teori, olgubilim ve
gelişimsel araştırmalar gibi çeşitlere ayrılır (Büyüköztürk ve diğerleri, 2014, s. 18). Bu tez
bağlamında nitel araştırma yöntemlerinden olan etnografi, netnografi, durum çalışması ve
temellendirilmiş teori üzerinde durulacaktır. Diğer nitel araştırmalara yer verilmemesinin
nedeni, bahsedilen bu yöntemler dışındakilerin internet ve sosyal medya araştırmalarında
sonuç elde edilmesi açısından uygun olmamasıdır.
Etnografi ve Netrografi
Etnografi, “etno” (insan) ve “grafi” (tanımlama, tasvir etme) kelimelerinin bir araya
gelmesiyle oluşmuş bir kelimedir ve “bir topluluğun davranışını doğrudan gözlemlemek ve bu
gözleme dayanarak tanımlamalar yapmak” anlamına gelmektedir (Agafonoff, 2006, s. 117).
Diğer bir anlatımla, bir grubun davranışlarını ve o grubun insan ilişkilerini, doğal
ortamlarında gözleme, onlara ilişkin veri toplama ve yorum yapmadır (Akturan, 2007, s. 239).
Sosyal bilimlerde birçok alanda kullanılan etnografik araştırma yöntemlerinin özelliklerini
Goulding şu şekilde özetlemektedir (Goulding, 2005, s. 299).
Etnografik araştırmalar kültürel yapıları ve bu yapıları oluşturan bireylerin
davranış ve deneyimlerini açıklamayı hedeflemelidir.
Etnografik araştırma belirli bir kültür veya alt-kültürle belirli bir süreklilikteki
bir ilişkiyi kapsamaktadır.
Tüketici davranışına yönelik yürütülen etnografik araştırmalarda sonuçlar
genelleştirmekten çok daha cüzi ve o türün bir parçasıyla ilgilidir.
Etnografik araştırmada tek bir olgu için anket, gözlem, kayıt gibi birden fazla
yöntem kullanılabilmektedir.
Etnografik araştırmada araştırmacı incelenen kültürün, grubun bir parçasıdır
ve bu kültür tarafından etkilenmektedir.
Etnografik araştırmalarda iki ana veri kaynağı vardır. Bunlardan birincisi davranışa
yönelik gözlemler, ikincisi ise sözlü raporlardır. Araştırmacı gözlem yaptığı toplumda
gerçekleşen günlük olayları, gelişme ve konuşmaları gerçek zamanlı olarak kaydetmelidir.
65
Notlar, video, ses kaydı ve fotoğraf gibi farklı kaynaklardan olabilen bu veriler saha kayıtları
olarak analiz edilmelidir (Arnould & Wallendorf, 1994).
Etnografik araştırmada üç tür gözlem tekniği vardır. Bunlar Şekil 8’de belirtildiği
gibi katılımcı gözlem, katılımsız gözlem ve mekanik gözlemdir. Her üç yöntemin de birbirine
kıyasla üstünlükleri ve zayıflıkları bulunmaktadır. Etnografik araştırma sürecinde her üç veri
toplama tekniği de aynı anda kullanılabilmektedir. Bu özellik, etnografik araştırmayı diğer
araştırma yöntemlerinden ayıran önemli bir özelliktir (Akturan, 2007, s. 242).
Şekil 8: Etnogratik Araştırmanın Çok Boyutlu Çerçevesi
Kaynak: Agafonoff, N. (2006). Adapting ethnographic research methods to ad hoc
commercial market research. Qualitative Market Research: An International Journal,
115 - 125. http://www.emeraldinsight.com/doi/pdfplus/10.1108/13522750610658766
adresinden alınmıştır
Web 2.0 ve sosyal medyanın gelişmesiyle birlikte etnografik araştırmalar sanal
ortamlarda da kullanılmakta ve sanal toplulukların davranışlarını açıklamada önemli ipuçları
sağlamaktadır. Sanal ortamda uygulanan etnografik araştırma tekniği “netnografi” olarak
adlandırılmaktadır. Kozinets tarafından geliştirilen netrografi kendisi tarafından şöyle ifade
edilmektedir: “Netrografi, İnternet ve teknolojik ağ etnografisidir; teknoloji aracılığıyla
çağdaş sosyal dünyamızın karmaşıklığına uyarlanmış etnografidir” (Kozinets, 2010, s. 62).
The Sage Dictionary of Social Research Methods sözlüğündeki tanıma göre ise netnografi
66
“internet üzerinden yapılan etnografidir”. Yani antropolojinin yüz yüze yürüttüğü niteliksel ve
yorumlamalı araştırma yönteminin bilgisayar donanımlı iletişimlerle oluşturulmuş çevrimiçi
kültürlere ve topluluklara uyarlanmasıdır (Jupp, 2006, s. 193).
Netrografik araştırma süreci, etnografik araştırma süreciyle benzerdir. İlk aşamada,
çevrimiçi sahaların incelenmesi, veri toplama ve analizi, yorumlama, araştırma etiğinin
sağlanması ve kültürel ortamın üyelerinden geri bildirim alınması gibi adımlar gelir.
Araştırma planlamasında araştırma sorularının spesifik olması ve sorulara cevap alınacak
çevrimiçi ortamların belirlenmesi önemlidir. Netnografik araştırmaların uygulanabileceği
çevrimiçi ortamlar temel olarak 5 kategoride toplanabilir. Bunlar, haber grupları; web
sayfaları; sanat, iş, hobi gibi ortak ilgi alanlarına yönelik kurulmuş e-posta listeleri; çok
oyunculu zindanlar (MUD-Multi-User Dungeons) ve sohbet odalarıyla genel arama
motorlarıdır (Çomu & Halaiqa, 2014, s. 70).
Netnografi araştırmaları da, etnografi gibi, araştırılan topluluğa ilişkin farklı
formatlardaki verilerden oluşabilmektedir. Netnografide, araştırma verilerinin toplanıp analiz
edilmesi ve yorumlanmasında, araştırmacının öznel görüşleri de etkilidir. Bu yüzden
araştırmacı grup ve grubun kültürü hakkında ne kadar çok şey bilirse, yorum ve tespitleri de o
kadar güvenilir olacaktır. Araştırmanın yapılacağı çevrimiçi topluluklar hakkında veri elde
etmede sosyal medya araçları, siteler, bloglar, forumlar kısacası bütün siber dünya bir veri
bankası olarak araştırmacının önündedir. Ayrıca, internet üzerinden çeşitli uygulamalar
kullanılarak birebir görüşmeler ve odak grup görüşmeleri gerçekleştirilebilmekte, kamuoyu
yoklamaları yapılabilmektedir. Yine, sanal grupların kullandığı sosyal medya araçlarında
kullanıcı sayısı, kullanım sıklığı, mesaj gönderim sıklığı gibi sayısal verilere ulaşmak son
derece kolaylaşmaktadır (Özüdoğru, 2014, s. 268).
Nitel bir araştırma olan netrografide, kullanıcılar tarafından üretilen verilerin
incelenmesinden ziyade, bu veriler üzerinden kullanıcıların duygu ve düşünceleri, eğilimleri,
tutum ve davranışları nitel olarak betimlenir (Çomu & Halaiqa, 2014, s. 77). Bu
betimlemelerde, araştırmanın yapıldığı çevrimiçi ortamlara dair nicel verilerden ve veri analiz
sürecinde de bilgisayar yazılımlarından faydalanılabilir.
67
Türkiye’de Kaan Varnalı tarafından hazırlanan “Dijital Kabilelerin İzinde” isimli
kitapta netnografi yöntemiyle yapılmış olan farklı araştırmalar yer almaktadır. Kitapta yer
alan araştırmalar incelendiğinde, anahtar kelime üzerinden gidilerek onların en yoğun
kullanıldığı platformların belirlendiği ve o platformların incelendiği görülmektedir..
Araştırmalarda web siteleri (kadınlar kulübü vb.), forumlar (islamiforum vb.), bloglar, ekşi
sözlük, arama motorları, Facebook ve Twitter gibi platformlar -araştırmanın amacına göre-
belirlenmiştir. Platformların, ortamlardaki içeriklerin ve kullanıcıların belirlenmesinde,
yöntem olarak, genelde “anahtar kelimeler” kullanılmıştır. Yapılan netnografik
araştırmalarda, incelenen çevrimiçi ortamlardaki kullanıcıların davranışları, eğilimleri ve
ilgilendikleri ortak konular belirlenmiştir (Varnalı, 2013).
Durum Çalışması (Case Study)
Durum çalışması veya örnek olay incelemesi bilimsel sorulara cevap aramada
kullanılan ayırt edici bir yaklaşım olarak görülmektedir. Karmaşık bir durum hakkında bilgi
edinmek için kullanılan bir yöntemdir. Durumun bütün olarak incelenmesini ve kapsamlı bir
şekilde anlaşılmasını temel alır, bu yüzden de araştırmacının durumla ilgili çok iyi
önbilgisinin olması gerekir. Çünkü konuyla ilgili önbilgiler bilinmeden, içerik anlaşılmadan
hangi verilerin en iyi olduğunu ve en çok anlam ifade ettiğini anlamak güçtür. Bununla
birlikte bu yöntemde birden çok veri toplama aracının kullanılması gerekebilmektedir. Çünkü
bir durumun açıklanmasında tek bir veri kaynağı yeterli değildir (Yılmaz G. K., 2015, s. 264).
Hem nitel hem nicel verilerin kullanıldığı durum çalışmasının kaynaklarda nicel araştırmalar
içinde de yer aldığı görülmektedir. Ancak bu tez bağlamında çoğunlukla nitel araştırmalar
başlığı altında incelendiği için, nitel araştırma yöntemi olarak ele alınmıştır. Millan (2000)
durum çalışmasını bir ya da daha fazla olayın, ortamın, programın, sosyal grubun ya da diğer
birbirine bağlı sistemlerin derinlemesine incelendiği bir yöntem olarak ifade etmektedir
(Aktaran: Büyüköztürk, ve diğerleri, 2014, s. 249).
Durum çalışmaları bir olayı meydana getiren ayrıntıları tanımlamak ve görmek, bir
olaya ilişkin olası açıklamaları geliştirmek, bir olayı değerlendirmek amacıyla kullanılır.
Yılmaz’a göre, durum çalışması türlerinde kesin bir sınıflandırma yoktur. Bunun nedeni de
araştırmacıların aynı durumlara farklı bakış açıları olmasıdır. Yılmaz durum çalışmalarını
68
açıklayıcı, keşfetmeye dayalı, içsel, enstrümental ve kollektif durum çalışması olarak
sınıflandırmaktadır (Yılmaz G. K., 2015).
Açıklayıcı durum çalışması; çok bilinmeyen veya aşina olunmayan bir
durumu bilindik hale getirmede, gerçek hayatla ilişkilerini açıklamada
kullanılır.
Keşfetmeye yönelik durum çalışması; çıktısı açık ve tek olmayan durumlarda
ve büyük ölçekli araştırmalar yürütülmeden önce bu yöntem kullanılarak
durum hakkında genel bir bilgi sahibi olunur.
İçsel durum çalışması; belirli bir kişi, kurum, grup veya durum hakkında daha
detaylı bilgiye ihtiyaç duyulduğunda kullanılır. Genelleme yapmak yerine
durumu derinlemesine öğrenmek için uygulanır.
Enstrümental durum çalışması; belli bir durumdan ziyade bir sorunu
açıklamayı veya bir teoriyi geliştirmeyi amaçlayan araştırmalarda kullanılır.
Aynı zamanda geniş bir konu hakkında öngörü kazanmak için özel durumlar
incelenir.
Kollektif durum çalışması; karşılaştırmalı durum çalışması olarak da bilinir.
Bir sorunu anlamak için çoklu durumları karşılaştırır. Örneğin bir programın
izleyiciler üzerindeki etkisini incelemek için farklı sosyal medya
mecralarından programla alakalı veriler toplanır ve bunların karşılaştırması
yapılır.
Durum çalışması aşamaları genel olarak nitel çalışmalarla aynıdır. Bir durum
hakkında derinlemesine bilgi sağlaması, alışık olunmayan durumların açıklanması,
araştırmacının nitel araştırmalardaki gibi önceden belirlenen sorulara bağlı kalmak zorunda
olmaması durum çalışmasının başlıca avantajlarındandır. Diğer yandan, sonuçların
genellenebilirliğinin düşük olması, araştırmaya katılan, konu olan kurum ya da kişilerin
kimliklerinin gizlenmesinin zor olması ve raporlaştırma sürecinin geniş açıklama ve
betimlemelere ihtiyaç duyması ise durum çalışmalarının dezavantajlarındandır (Gall, Borg, &
Gall, 1996).
İnternet ve sosyal medyada ise durum çalışması gelenekselde olduğu gibi çok çeşitli
alanlarda yapılmaktadır ve geleneksel durum çalışmalarına benzerdir. Online odak gruplarıyla
69
eş zamanlı ya da eş zamansız yapılan görüşmeler, duyuru tahtası grupları veya e-posta
gruplarından incelenen durumla ilgili veriler toplanabilir. Çevrimiçi ortamlarda çok sayıda
derinlemesine görüşmeler birbirine paralel olarak ilerletilebilir. Özellikle online odak
gruplarının yüz yüze odak gruplarından daha az sayıda olması konunun derinlemesine
çalışılmasına olumlu etki etmektedir. Bunun yanında World of Warcraft gibi sanal
alemlerdeki aktif kullanıcı sayılarının 5 milyonu geçmesi ve bunun giderek artması da nitel
durum çalışmalarının sanal alemlerde daha da etkili olacağına işaret etmektedir (Poynter,
2012, s. 201).
Temellendirlmiş Kuram
Literatürde temellendirilmiş teori, kuram oluşturma, alt teori veya gömülü teori
olarak yer alan temellendirilmiş kuram, önceden bilinemeyen bir takım olguların, toplanan
verilere göre birbiriyle ilişkileri göz önüne alınarak açıklandığı bir modelleme çalışmasıdır.
Uygulamalı bir araştırma çeşidi olan temellendirilmiş kuramla varolan belli sorunları çözmek
ve bu sorunlar hakkında bilgiler geliştirerek ulaşılmak istenen yararın artırılması
hedeflenmektedir (Birgili, 2015, s. 105). Temellendirilmiş kuramın kesinlikle bir teori
olmadığını, onun tümavarım yoluyla teori üretme amacı taşıyan bir araştırma yöntemi
olduğunu ifade eden Punch (2005), temellendirilmiş kuramıın temel özelliklerinden birinin
veri toplama ve veri analizi arasındaki döngü olduğunu ifade etmektedir. Birkaç genel soruyla
alana giren araştırmacı elde ettiği veriyi hemen analiz ederek bu veri setinden elde ettiği
analizle diğerini karşılaştır. Kuram veri toplama, veri analizi süreçlerinin sürekli
paslaşmalarının bir ürünüdür. Veri analizi veri toplamanın ilk aşamalarında başlar ve sürekli
eş zamanlı olarak veri analizi yapılır. Verilerden elde edilen analizlere göre bir sonraki adım
atılır. Temellendirilmiş kuramın başka bir özelliğiyse teorik örneklem kullanmasıdır.
Araştırma devam ederken örneklemde değişiklikler yapılabilir, diğer araştırmalar gibi kesin
bir örneklemi yoktur. Bu yüzden örneklemin teorik olduğu ifade edilmektedir. Bunun yanında
temellendirilmiş kuram önceden belirlenmiş bir çerçevede çalışmaz, veri analiz edildikçe
verilerden elde edilen sonuçlara göre araştırma devam eder ve yeni çıkarımlar, yeni kavramlar
üretilir (Kaya, 2015, s. 243-244).
İnternet veya sosyal medya bağlamında temellendirilmiş kuram çalışmalarına
literatürde rastlanmamış olmasına rağmen bu tez bağlamında incelenmiş olmasının nedeni,
70
diğer araştırma yöntemlerinden farklı olarak Büyük Veri analizine benzer bir şekilde verilerin
toplanır toplanmaz eş zamanlı olarak analiz edilmesi ve verilerden elde edilen sonuçlara göre
araştırma sürecinin devam etmesidir. Sosyal bilimler araştırmalarında kullanılan başlıca analiz
yöntemleri ve teknikleri aşağıda açıklanmıştır. Analizlerde kullanılan yöntem ve teknikler çok
çeşitli olsa da, bu tez bağlamında temel olarak içerik analizi, söylem analizi ve bu analizlerin
yapılmasında yardımcı olan bilgisayar yazılımları olan Nvivo ile Atlas.ti ve ayrıca literatürde
en fazla yer verilen istatistiksel analiz teknikleri yer almıştır.
3.3. SOSYAL BİLİMLERDE ARAŞTIRMALARIN ANALİZLERİNDE
KULLANILAN TEKNİKLER
3.3.1. İçerik Analizi Bağlamında Karşılaştırma
İçerik analizi iletişim, sosyoloji, psikoloji, siyasal bilimler ve eğitim gibi farklı
alanlarda kullanılabilen bir analiz tekniğidir. İçerik analizi temelde tutum ve davranışları
doğrudan gözlemlemek, bireylere doğrudan sorular sormak yerine, kişilerin ortaya koydukları
iletişim materyallerinin ele alınıp incelenmesi ve analiz edilmesidir (Crano & Brewer, 2002).
Günümüzde bu iletişim materyalleri kitap, dergi, video, ses kaydı, e-mailler, mesajlar, sosyal
medya paylaşımlarından haber ve gazeteye kadar çok geniş bir yelpazededir. İçerik analizi
başka bir tanıma göre ise, nitel verilerin sistematik nicel veriye dönüştürülmesi ve istatistiksel
olarak betimlenmesidir (Öğülmüş, 1991, s. 214).
İçerik analizinin nesnellik, sistemlilik ve genellik olmak üzere üç temel özelliği
vardır. İçerik analizinin, aynı dokümanın analizinin farklı araştırmacılar tarafından yapılsa da
aynı sonucu vermesi için, nesnel olması gerekmektedir. Araştırmacının sadece kendi amacına
uygun olan verileri alarak analiz etmesi ve ortak özelliklerde verilerin analizinde aynı ölçeğin
kullanılması sistemlilik; bulguların kuramsal bir temele dayanması ise genellik özelliğidir.
İçerik analizinde aşağıdaki hipotezleri denemek amacıyla mesajlar analiz edilmektedir (Fiske
ve diğerleri, 2010).
İletişim metninin özellikleri hakkında çıkarsamalar yapmak (ne, nasıl, kime),
Mesajın nedenleri veya önceki koşullar hakkında çıkarsamalar yapmak (kim, niçin),
İletişimin etkisiyle ilgili çıkarsamalar yapmak (etkisi ne oldu?).
71
İçerik analizi genellikle diğer yöntemlerle birlikte kullanılır. Özellikle gözlem ve
görüşmelerden elde edilen verilerin analizinde kullanılmaktadır. İçerik analizinde takip
edilecek süreçler yapılacak analizin amacına göre ve analiz edilecek verinin türüne göre
farklılık göstermektedir. Ayrıca, içerik analizinde araştırmacı analize başlamadan önce
kategorileri belirler ama bu kategoriler toplanan verinin analizi süresince değişebilir.
Kategorilerin değiştirilebilmesi, nitel araştırmalar için daha kolayken, nicel araştırmalarda
içerik analizi yapılırken kategorileri değiştirmek daha zordur (Büyüköztürk ve diğerleri, 2014,
s. 241).
Teknolojik gelişmelerle birlikte, içerik analizi bilgisayar destekli yapılabilir
olmuştur. Özellikle Web 2.0 ile birlikte sosyal medya platformlarında kullanıcılar içerik üretir
olmuşlardır. Bu içeriklerin sistemli analizinde kullanılan içerik analizinde Geray, amacın
metinde geçen karakteristiklerin frekanslarını, nasıl sunulduklarını, içeriklerin biçimsel
özelliklerinin saptanması olduğunu ifade etmektedir (Geray, 2011, s. 136). Web içeriklerine
uygulanan içerik analiziyle geleneksel metinlere uygulanan içerik analizinin birbirine
benzediğini ifade eden Ackland (2013), örneklemlerin farklılığı üzerine durmaktadır.
Geleneksel çalışmalarda içerik analizi uygulanacak veriler akademik makaleler olabilirken,
web içerikli çalışmalarda örneklemler web siteleri, Facebook profilleri, gönderileri ya da
Twitter kullanıcıları, tweetleri yahut atılan ortak bir hashtag altındaki tüm tweetler olabilir.
İçerik analizinde açık içerik yazarın ne söylediği; örtülü içerik ise yazarın neyi kastettiği
üzerine yapılabilir. Açık içerik, metin içerisinde nesnel ve belirli olarak görülmektedir, ancak
örtülü içerik, net olarak görülememektedir. Açık içerik metin içerisinde nesnel ve belirli
olarak görülmektedir, ancak örtülü içerik ise net olarak görülememektedir. Niteliksel web
içerik analizi ise daha çok örtük içerik analizinde kullanılır. İnternet araştırmalarında açık
içerik daha çok web sitesinin ve yapının yapısıyla ilgilidir. İstatiksel analizler ve veri
madenciliği yöntemlerinde, kümeleme kullanılmaktadır (Ackland, 2013, s. 36-37).
Çeşitli istatistik tekniklerini de kullanan içerik analizlerinde bilgisayar yazılımlarını
kullanmak şart olmasa da araştırmacıya kolaylık sağlaması açısından günümüzde yapılan
birçok araştırmada çeşitli yazılımlar kullanılmaktadır. Özellikle sosyal bilimler dalında en çok
kullanılan yazılımların başında SPSS (Statistical Package for the Social Sciences)
gelmektedir. Çok geniş bir yelpazede istatistiksel analizler yapan SPSS betimsel ve çıkarımsal
72
istatistik testlerini ve veri indirgeme testlerini içermektedir. İstatistik analizlerin yanında,
tablo ve grafiklerle veriyi sunma, veri yönetimi, veri dökümantasyonu ve metin analizi gibi
çeşitli özellikler de SPSS’in önemli niteliklerindendir.
Araştırmalarda kullanılan yazılımların özellikleri, internetin gelişmesi ve
araştırmalarda ihtiyaç duyulan özelliklerin de eklenmesiyle sürekli olarak gelişmektedir. Bu
yüzden bazen yazılımlardan sadece biri yeterli olurken, bazen de birkaç yazılımı birlikte
kullanmak veya yazılımdaki sadece birkaç özellik araştırma için yeterli olabilmektedir. Hem
nicel hem nitel araştırmaların istatistiksel analizlerinde en çok tercih edilen program SPSS
iken, farklı yazılımlar da farklı amaçlar için kullanılabilmektedir. Nvivo ve Atlas.ti yazılımları
da özellikle nitel araştırmalar için geliştirilmiştir. Hem içerik, hem de söylem analizlerinde
kullanılan bu yazılımların özellikleri aşağıda belirtilmiştir.
Nvivo
Nicel araştırma yöntemleri için kullanılan SPSS programına benzer NVivo programı,
nitel araştırma yöntemlerini kullanan sosyal bilimciler için geliştirilmiş bir yazılımdır.
Yapılandırılmamış birçok veri formunu analiz etmeye yarayan bu paket program, güçlü
arama, sorgulama ve görselleştirme araçlarını kullanarak hızlı bir şekilde veri sorgulaması
yapar. Çakır’ın tanımına göre NVivo, bilgisayar teknolojileri aracılığıyla video, ses kaydı, e-
mail, fotoğraf, doküman gibi birçok veri ile çalışan kişilerin ihtiyaç duyduğu bir programdır.
NVivo sayesinde birbiri ile ilişkisi olan birçok veri analiz edilebilir, materyal daha kolay
anlaşılarak bilgiyi keşfetme, sınıflandırma ve arama sorguları yapılabilir (Çakır, s. 1-2).
NVivo ile bir fotoğraf detaylı bir şekilde incelenebilir, üstü örtülü bağlantılar açığa
çıkarılabilir, eldeki bulgular kesin bir şekilde doğrulanabilir ve kolay bir biçimde çalışmalar
paylaşılabilir. Veri düzenlemenin yanı sıra kategorilerin hiyerarşik organizasyonuna da olanak
sağlanmaktadır. NVivo ile Microsoft Ofis belgeleri, videolar, ses kayıtları, açılabilir,
düzenlenebilir ve bütün bir proje olarak kaydedilebilir. Küresel işbirliği imkânı sağlayan
NVivo farklı dillerde çalışma ve farklı insanlarla birlikte çalışabilmeyi kolaylaştırır
(QSRinternational, 2015).
Araştırmacılar, değerlendiriciler, politik danışmanlar, sosyal yardım uzmanları,
eğitimciler ve bunlar gibi yaklaşık 1,5 milyon civarında NVivo kullanıcısı bulunmaktadır.
73
NVivo röportajlardan, hedef grup mülakatlarından, anketlerden, ses kayıtlarından, sosyal
medyadan, video ve web sayfalarından içerik toplamaya, onları organize etmeye ve
çözümlemeye imkân tanır (QSRinterneational, 2015). Kolay bir arayüze sahip olan
Nvivo’nın arayüzü ve pencereleri Şekil 9’da gösterilmiştir.
Şekil 9: Nvivo Arayüzü
Kaynak:http://www.academia.edu/9092986/NVivo8_ile_Nitel_Ara%C5%9Ft%C4
%B1rma_Projeleri Saillard (2009)
Nitel veri analizi denildiğinde bu tür programlar araştırmacılar tarafından verileri
organize etmeye yarayan bir araç olarak algılanabiliyor. Fakat bu tür programlar kategorilerin
hiyerarşik düzenlenişinden daha fazlasına olanak tanımaktadır. Nvivo programının ara yüzü
şekilde görülmektedir. Program çalışma prensibi olarak Navigation View, List View ve Detail
View olmak üzere üç ayrı pencereden oluşmaktadır. Navigation View penceresinde
programın temel argümanları, yer almaktadır. Dosya içerikleri buradan takip edilebilir. List
View penceresinde belirli verilerin içeriklerine ulaşılabilir, öğe silme, çıkarma, ekleme gibi
işlemler yapılabilir. Detail View penceresi ile tüm verilere ulaşılabilir. Veri kaynağı
görüntülenebilir, kodlama yapılabilir (Saillard, 2009).
Detailed
View
Mönü
Çubuğu
List View
Navigation
View
74
Atlas.ti
Sosyal bilimlerde nitel araştırmalar yöntemlerinde yardımcı program olarak
kullanılan Atlas.ti, veri analizini ayrıntılı ve faydalı bir biçimde derlemeye yardımcı olur.
Programın çok yönlü araçları ile veriler sistematik bir şekilde düzenlenebilir, daha planlı
yönetilerek etkin sonuçlar elde edilebilir. Programın çalışma prensibi, PDF uzantılı dosya
türlerinin orijinal şekilde çalışmasına olanak sağlar. Çeşitli PDF dosyalarının temel verileri
hiç değişmeden saklanabileceği gibi, grafikler ve önemli içerikler muhafaza edilebilir. Ayrıca
Atlas.ti sayesinde çok fazla sayıda çevrimiçi kaynağa, elektronik kitaba ulaşılabilir. Master ve
doktora araştırma projelerinde, konu ile ilgili literatür doğrultusunda teoriler, araştırmalar,
sonuçlar ve kaynaklar Atlas.ti ile kodlanarak literatüre uygun olarak sonuçlandırılabilir.
Programla, yazılı metinler hareketli gifler ile birleştirilerek, yeni dosyalar üretilebilir (Anı
Yayıncılık Eğitim ve Danışmanlık, 2015). Örneğin araştırmada kullanılan bir video kaydı,
literatüre paralel derlenen bir metin ile birleştirilebilir. Atlas.ti’de deneme sürümünde süre
sınırlaması yoktur ancak yazılıma yüklenecek dosya sayısında ve kodlama gibi bazı
özelliklerde sınırlama mevcuttur. Şekil 10’da Atlas.ti’nin arayüzü ve proje yapılma esnasında
ekran görüntüleri gösterilmiştir.
75
Şekil 10: Atlas.ti Arayüzü ve Ekran Görüntüleri
Kaynak: http://i.ytimg.com/vi/TnIcCxAwqqg/maxresdefault.jpg (Erişim 11 Haziran
2015).
Sosyal bilimlerde nitel verileri raporlayabilmek için analitik bir program ile analiz
etmek gerekmektedir. Veri analizini verimli bir şekilde gerçekleştiren Atlas.ti, resim
anlamlandırma, istatistiksel çıkarımlar ve esnek çalışma mantığıyla işlevselliğini
korumaktadır. Veri analizinde çeşitlilik sağlayan yazılım Atlas.ti ile Şekil 6’da da görüldüğü
gibi metin, ses, resim, multimedya öğeleri çalışılabilmektedir. Bunun yanında kavram ve
ilişki haritaları çıkararak araştırmacılara kolaylıklar sunmaktadır (Atlasti, 2015).
3.3.2. Söylem Analizi Bağlamında Karşılaştırma
Söylem analizi, içerik içindeki söylemin niteliksel olarak ve kuramsal biçimlerde
analizidir. İçerik yazılı metin olabileceği gibi, görsel veya video gibi farklı formatlarda da
76
olabilir. En temel ifadeyle söylem analizi dilin incelenmesidir. Söylem analizinde dilin
incelenmesi, sadece sözcüklerin veya dilsel unsurların sıralanması değil; ifadelerin altında
yatan anlamların çıkarılması ve incelenmesidir. Van Dijk söylem analizinin, söylem ya da dil
kullanımının sadece biçimselliğiyle ilgilenmediğini, sosyal ve kültürel bağlam içinde iletişim
kuran dil kullanıcılarının oluşturduğu sosyal olayları da incelediğini ifade etmektedir (Çelik &
Ekşi, 2008, s. 105). İçeriğin anlamının ne olduğunun ortaya çıkarılması için anlambilimsel
(semantik), sözdizimsel (sentaks) ve simgebilimsel (semiyoji) analizin yapılması
gerekmektedir (Aziz, 2011, s. 137). Söylem analizinin temel kavramları Tablo 11’de
verilmiştir.
Tablo 11: Söylem Analizi Temel Kavramları
Anlambilimsel (Semantik)
Anlambilimsellik söylemleri, sözcük ve
cümlelerin dilbilimsel anlamlarıyla
ilişkilendirmek suretiyle açıklamayı içermektedir.
Anlambilim, metnin veya söylemin içinde ve
dışında yer alan bütün anlam ilişkilerini inceleyen
bir bilim dalıdır. Anlambilimde bu inceleme
yapılırken metin ile kullanıcısı arasındaki ilişkiler
de göz önünde tutulmaktadır.
Söz dizinsel (Sentaks)
Söz dizinsellik, sözcükleri gerek cümle içinde
gerekse ifadenin tamamında aldıkları yere göre
anlamlandırmayı hedeflemektedir. Bir sözcüğün
cümlenin başında veya sonunda yer alması veya
bir cümlenin ifadenin ortasında veya sonunda
bulunması o ifadenin anlamlandırılmasında
farklılıklar ortaya çıkarmaktadır.
Göstergebilim (Semiyoloji)
Göstergebilim, söylemin analiz edilmesinde
simgelerden yararlanmayı amaçlar. Göstergebilim
bir metni ya da söylemi çözümlerken, kendi
içerisinde tutarlı, metnin anlam evrenine, yüzeysel
ve derin düzeylerdeki yapısına açıklık getirmeye
yönelik bir sistematik izlemekte, kullandığı
çözümleme araçlarıyla belirlediklerini hep
denetlemektedir.
Kaynak: Çelik & Ekşi (2008, s. 107)
Van Dijk, söylem analizini daha çok haberler üzerine yapmaktadır. Bunun nedeni,
haberleri bir tür olarak değil, söylem olarak nitelendirmesi ve haberleri toplumdaki egemen
77
söylemlerin çıktısı olarak görmesidir. Bu nedenle söylem analizini makro ve mikro yapı
olmak üzere ikiye ayırmaktadır (Çomu & Halaiqa, 2014, s. 47-48).
Özer, Van Dijk’ın söylem analiz modelini tablolaştırarak aşağıdaki gibi
açıklamaktadır.
Şekil 11: Van Dijk’in Söylem Analizi
Kaynak: Özer, Ö. (2009, s. 92). Eleştirel Haber Çözümlemeler. Eskişehir: Anadolu
Üniversitesi İletişim Bilimleri Fakültesi Yayınları.
Web 2.0’nin sahip olduğu etkileşim özelliği sayesinde, çeşitli sosyal medya
araçlarında söylem analizleri yapılabilmektedir. Her bir sosyal medya aracının uygulaması ve
sistemi, kendine has özellikler sergiler. Örneğin video paylaşım ağı olan YouTube’da
kullanıcılar paylaşılan videolar sayesinde, Facebook gibi sosyal ağlarda ise daha çok
çevrimdışı tanıdıkları ile sahip oldukları ilişki sayesinde, LinkedIn gibi ağlarda ise
profesyonel iş yaşamı vasıtasıyla etkileşimler kurulmaktadır. Bu yüzden internet ve sosyal
medya üzerinde yapılacak araştırmaların söylem analizi yapılacak ağın mimarisinden ve
78
bağlamdan bağımsız tasarlanması eksikliklere yol açacaktır (Çomu & Halaiqa, 2014, s. 51-
52). Bu bağlamda araştırmacının, hızla gelişen Web 2.0 uygulamalarını ve arayüzlerde
yapılan değişikleri ve dönüşümleri hesaba katarak, söylem analizi şablonu oluşturmalıdır.
Örneğin Bayraktutan ve diğerleri (2013) tarafından Twitter için geliştirdikleri söylem analizi
şablonu Şekil 12’de gösterilmiştir.
Şekil 12: Twitter Söylem Analizi Çözümleme Şablonu
Kaynak: Bayraktutan, G., Binark, M., Aydemir, A. T., Doğu, B., Çomu, T., & İslamoğlu, G.
(2013, s. 183). Sosyal Medya Ortamlarının Siyasal İletişim Uygulamaları Açısından
İncelenmesi: Türkiye'de 2011 Genel Seçimlerinde Facebook ve Twitter'in Siyasi
Partiler ve Liderler Tarafından Kullanılması. Ankara: Tübitak.
Http://Uvt.Ulakbim.Gov.Tr/Uvt/İndex.Php?Cwid=3&Vtadi=TPRJ&S_F=_5&Detailed
=1&Keyword=159193 Adresinden Alınmıştır
Twitter’ın 140 karakterle sınırlı olması nedeniyle her bir tweet tam bir metin
olmayabilir. Bu yüzden Van Dijk’ın söylem analizine uyarlanırken bazı unsurlar çıkarılmıştır.
Tematik yapıda tweet atan kişinin hesap tanımı, varsa kendini tanımlamak için profilinde yer
alan tüm bilgiler ve internette kendi hesabında verdiği bağlantılardan oluşturmaktadır. Mikro
yapı analizi ise kullanıcının attığı tweetin bağlamından, cümle yapısına, içinde geçen ifadeyle
79
bağlam ilişkisine, kelimelerin anlamlarına, kullanıcının daha önce attığı tweetlerle olan
bağlantısına ve tweet içinde yer alan görsellere kadar çeşitli unsurları içermektedir. Büyük
Veri analiz yöntemlerinde doğal dil işleme, metin madenciliği ve fikir madenciliği yöntemleri
de söylem analiziyle ilişkilidir. Geleneksel analizde, araştırmacı daha önce belirlediği
kodlamalara göre veri girişini ve analizleri kendisi yaparken, internet ve sosyal medya
araştırmalarında bu analizler bilgisayarlar tarafından yapılmaktadır. Bu analizleri yapan
uygulamalar gelişim göstermektedir ve özellikle finans, pazarlama, politika gibi çeşitli
disiplinlerde bu uygulamaların kullanımı gelişmektedir.
3.3.3. İnternet Araştırmalarında Büyük Veri Analizi
3.3.3.1. İstatistiksel Analiz Teknikleri
İstatistik kavramı Oxford İstatistik Terimler Sözlüğüne göre belirli bir amaç için
verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına
dayanan bir bilimdir (Dodge, 2006). TDK’a göre ise istatistik; ilkelerini olasılık
kuramlarından alarak eldeki verileri grafik ve sayı biçiminde değerlendirmeye dayandıran
matematiğin uygulamalı dalı, sayım bilimi olarak ifade edilmektedir. İstatistik bilim, sosyal
bilimlerden doğa bilimlerine kadar birçok alanda kullanılmaktadır. Bilimsel araştırmalarda
anket veya diğer veri toplama araçları yardımıyla toplanan verilerin analizinde, karar
vermede, kalite kontrolde ve geleceğe yönelik tahminlerde kullanılmaktadır (Bluman, 2009, s.
3). İstatistik disiplinler arası bir kavram olması nedeniyle farklı alanlarla birleşerek yeni
alanların ortaya çıkmasına neden olmuştur. Örneğin ekonomiyle birleşerek ekonometri, tıp ile
birleşerek biyoistatistik alanları oluşmuştur. Aynı zamanda istatistik verilerden bir sonuca
varılabilmesi ile ilgili olarak kullanılan bilimsel metotlar topluluğudur (Sütcü,
cemsutcu.wordpress.com, 2013).
İstatistik, verinin kullanımına göre betimsel istatistik ve çıkarımsal istatistik olarak
ikiye ayrılmaktadır. Betimsel istatistik verinin toplanması, özetlenmesi, tablo ve grafikler
yardımıyla gösterilmesi ve veriye ait özelliklerin ortaya koyulmasını içermektedir. Frekanslar,
merkezi eğilim ölçüleri, merkezi yayılım ölçüleri betimsel istatistiğin bileşenlerindendir.
Betimsel istatistikte mevcut durum grafikler, tablolar ve çeşitli istatistiksel yöntem ve
tekniklerle betimlenmeye çalışılır. Örneğin nüfus sayımlarıyla birlikte o nüfusa ait ortalama
yaş, ölüm yaş ortalaması, eğitim durumu gibi özellikler hakkında bilgiler verir. Çıkarımsal
80
istatistik ise örneklemden anakütle hakkında genellemeler yapmayı, değişkenler arasındaki
ilişkilerin belirlenmesini, varsayımlar yaparak onların doğruluğunu test etmeyi ve ileriye
dönük tahminler yapmayı kapsar. Olasılık hesaplamalarında kullanılan çıkarımsal istatistikte,
örneklemden anakütle hakkında çıkarımlar yapılmaya çalışılır (Bluman, 2009, s. 3-4).
Örnekleme yapılmasının nedenleri, temelde anakütlenin büyük olması ve dolayısıyla tüm
bireyleri incelemenin zor olmasıdır. Diğer nedenleri ise, tüm elemanları kontrol etmenin
fiziksel zorluğu, tüm anakütleye ulaşımın maliyeti ve zaman alması, bazı testlerin yok edici
özelliği olması ve çoğunlukla örnek sonuçlarının anakütleyi temsil edebilmesidir (Gamgam,
Ekni, & Esin, 2006, s. 9).
Anakütlenin temsil edilmesinde örneklemin sahip olduğu değişkenler önemlidir.
İstatistiksel analizlerde tek değişken olabileceği gibi iki ya da çok sayıda değişken de olabilir.
Özellikle, bilim ve teknolojinin gelişmesiyle birlikte problemlerin karmaşıklığı artmıştır ve bu
problemlerin çözümlerinde tek değişkenli analizler yeterli gelmemeye başlamıştır. Tek
değişkenli analizlerde genel olarak kabul edilen varsayım diğer değişkenlerin sabit kabul
edilerek tek bir faktörün analizin yapılmasıdır. Fakat yapılan araştırmalar ve incelemeler
doğrultusunda sadece tek bir faktörün etkisiyle değil, birçok faktörün etkisi ile bu karmaşıklık
oluşmakta ve dolayısıyla çözüm de karmaşık bir yapı göstermektedir. Ancak herhangi bir
araştırmada -değişken sayıların birden fazla olduğu durumlarda- tek değişkenli analizleri
kullanmak yeterli olmamakta; işlemlerin uzun sürmesine ve daha çok hatanın yapılmasına
sebep olmaktadır. Bundan dolayı tek değişkenli analiz yerine iki ya da çok değişkenli
analizlerin kullanılması daha etkili olmaktadır. Sheth (1971)’a göre çok değişkenli analiz,
örnek üzerinde ikiden fazla değişkeni eş zamanlı çözümleyen tüm istatistik teknikleridir
(Daşdemir & Güngör, 2002, s. 1-2).
Shaw (2009) tek değişkenli, iki değişkenli ve çok değişkenli analiz tekniklerini Tablo
12’deki gibi sınıflandırmaktadır.
81
Tablo 12:Tek Değişkenli, İki Değişkenli ve Çok Değişkenli Analiz Teknikleri
Tek Değişkenli Veri İki Değişkenli Veri
Çok Değişkenli
Veri
Değişken Sayısı Tek İki Üç ya da daha çok
Betimsel İstatistik
Ölçülmüş tek bir değişkenin değeri veya
dağılımına yönelik bilgi.
(merkezi eğilim ve merkezi dağılım
ölçüleri)
İki bağımsız değişken arasındaki ilişkiyi
tanımlayan sayısal bir
fonksiyon.
Birçok sayıda değişken arasındaki
ya da değişkenler
içerisindeki örnekleri tanımlayan
sayısal bir
fonksiyon.
Çıkarımsal İstatistik
Tek bir değişken için
bulunan gözlemlenmiş
örnekler temel alınarak elde edilmiş olasılık
hesaplamaları
(t testi, Mann-Whitney
U testi, varyans analizi).
İki değişken arasında
bulunan gözlemlenmiş
örnekler temel alınarak elde edilen olasılık
hesaplamaları
(Spearman ya da
Pearson’un iki değişkenli korelasyon
katsayısı).
Birçok sayıda
değişken arasında
bulunan örnekler temel alınarak elde
edilen olasılık
hesaplamaları
Kaynak: Peter J. A., (2009)
Literatürde yoğun olarak kullanılan istatistiksel yöntem ve teknikler şunlardır;
Aritmetik ortalama (Mean): Örneklemdeki verilerin aldıkları değerlerin toplanıp
denek sayısına bölünmesi ile elde edilir.
Ortanca (Median): Büyüklük sıralamasına göre dizilmiş bir ölçüm ya da veri setinin
orta noktasındaki değerdir. Veri setinin üst yarısını alt yarısından ayıran değer olarak
da ifade edilir. Ortanca ortalamaya göre uç değerlere karşı daha az duyarlıdır. Bu
yüzden çarpık dağılımlarda ortalamaya göre daha iyi bir merkezi eğilim ölçüsüdür.
Tepe Değeri (Mode): Veri setinde en çok tekrar eden ya da en büyük frekansa sahip
olan değerdir. Ortalama ve ortanca hesaplanamadığı durumlarda, yani kategorik
ölçekli verilerde kullanılır.
Değer Aralığı (Range): Veri setindeki en büyük değer ile en küçük değer arasındaki
açıklık, farktır.
Standart Sapma ve Varyans (Standard Deviation &Variance): En güvenilir
değişim ölçüsü olan standart sapma; verilerin veri seti ortalamasından ne kadar uzakta
82
olduğunu, ne kadar saptığını ifade eder. Varyans ise standart sapmanın karesidir. Bir
veri setinde standart sapma küçükse veri setindeki değerler ortalamaya yakındır, yani
sapmalar azdır.
Korelasyon (Correlation): İki değişken arasındaki ilişkinin kuvvetini ve ilişkinin
yönünü belirlemek için kullanılır. Korelasyon katsayısı (r) -1 ≤ r ≤ +1 arasında bir
değer alır ve mutlak olarak 1’e yaklaştıkça değişkenler arasındaki ilişkinin kuvvetinin
arttığı söylenir. Değerin işareti ilişkinin yönünü tayin eder. Nicel veriler için Pearson’s
r eğer değişkenler nitel ise Spearman rho değerleri kullanılır (Durucasu, 2013, s. 132)
z Skor Testi (z score): Z skore bir değerin ortalamadan kaç tane standart sapma kadar
saptığını belirtmektedir. Standart sapmada birbirinden farklı ölçü birimlerinin
karşılaştırılmasında kullanılan z skor, bütün veri setindeki birimlerin ortak bir birim
aralığında yayılmasını sağlar (Göçmen, 2012, s. 9).
t Testi (t-test): Bir grubun aritmetik ortalamasının belirli bir değerle karşılaştırılması
veya iki grubun ortalamalarının istatistiksel olarak birbirinden farklı olup olmadığının
analiz edilmesinde kullanılır. T testinin uygulanabilmesi için parametrik test
varsayımlarının normallik ve varyansların homojenliğinin sağlanması gerekmektedir.
Niceliksel değerleri karşılaştırılacak grupların bağımlı ve bağımsız olmaları
uygulanacak testin modelini değiştirir. Örneğin istatistik sınavı not ortalamaları ile
cinsiyetler arasında fark olup olmadığı test edilirken kullanılan model ile aynı gruba
farklı zamanlarda uygulanan testlerin sonuçlarını karşılaştırırken kullanılan modeller
farklıdır (Özmen, 2013, s. 85-86).
Varyans Analizi (ANOVA): Varyans Analizi (ANOVA) üç ya da daha fazla grubun
veya değişkenin ortalamalarının farklı olup olmadığını test etmek için kullanılan
çıkarımsal istatistiksel bir yöntemdir. T testinin çoklu gruplar için uygulanan
yöntemidir. Tek yönlü varyans analizinde bağımlı değişkenin “nicel” ve bağımsız
değişkenlerin “kategorik” olması şarttır. Örneğin üç farklı öğretim tekniğinin
uygulandığı bir okulda öğrencilerin final notlarının farklılık gösterip göstermediğini
araştırmak için uygulanır (Özmen, 2013, s. 93).
Mann–Whitney U ve Kruskal-Wallis Testleri: İki bağımsız örneklem T testinin ve
tek yönlü varyans analizinin alternatifi olan non parametrik testlerdir. Mann- Whitney
iki bağımsız grup arasında bir değişkenin farklılık gösterip göstermediğini, Kruskal-
83
Wallis ise üç ya da daha fazla gruba ait değişkenin gruplar arasında farklılık gösterip
göstermediğini test eder. Her ikisi de sıralı ölçekte girilen değişkenlerde kullanılır.
Ki Kare Test (Chi-square Test): Nitel değişkenler arasında herhangi bir bağımlılık
ve ilişki olup olmadığının test edilmesinde kullanılır. Ayrıca iki ya da daha fazla
örneklemin aynı anakütleden seçilip seçilmediğini ve herhangi bir örneklemin,
anakütlesini iyi temsil edip etmediğini belirlemek için Ki-Kare Testi uygulanır (Şıklar,
2013, s. 105).
Regresyon Analizi (Regression): İlişki içinde olan değişkenlerin ilişkilerini
belirlemek ve bu ilişkileri kullanarak konuyla ilgili tahminler ve geleceğe yönelik
çıkarımlar yapmak için kullanılan istatistiksel metotlardır. Bağımsız değişken sayısı
birse basit regresyon, birden fazla bağımsız değişken olması durumunda ise çoklu
regresyon analizi uygulanır (Durucasu, 2013, s. 117-118). Bağımsız değişkenlerden
birinin değişmesi durumunda bağımlı değişkenlerin nasıl etkilendiği üzerinde durulur
ve özellikle makine öğreniminde kullanılır (Bluman, 2009, s. 310). Genel olarak
regresyon analizinde neden-sonuç ilişkisi ve matematiksel bir formül yer aldığı için
bağımlı ve bağımsız değişkenlerin sayısal büyüklükte olması gerekmektedir.
Çok Değişkenli Varyans Analizi (MANOVA): Birden fazla sürekli bağımsız
değişkenin bağımlı değişken üzerindeki etkisini ölçmek için kullanılır. Tek değişkenli
varyans analizinde tek bir tane bağımlı değişken varken, MANOVA’da bir iki veya
daha fazla bağımlı değişken olabilir. Varyans analizinin yapılabilmesi için verilerin
dağılımının normal ve homojen olması gerekmektedir.
Faktör Analizi (Factor Analysis): Veri seti içerisindeki değişkenlerin karşılıklı
ilişkilerinin analizinde ve bu birbiriyle ilişkili çok sayıda değişkeni, daha az sayıda
anlamlı ve birbirinden bağımsız faktörlere indirgemede kullanılan çok değişkenli bir
analiz tekniğidir. Diğer yandan, analizde tanımlanan faktörler ile yüksek korelasyona
sahip ölçülebilir değişkenleri bulmak da amaçlanır (Tabachnick & Fidel, 1996).
Birbiriyle yüksek derecede ilişkisi olan değişkenleri belirleyen ve onları aynı faktör
altında toparlayan bir tekniktir.
Temel Bileşenler Analizi (Principal Components Analysis): Çok sayıda değişkenin
incelendiği çok değişkenli istatistiksel analizlerde, değişkenler arasındaki ilişkiler söz
konusu olabilmektedir. Bu durum bağımsızlık kuralını etkilemektedir. Çok sayıda
84
değişkenle çalışılmasından dolayı veri analizini zorlaşmaktadır. Temel bileşenler
analizi, değişkenler arasındaki bağımlılık ve ilişki yapısının yok edilmesini ve boyut
indirgemesini kapsayan tekniktir (Pektaş, 2013, s. 127).
Ayırma Analizi (Discriminant Analysis): Ayrıma analizi, veri setindeki gruplar
arasındaki farklıklara neden olan değişkenlerin belirlenmesini ve hangi gruptan geldiği
belli olmayan değerlerin hangi gruba ait olduğunu belirlenmesinde kullanılan
tekniktir. Bilgisayar desteği olmadan yapmanın imkansız olabileceği bu yöntem
bankalarda kredi skorlamada kullanılmaktadır. Kümeleme yöntemine çok benzeyen
ayırma analizinde, kümeleme analizinde önceden gruplar belirlenmemişken, ayırma
analizinde daha önceden ayrık gruplar belirlenmiştir (Weber, 2001, s. 62). Böylece
eldeki veri özelliğine göre daha önceden belirlenen hangi gruba yakınsa, o grubun
elemanı olarak atanır.
Kümeleme Analizi (Cluster Analysis): Yapısı hakkında kesin bilgilerin bulunmadığı
bir veri seti içindeki grupları ve/veya değişkenleri, birbirine benzer ve sayısı
belirlenmemiş alt kümelere ayırma yöntemidir. Aynı zamanda birbirine benzemeyen
değişkenler ayrıştırılmaktadır. Kümeleme Analizinde “benzerlik” ve “uzaklık”
kavramları önem kazanmaktadır. Kümeleme analizi, bir objeler kümesini, objeler arası
benzerlikleri temel alarak, daha homojen alt kümeleme, taksim etme işinde kullanılan
teknikler bütünüdür. Analiz birim ya da değişken gruplaşmalarının kesin olarak
bilinmediği durumlarda uygulanmakta ve analiz öncesinde tahmini bir sınıflama
yapılmamaktadır (Thiprungsri & Vasarhelyi, 2011, s. 69-70).
Zaman Serileri (Time Series): Zaman serisi herhangi bir olaya ilişkin elde edilen
değerlerin zamana göre sıralanmasıyla oluşturulan dizilerdir. Zaman serisi analizi
herhangi bir zaman serisinin yapısını modellemeyi, seride var olan düzensiz görünüm
veya dalgalanmaların nedenini belirlemeyi ve geçmiş dönemlere ilişkin değerleri
kullanarak geleceğe yönelik tahminler ve öngörüler oluşturmayı amaçlayan bir
metottur (Atlas, 2013, s. 139-140, Pektaş, 2013, s. 154). Zaman serisi analizleri
işletme, ekonomi, finans, doğa bilimleri ve pazarlama gibi birçok alanda geleceğe
dönük kararlar alımında kullanılmaktadır. Zaman serileri yıllık, aylık, günlük hatta
saatlik bile olabilmektedir. Burada önemli olan zaman değişkeninin aynı aralıklarda
olmasıdır, yani seri eğer aylık verilerden oluşuyorsa ardışık aylardan oluşmalıdır.
85
Zaman serisinin uzun bir dönemde belli bir yöne doğru gösterdiği eğilim; trend olarak
ifade edilmektedir. Trendler, özellikle zaman serisi grafiklerinde belli olmaktadır.
Trend denkleminin belirlenmesiyle, geleceğe dönük öngörüler oluşturma imkanı
sağlanır (Atlas, 2013, s. 159).
Tüm bu istatistiksel analizlerde veri kullanılmaktadır. Aşağıda Büyük Veri analiz
süreci ve teknikleri anlatılarak, istatistiksel analiz teknikleri ve sosyal bilimlerdeki araştırma
yöntemleriyle ilişkileri tartışılacaktır.
3.3.3.2. Büyük Veri Analiz Süreci
Bilişim teknolojilerinin gelişmesiyle birlikte üretilen veri miktarı hızla artmaktadır.
Ortaya çıkan devasa miktardaki ve birbirinden farklı yapılardaki verilerin analiz edilmesi de
teknolojik gelişmelerle sağlanmaktadır. Verinin analiz edilmesi tarih boyunca doğru karar
vermede etkili olmuştur. Verinin doğasında dağınıklık, karmaşıklık vardır, önemli olan bu
gibi zorlukları görerek veriye düzen vermek ve sahip olduğu değeri çıkarmaktır. Veri analizi;
verinin toplanmasından, düzenlenmesine, modellenmesinden sahip olduğu bilgiyi, değeri
ortaya çıkarmaya kadar olan bir dizi süreci ifade eder. Veri analizi de veri gibi disiplinler arası
bir kavram olduğu için farklı alanlarda farklı rollere sahiptir. Örneğin; iş zekası adı altında
işletme enformasyonlarıyla en doğru kararları vermede, yapay zeka ve makine öğreniminde
geleceği tahmin etmede, bazen veri madenciliği adı altında geleceğin tahmini için verideki
örüntüyü çıkarmada, bazen de istatistik alanında betimsel, çıkarımsal, doğrulayıcı olarak rol
oynamaktadır (Akpınar, 2014, s. 47).
Veri analizi farklı disiplinlerde farklı rollere sahip olsa da, işlevi temelde veriden
bilgiye ulaşmak, verinin sahip olduğu değer ve öngörüyü keşfetmek ve veride yatan deseni
çıkararak doğru kararlar vermek ve geleceği tahmin etmektir. Bunun için çeşitli istatistik ve
matematiksel yöntemler kullanılır. Ancak klasik anlamda istatistikte kullanılan veriler
yapılandırılmış ve satırlar-sütunlardan oluşmaktadır. Büyük Veri’de ise ham veri
yapılandırılmamış veya yarı yapılandırılmış yapıda olabilir. Yapılandırılmış veriler veri
tabanlarına kaydedilirken, Büyük Veri genellikle veri ambarlarında kaydedilmektedir. Veri
ambarları ise, veri madenciliği ve Büyük Veri analiz sürecinin gerçekleştirildiği veriyi tutan
özel veritabanlarıdır. Veri Ambarı, farklı kaynaklardan gelen ve genellikle de farklı
yapılardaki verinin depolandığı ve hepsinin aynı anda işlenebildiği veri tabanlarıdır (Fayyad
86
ve diğerleri, 1996). Veri ambarında saklanan veri, akan yani anlık veya gerçek zamana yakın
olarak üretilebilen bir özellikte olabilir. Veri ambarlarını analiz etmenin popüler
yöntemlerinden birisi Online Analytical Processing (OLAP)’dir. OLAP araçları, birçok
boyutta hesap özetleri ve tanımlamalarda SQL’den üstün olan çok boyutlu veri analizi sağlar.
OLAP araçları interaktif veri analizi sağlamayı hedeflediği halde, veritabanındaki araçların
hedefi süreci mümkün olduğunca otomatikleştirmektir (Cabena ve diğerleri, 1997, s. 195). Bu
yüzden de Büyük Veri’yi analiz etmek için daha teknolojik, daha özel analiz yöntemlerine,
algoritmalarına ihtiyaç duyulmaktadır. Bu özelliklere sahip olan Büyük Veri, veri biliminin de
ortaya çıkmasına sebep olmuştur (Gürsakal, 2014, s. 36-38). Büyük Veri analizi ile veri
madenciliği süreçleri aynı olup, tanımları arasında birçok ortaklıkları olsa da küçük
farklılıklar vardır. Bu farklılıklara veri madenciliği bölümünde değinilmiştir.
Veri analizi farklı görüşlere göre farklı süreçler içermektedir. Bu çalışmada Akpınar
(2014)’e göre olan veri analiz süreçleri baz alınmaktadır. Akpınar bu süreci, problemin
tanımlanması, verinin hazırlanması, modelin kurulması, yazılımın uygulanması ve yorumlama
olarak aşamalandırmıştır. Bu süreç incelenip, bu bağlamda sosyal bilimlerde araştırma
yöntemleri ve süreciyle de ortak noktalara değinilecektir. Daha sonra Büyük Veri analiz
yöntemleriyle sosyal bilimlerdeki analiz yöntemleri tartışılacaktır.
Problemi Belirlemek
Büyük Veri analizinin ilk şartı problemin belirlenmesidir. Problem belirlenmesi
araştırmanın ve araştırma analizinin gidişatını belirlemektedir. Hem sosyal bilimlerde hem de
Büyük Veri analiz süreçlerinde ortak olan problemin belirlenmesi aşamasında çözüme yönelik
amaç net bir şekilde ifade edilmelidir. Sosyal bilimlerde problem belirlendikten sonra
hipotezler kurulup, toplanan verilerle önceden belirlenen bu hipotezleri test etmek için
istatistiksel analizler yapılır. Ancak Büyük Veri analizinde problem ve amaç ortaya
konduktan sonra veriler toplanır ve toplanan verilerden ilişkiler, desenler, içgörüler
keşfedilebilmektedir (Oğuzlar, 2003).
87
Verinin Toplanması ve Ön İşleme Süreci
Problem belirlendikten sonra verinin elde edilmesi ve hazırlanması süreci başlar. Bu
süreç Büyük Veri analizlerinde toplam enerji ve zamanın %50 - %85’ini harcanmasına neden
olmaktadır (Akpınar, 2014, s. 77). Bu süreç Şekil 13’te gösterilmektedir.
Şekil 13: Veri Ön İşleme Aşamaları
Kaynak: Akpınar, H. (2014, s. 89). Data. İstanbul: Papatya Yayıncılık.
Veri ön işleme süreci veri entegrasyonu, veri temizleme, veri dönüştürme ve veri
indirgeme aşamalarını kapsamaktadır. Bu aşamalar aşağıda sırasıyla açıklanmaktadır.
Veri Entegrasyonu
Verinin birçok kaynaktan toplanması, seçilmesi ve bütünleştirilerek tek bir kaynakta
bir yerde bir araya getirilme adımıdır. Veri tabanları, veri ambarları, data mart ve bulut
bilişim gibi sistemlerde saklanmaktadır. Veri entegrasyonu farklı veri depolarında bulunan
verilerin bir araya getirilmesi ve tek kaynaktan kullanılması analiz sürecinde kolaylık
sağlamaktadır. Bilişim teknolojilerinin gelişmesiyle birlikte entegrasyon süreçleri ve
Veri Entegrasyo
nu
•Veri Konsolidasyonu
•Veri Yayınımı
•Veri Federasyonu
Veri Temizleme
•Veri Tutarsızlıklarının Saptanması
•Veride Parazit Azaltımı
•Eksik Verinin Tamamlanması
•Sıra Dışı Değer Analizi
Veri Dönüştürm
e
•Veri Normalleştirme
•Veri Standardizasyonu
•Sürekli Veri Dizisi Değerlerinin Kategorizasyonu
Veri İndirgeme
•Boyut Sayısının Azaltılması
•Öznitelik Alt Dizisinin Seçilmesi
•Faktör Analizi
•Örnekleme
İşleme
Hazır Veri
Gerçek
Dünya
Verisi
88
yöntemleri gelişmiştir. Veri entegrasyonu; veri konsolidasyonu(data consolidation), veri
yayınımı (data propagation) ve veri federasyonu (data federation) olmak üzere üç farklı
şekilde yapılmaktadır (Akpınar, 2014, s. 89-96).
Veri Konsolidasyonu faklı kaynaklarda yer alan verilerin tek bir fiziki kaynakta
birleştirilmesi
Veri Yayınımı farklı veri depolarında bulunan verilerin kopyalarının çıkartılması
ve kullanılmasını
Veri federasyonu ise farklı kaynaklarda bulunan verilerin sanal olarak
birleştirilmesidir. Bulut bilişim teknolojileridir.
Sosyal bilimlerdeki nicel, nitel veya karma araştırmalarda da toplanan verilerin bir
araya getirilmesi ve tek kaynaktan devam etmesi durumu mevcuttur. Örneğin bir nicel
araştırmada veri toplama araçlarından biri olan ankette, veriler yüz yüze, telefon yoluyla, e-
mail yoluyla ve internet üzerinden toplanabilir. Anket verilerinin toplama yöntemleri farklı
olsa da tek bir depoda toplanıp analiz edilmesi araştırmaya kolaylık sağlayacaktır.
Veri Temizleme
Analizin amacına uygun olarak verilerin istenen özellikleri dışında, verideki
parazitlerin temizlenmesi, eksik verilerin düzeltilmesi, verilerdeki tutarsızlıkların saptanıp
giderilmesi, tekrarlı kayıtlardaki verilerin temizlenmesi sürecidir. Bu süreçte izlenecek
yöntemler;
Hatalı değer içeren verilerin atılması ve ihmal edilmesi
Kayıp değerlerin yerine sabit bir değer kullanılması
Değişkenin ortalama değerinin eksik değerler yerine kullanımı
Mevcut verilerle regresyon veya karar ağacı gibi yöntemlerle tahminler yapılıp, eksik
verilerin yerine bu tahmin sonuçları kullanılabilir (Han ve diğerleri, 2012, s. 61-62)
Veri Dönüştürme
Veri dönüştürme, verilerden doğru sonuçlar elde etmek için uygulanacak analiz
yöntemine göre verilerin uygun formlara dönüştürülme sürecidir. Bu süreçte verinin farklı
89
yöntemler kullanılmaktadır ve en çok kullanılan yöntemler ise veri normalleştirmesi ve veri
standartlaştırması ve sürekli veri dizisi değerlerinin kategorileştirilmesidir.
Veri normalizasyonu ve standardizasyonu en sık kullanılan ve veri dizisinde bulunan
değerlerinin min-max normalleştirme yöntemiyle [0,+1] arasında değerlere
dönüştürülmesi veya değerlerin z-skorlarının hesaplanarak yapılan dönüştürme şekilde
dönüştür işlemidir.
Sürekli veri dizisi değerlerinin kategorilere ayırma işlemi ise verilerin aralık etiketleri
veya kavramsal etiketlerle dönüştürmektir. Örneğin yaş verilerinin 0-20, 20-40 ve 40-
60 gibi aralıklara veya genç/orta yaş/yaşlı gibi kavramlara dönüştürülmesidir.
Veri İndirgeme
Veri hacminin çok büyümesi ve verinin günümüzde sadece miktarı değil veri hızı,
veri çeşitliliği gibi farklı boyutlarıda olması verinin analizini güçlendirmektedir. Verinin sahip
olduğu değişkenlerin, boyutun farklı yöntemlerle azaltılmasına veri indirgemesi denmektedir.
Bunu yaparken aşağıdaki yöntemlerden faydalanılmaktadır (Özkan, 2013, s. 41-42).
Verilerin boyutlarını ve boyut sayısını indirgemek; kendi içinde yüksek
korelasyona sahip verilerin tekrar tekrar kullanılması yerine bu verilerin
temel özniteliklerine uygun temsil edilmesidir. Bu indirgemede analize dâhil
edilecek boyut sayısını belirlemek için makine öğrenimi ve istatistikte faktör
analiz yöntemleri uygundur.
Örnekleme; eldeki toplam verinin belirli bir kısmı çeşitli yöntemlerle
seçilerek ana kütleyi temsil etmesidir.
Veri sıkıştırma, veriyi genelleme gibi farklı yöntemlerde mevcuttur.
Gelişen teknolojiyle birlikte Google veri indirgemede Eşleİndirge (MapReduce)
adında modelini geliştirdi. Bu model Büyük Veri analizinde de en çok bilinen çerçevelerden
biri olan Hadoop’un iki bileşeninden biridir. Eşle (map), indirge (reduce) olan bu modelde
büyük ölçekli veriler analiz öncesinde parçalara ayırarak sunucululara dağıtılmaktadır. Bu
sunuculara düğüm adı verilmektedir. Daha sonra bu sistemler paralel olarak çalışırlar çünkü
paralel çalışmaları her hangi bir arızada sistem kendini tolere edebiliyor olmasını
90
sağlamaktadır. Sunuculardaki veriler, uygulanan eşle fonksiyon kodlarına göre <anahtar,
değer> çiftlerine dönüştürülür. Her bir eşle ile oluşan bütün çiftlerinde aynı anahtar değeri
eşlenip, oluşan çiftelerde indirgenir (Rajaraman ve diğerleri, 2014).
Model Uygulama ve Sonucun Değerlendirilmesi
Veri işleme hazır hale getirildikten sonra amaca ve verilere uygun analiz edecek
model belirlenir, sonra gereken teknik ve yöntem uygulanır. Bu yöntemler birbiriyle
ilişkilidirler ve veriye tek bir yöntem uygulanabildiği gibi birkaç yöntem birlikte
uygulanabilir. Sınıflandırma, kümeleme, regresyon gibi bazı yöntemler ve istatistikle
yakından ilişkilidir. Ayrıca Büyük Veri çağında makine öğrenmesi, yapay zeka algoritmaları,
ağ analizi gibi çeşitli yöntemlerde teknoloji sayesinde ortaya çıkmıştır. Yapılan analizler
ardından oluşan sonuçların yorumlanması ve sonuçların hedeflere uygun olup olmadığı, veri
içindeki desenlerin, çıkarımların keşfedilmesidir.
Veri ön işlemeden, verinin analizine kadar olan süreç, sosyal bilimlerdeki araştırma
süreçleriyle benzer özellik taşımaktadır. Özellikle nicel araştırmalarda anket yöntemi veya
internet, blog tarama gibi teknolojik gelişmelerin getirmiş olduğu yeni yöntemlerle elde edilen
verilerin geçirmiş olduğu aşamalarla, Büyük Veri analiz için toplanan verilerin aşamaları
örtüşmektedir. Her ikisinde de verilerin toplanması, temizlenmesi, analiz edecek platforma
göre dönüştürülmesi ve gerekirse verilerin indirgenmesi mevcuttur. Veri indirgeme
basamaklarında kullanılan örneklem mantığı da sosyal bilimlerdeki örneklem almakla ve
mevcut istatistiksek analiz tekniklerinden faktör analizi ve temel bileşenler analizi ve ayrıma
analizleriyle örtüşmektedir. Analiz aşamasında yer alan yöntem ve tekniklerinden regresyon,
kümeleme aslında istatistiksel analiz teknikleridir.
3.3.3.3. Büyük Veri Analiz Yöntem ve Teknikleri
Büyük Veri’nin depolanması, görselleştirilmesi, işlenmesi ve analizi için çeşitli
yöntem ve teknolojik yazılımlar geliştirilmekte ve geliştirilmeye devam edilmektedir. Bu
yöntem ve araçlar istatistik, bilgisayar, matematik ve ekonomi gibi çeşitli disiplinlerden
beslenmektedir. Farklı alanlardan beslenen Büyük Veri, sahip olduğu değer ve örüntülerin
ortaya çıkarılması, analiz edilebilmesi içinde multidisipliner yaklaşımlara ihtiyaç
duyulmaktadır ve bu yeni alanı da insanlar veri bilimi olarak adlandırmaktadır. Bu yöntem ve
91
tekniklerden bazıları daha küçük veri setlerinin analizi için geliştirilmiştir ancak süreç içinde
devasa veri setlerine de uygulanabilir özelliklerle donatılmış olsa da son zamanlarda bazı
teknikler Büyük Veri için geliştirilmiştir. Bu bölümde hem Büyük Veri öncesinde geliştirilen
hem de güncel yöntemlere değinilecektir. Fikir madenciliği ve görselleştirme gibi yeni
yöntem ve teknikler özelikle çevrimiçi iş modeller için geleceği tahmin etmede önemli
çıkarımlar sunmaktadır.
Bu bölümde Büyük Veri analizinde kullanılan yöntem ve teknikler açıklanacak ve bu
yöntemlerle sosyal bilimlerde kullanılan analiz yöntemleri arasındaki ilişki ve fark olup
olmadığı tartışılacaktır. Sosyal bilimlerde kullanılan analiz yöntemlerinin Büyük Veri
analizinde kullanılıp kullanılamayacağı üzerine durulacaktır. Büyük Veri analizinde
kullanılan bu yöntem ve tekniklerin tamamı Büyük Veri için tasarlanmamıştır. Kimisi Büyük
Veri öncesinde de istatiksel analiz tekniği olarak kullanılmaktaydı. Bu yöntem ve teknikleri
hepsi Büyük Veri’den değer, içgörü, örüntü ve geleceği tahmin etmek için kullanılmaktadır.
Bu tez çalışmasında Büyük Veri analizinde kullanılan yöntem ve teknikler, Manyika ve
diğerleri (2011, s.27)’nin ele aldığı konular çerçevesinde olacaktır.
Yeni çıkan yöntemler daha çok veri bilimi bünyesinde olup, Büyük Veri’yle birlikte
önemleri daha da artmıştır. Kimi kaynaklar Büyük Veri analizini veri madenciliği olarak
adlandırsa da Gürsakal (2014) veri bilimi ve veri madenciliğinin çeşitli noktalarda farklılıklar
belirttiğini ifade etmektedir. Veri bilimi, veri madenciliği ve istatistiğin farkları Tablo 13’de
gösterilmektedir.
Tablo 13:Veri Bilimi, İstatistik ve Veri Madenciliği Arasındaki Farklar
Özellik İstatistik Veri
Madenciliği
Veri
Bilimi
Varsayımlara dayanmak Var Yok Yok
Veri ürünleri üretmek Yok Yok Var
Yapılandırılmamış ve yarı yapılandırılmış
verilerle çalışmak Yok Yok/Var Var
Hız ve miktar anlamında Büyük Veri ile çalışmak Yok Yok/Var Var
Kaynak: Gürsakal (2014, s. 43)
Gürsakal (2014, s. 43) istatistiğin varsayımlara dayandığının, veri madenciliği ve
Büyük Veri’nin ise varsayımlara değil, veride mevcut duruma dayandığının altını
çizmektedir. Ayrıca, veri madenciliğinde yapılandırılmamış ve yarı yapılandırılmış verilerle
92
çalışmak ve hız ve miktar anlamında Büyük Veri’yle çalışmak durumlarında yer alan “var”
ifadelerinin çok yeni özelik olduğunu belirtmektedir. Bu yeniliklerle birlikte veri bilimi ile
veri madenciliği birlikte anılmaktadır. Büyük Veri analiz yöntemleriyle veri madenciliği
yöntemleri aynı amaca hizmet etmektedir; ikisinin de amacı veride bulunan değeri çıkarmak
ve geleceği tahmin etmektir. Her ikisi de birçok uygulamasında istatistiksel çıktılara göre
işlemektedir.
Veri Madenciliği (Data Mining)
Veri madenciliği, Büyük Veri analizlerinde kullanılan kümeleme, sınıflandırma,
birliktelik kuralı ve regresyon gibi çeşitli yöntem ve teknikleri bünyesinde bulundurmaktadır.
Veri madenciliğinin de Büyük Veri gibi tam ve tek bir tanımı bulunmamaktadır. Gelişmekte
olan ve disiplinlerarası bir kavram olduğu için farklı tanımlamaları mevcuttur. Veri
madenciliğinin en genel tanımı veri setlerinde bulunan değerli bilgiyi keşfetmektir (Sumathi
& Sivanandam, 2006, s. 9). Başka bir tanıma göre veri madenciliği; devasa miktardaki veri
içinden, geleceği tahmin etmemize ve öngörüde bulunmamıza neden olacak bağıntı ve
kuralların bilgisayar programları aracılığıyla keşfedilmesi ve verinin analizidir. Ayrıca, çok
büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya
yardımcı olan veri analizi tekniğidir (Alpaydın, 2000).
Veri madenciliği, büyük miktardaki verinin içinde gizli kalmış ilişkileri açığa
çıkararak müşterilerin mevcut veya ilerdeki davranışlarını tahmin etmek için kullanılan
modelleri içerir. Veri madenciliği, raporlama ve OLAP araçlarından farklı olarak boyutları
kullanıcının belirlediği bir ortam değil, bu boyutların ne olduğunun ortaya çıkarıldığı bir
ortamdır. Standart raporlama araçlarında cevap aranan örnek bir soru “şirketimizin
kampanyası sonucunda kredi kartı kullanmaya başlayan müşterilerin yaşa göre dağılımı
nedir?” gibi bir sorudur. Veri Madenciliği ile mevcut durumu sorgulamak yerine,
“yapacağımız kampanyada hedefleyeceğimiz müşteri kitlesi ne olmalıdır?” gibi geleceğe
dönük yönlendirici sorulara cevap aranmaktadır (Oracle, 2003, s. 118).
Veri madenciliğiyle gelen yenilikleri Saporta (2000) şöyle sıralamaktadır;
Çok büyük veri tabanlarına erişim imkanı
Otomatik olarak veri toplama
93
Bilgisayar bilimlerinden gelen yeni teknikler
Hedef kitlelerdeki kullanıcılara kişeye özel teklifler ve çözümler
Veri analisti olarak karar vericilere yönelik daha kullanıcı dostu, arayüzü
daha kolay ve yeni yazılım paketleri
Veri madenciliğini bünyesindeki tekniklerle çeşitlilik gösterse de en genel yaklaşım
Maiomon ve Rokach’a aittir. Veri madenciliği taksonomisi olarak adlandırdıkları çerçevede
yer alan yöntem ve teknikler Şekil 14’de gösterilmiştir (Maimon & Rokach, 2010).
Şekil 14: Veri Madenciliği Yöntemleri
Kaynak: Maimon, O., & Rokach, L. (2010, s. 6). Data Mining and Knowledge Discovery
Handbook. New York: Springer.
Keşifsel yöntemler verideki örüntüleri, veride görülmeyen değerleri bulmaya ve
veriyi anlamaya çalışır. Öte yandan doğrulayıcı yöntemler ise dışarıdan genelde uzmanlarca
önceden ortaya konan hipotezleri test etmeye odaklanmaktadır. Doğrulayıcı yöntemlerin çoğu
geleneksel istatistik yöntemleriyle alakalıdır ve veri sayısı azdır. Örneğin t-testi, varyans
analizi gibi testler doğrulayıcı yöntemlere girmektedir ve keşifsel yöntemlere göre veri
madenciliği ile daha az ilişkilidir çünkü veri madenciliği hipotezleri test etmekten daha çok
veride yatan hipotezleri keşfetmeyle ilgili problemlerdir (Maimon & Rokach, 2010, s. 6-7).
Sosyal bilimlerde geleneksel araştırmalarda çoğunlukla hipotez testleri yer almaktadır ve bu
testler araştırmayı yapanlar tarafından önceden oluşturulmakta ve daha veriler toplandıktan
Veri Madenciliği
Keşifsel
Betimsel Yöntemler
Kümeleme Birliktelik
Kuralı
Çıkarımsal Yöntemler
Sınıflandırma Regresyon
Doğrulayıcı
94
sonra, hipotezler test edilmektedir. Veri madenciliği çalışmasını esas olarak bir istatistik
uygulaması olarak ifade eden Pektaş; son elli yılda özellikle çok değişkenli istatistiksel analiz
tekniklerinin sayısının arttığını belirtmektedir. Bu teknikleri; hipotez testleri, varyans
analizleri, korelasyon, regresyon, kümeleme, sınıflandırma ve zaman serileri ve bunların alt
dalları olarak ifade etmektedir (Pektaş, 2013, s. 103). Veri madenciliğinin de temelini
oluşturan bu istatistiksel teknikler Büyük Veri’nin de analizinde kullanılarak, onun
anlamlandırılmasını sağlamaktadır.
Veri madenciliği yöntemleri daha detaylıdır ancak bu tez çerçevesinde veri
madenciliği yöntemlerinden kümeleme, birliktelik kuralı ve sınıflandırma yöntemleri üzerinde
durulacak ve sosyal bilimlerde araştırma yöntemleri ve mevcut istatistiksel yöntemlerle
ilişkileri tartışılacaktır. Veri madenciliği ve Büyük Veri analizinde literatürde bulunan çeşitli
teknik ve yöntemler aşağıda belirtilmektedir.
Kümeleme (Küme Analizi)
Veri tabanlarında yer alan nesneleri özelliklerine göre gruplara ayırmayı sağlayan
istatistiksel bir tekniktir. Kümeleme birbirine çok benzer özellikler taşıyan nesneleri bulup
aynı grup altına almak veya birbirinden çok farklı özellikler barındıran nesneleri ayrık
kümelere koymayı amaçlamaktadır (Two Crows Corporation, 1998). Kümeleme analizi birim
ya da değişken gruplaşmalarının kesin olarak bilinmediği durumlarda uygulanmakta ve analiz
öncesinde tahmini bir sınıflama yapılmamaktadır. Bu yüzden kümeleme analizi denetimsiz
öğrenmedir yani örneklere dayalı değil gözleme dayalı öğrenme şekillerinden biridir (Han, ve
diğerleri, 2012, s. 445). Kümeleme analizi de hemen hemen tüm bilim alanlarında kullanılan
bir yöntem olmakla beraber tıp, biyoloji, sosyoloji, psikoloji, arkeoloji ve ormancılık gibi
belirsizliklerin ve karmaşık yapıların fazla olduğu bilim alanlarında daha yoğun
kullanılmaktadır. Kümeleme analizinde nesnelerin özniteliklerine göre gruplandırma
yapılmaktadır. Bağımlı değişken y değerleri bulunmadığından dolayı değişkenler arasında bir
bağlantı kurulamadığı için kümeleme analizi makine öğrenme yaklaşımına göre denetimsiz
öğrenme olarak ifade edilmektedir. Nesneler öznitelik değerlerinin benzerliğine göre
kümelendiği için bu değerlerin yakınlıkları, uzaklıkları veya veri kümesinde yoğunluk
gösterdikleri bölgeler gibi çeşitli yöntemler kullanılır (Akpınar, 2014, s. 69-70). Kümeleme,
verileri sahip oldukları özelliklerinden, öz niteliklerinden dolayı yeni kategorilere
95
ayırdığından dolayı betimsel yöntemlerdendir. Çıkarım yapılmamakta sadece nesnelerin
özelliklerine göre ayrım yapılmaktadır (Rokach, 2010, s. 269). Şekil 19’da kümeleme örneği
verilmiştir.
Şekil 15: Kümeleme Örneği
Kaynak: Tang, Z., & MacLennan, J. (2005, s.7). Data Mining with SQL Server 2005.
Indiana: Wiley.
Temelleri antropoloji ve tipolojiye dayanan kümeleme yöntemleri 1990’lı yıllara
kadar sadece hiyerarşik küme analizi ile tek başlıktayken, internet verilerinin artmasıyla
birlikte yeni yöntemler gelişmiştir. Bunlar başlıca bölümleyici, yoğunluk temelli kümeleme
analizleri, ızgara temelli ve alt uzay arama algoritmaları gelişmiştir (Akpınar, 2014, s. 298,
Han ve diğerleri, 2001).
Kümeleme analiz yöntemleri antropoloji, telekomünikasyon, sosyoloji, jeoloji ve tıp
gibi birçok alanda kullanılmaktadır. Makine öğrenimi ile daha da önem kazanan kümeleme
algoritmaları örüntü tanıma, konuşma tanıma, görüntü ve ses işleme ve sosyal ağ analizlerinde
de etkilidir. Sosyal bilimlerde ise en yoğun olarak pazar araştırmalarında rol oynamaktadır.
Tüketicilerin tercihlerine, coğrafi durumlarına ve demografik yapılarına göre, satın alma
davranışları gibi çeşitli özelliklerine göre gruplara ayrılmasında ve bu gruplara ürünlerin
pazarlanmasında kolaylık sağlamaktadır (Sarstedt & Mooi, 2014, s. 276-277). Diğer bir etkin
kullanım alanı ise sosyal ağ analizi araştırmalarında benzer nitelikteki grupların ve alt
96
grupların belirlenmesinde veya farklılıklarının ortaya konmasında kullanılmaktadır
(Nussbaum ve diğerleri, 2010, s. 381). Bunların dışında kümeleme analizi internet üzerinden
Web sayfalarında (Wu ve diğerleri, 2004), DNA analizinde de (Ben-Dor ve diğerleri, 1999)
kullanılmaktadır.
Çeşitli disiplinlerde kullanılan kümeleme analizin temeli, istatistikteki kümeleme
tekniğine dayanmaktadır. Hem Büyük Veri analizi hem de betimsel istatistikte çok değişkenli
analiz tekniklerinden biridir. Yeni iletişim ortamlarında kullanılan araştırma yöntemlerinden
özellikle Web aramadaki birçok uygulamada görülmektedir. Anahtar kelime aramalarında,
blog madenciliğinde taranan anahtar kelimelerin ilişkili olduğu kavramlara göre
sıralanmasında, trend topiklerin ortaya çıkarılmasında kümeleme analizi kullanılmaktadır.
Birliktelik Kuralı Analizi (Association rules)
Veri madenciliğinde betimsel yöntemlerden diğeri ise birliktelik kuralı (association
rules) veya bağlantı analizi olarak adlandırılmaktadır. Belirli değişkenlerin birlikte olma
durumlarını ve birlikte bulunma kurallarını olasılıklarla ortaya koyan modeldir (Agrawal &
Srikant, 1994). Büyük Veri’deki birliktelik kurallarının ortaya çıkarılması için geliştirilen
çeşitli algoritmalar geliştirilmiştir. Bu algoritmaları, Silahtaroğlu (2013, s. 140) aşağıdaki gibi
sınıflandırmaktadır.
AIS Algoritması
SETM Algoritması
APRIORI Algoritması
AprioriTid Algoritması
Birliktelik kurallarının en çok kullanıldığı alan pazarlamadır. Parakende satışlarda
müşterilerin satın alma alışkanlıklarını ve eğilimleri saptamak amacıyla kullanılır.
Müşterilerin aldıkları ürünlerdeki birlikteliği ortaya çıkarmaya çalışan model Pazar Sepet
Analizi olarak adlandırılmaktadır ve en çok bilinen birliktelik kuralı modellerindendir.
Müşterilerin her seferinde aldıkları ürünler arasındaki birliktelik kurallarını ve olasılıklarını
keşfederek, hangi müşteri hangi ürünü diğer hangi ürünle birlikte aldığı belirlenir. Böylece
müşterilere bireysel olarak, kişiye özel teklifler ve pazarlama stratejileri geliştirilmesinde, en
önemli ürünlerin belirlenmesinde, mağaza içi stantların yerleştirilmesinde etkilidir (Han ve
97
diğerleri 2012, s. 45). Örneğin özellikle e-ticarette birçok şirketten ürün aldığınızda başka
ürünleri de size öneri olarak sunmaktadır. Bu öneri sistemlerinin gelişmesinde etkili olan
yöntem birliktelik analizidir. Mesela, Amazon kitap önerilerinde BookMatcher adlı programı
kullanarak müşterilerine kitap önermektedir.
Örneğin bira alan kişiler bir marketin %30’unu oluşturmaktadır. Bira alanların da
%2’si aynı zamanda çocuk bezi de satın almaktadır. Burada %30 güven seviyesini ve %2 ise
destek seviyesini göstermektedir. Veri tabanlarında birliktelik kurallarının etkili olabilmesi
için destek ve güven değerlerinin belirli bir eşiğin üzerinde olması gerekir. Destek seviyesi
ve güven değeri ne kadar yükseltilirse birliktelik kuralı değeri ve olasılığı da o kadar yüksek
olacaktır. Böylece veride bulunan değere ulaşma kolaylaşacak, daha doğru kararlar
verilmesine destek olunacaktır (KrishnaKumar ve diğerleri, 2013).
Destek seviyesi ve güven değerleri birliktelik analizi modellerinden Apriori
algoritmalarında daha çok kullanılmaktadır. Eşik değerlerini aşan büyüklüklerde veri
tabanları sürekli taranarak her ürün için tekrar sayıları yani destek sayıları hesaplanır ve eşik
destek değerinin altında olan değerler ihmal edilir. Daha sonra ürünler ikişerli gruplamalar
yapılarak aynı süreçten geçirilir ve yine eşik değerinin altında olan ihmal edilir ve bu kural
üçerli, dörderli devam eder. Ürün gruplarında yatan birliktelik kuralları böylece çıkartılır
(Özkan, 2013, s. 159).
Birliktelik kural analizi sosyal bilimlerde de kullanılan bir analizdir. Özellikle
pazarlama sektörü en çok kullanılan alanlardandır. İstatistikte korelasyon, sıklık analizi,
frekans analizi gibi betimsel istatistik yöntemlerinde ve çıkarımsal istatistikte
kullanılmaktadır. Bunun yanında yeni iletişim ortamlarından olan blogların taranmasında
kullanılan çeşitli yazılımların çalışmasında da birliktelik kuralından faydalanılmaktadır.
Örneğin bloglarda hangi kelimelerin birlikte yazıldığı veya birlikte arandığını bazı blog
tarama araçları tarafından araştırmacılara sunulmaktadırlar. Blog tarama araçlarında biri olan
Sysmos, piyasa araştırmalarında en çok birlikte kullanılan sözcükleri sıralayarak,
pazarlamacılara yön vermektedir.
98
Sınıflandırma (Classification)
Veri madenciliği tekniklerinden en çok bilinen yöntemlerden birisi olan
sınıflandırma; bir nesnenin özelliklerine göre hangi gruba ait olduğunu belirlemektir. Tahmin
edici yöntemlerden olan sınıflandırmada, var olan verilerden örüntü keşfedilir ve yeni
eklenecek nesnelerin hangi sınıfta yer alacağı tahmin edilir. Eldeki veriler eski bir
veritabanından da alınabilir veya bir deney sonucu ortay çıkmış veriler veya internetten elde
edilen verilerde olabilir, önemli olan eldeki verilerden örüntü çıkarıp, gelecek ögelerin hangi
sınıfa atanacağını makinelerin kestirmesidir (Two Crows Corporation, 1998, s. 10).
Sınıflandırma, eldeki bağımsız değişkenlerle, yeni gelecek bağımlı değişkenlerinin
gelecekteki değerlerinin belirlenmesi istatistik ve makine öğrenimi altındadır. Sınıflandırma
teknikleri de bu bağlamda istatistiğe dayalı algoritmalar ve makina öğrenimine dayalı olarak
birbirinden bağımsız ama aynı amaca hizmet eden çeşitli yöntemler geliştirilmiştir. Akpınar (
2014, s. 186-188) sınıflandırma işlemi gerçekleştiren bu yöntem ve teknikleri şöyle ifade
etmektedir.
Lineer diskriminant analizi
Karar ağaçları
Yapay sinir ağları
Karar ağaçları
K-en yakın komşu yöntemi
Destek Vektör Makineleri
Bu yöntem ve tekniklerin akademik çalışmalardaki kullanımın ne yoğunlukta
olduğuna dair araştırma diğer bölümde verilecektir. Sınıflandırma yöntemleri makine
öğrenimi literatürüne göre denetimli öğrenme (supervised learning) başlığı altındadır. Ayrıca
bu yöntemlerin geliştirilmesinde bulanık mantık (fuzzy logic) etki etmektedir (Akpınar, 2014,
s. 69). Makine öğrenimi de bulanık mantıkta temelde olasılık tekniklerinden
faydalanmaktadırlar.
99
Yapay Sinir Ağları (Artificial Neural Network)
Yapay sinir ağları (YSA) biyolojik sinir ağlarının çalışması ve yapısından
esinlenerek oluşturulmuş modeldir. Yapay sinir ağları verideki örüntüyü bulmak içindir.
Özellikle linear olmayan örüntülerin bulunması ve optimizasyonda kullanılmaktadır
(Zikopoulos, 2012). Yapay sinir ağlarını kullanan makine öğreniminin temel prensibi
canlıların öğrenme sürecine dayanmaktadır. Yani geçmiş deneyimlerin yardımıyla yeni şeyler
öğrenen canlıların öğrenme süreçlerini makinelere uygulamaktır (Sharma, 2014, s. 11). Yapay
sinir ağları bazı kaynaklarda paralel dağıtılmış işleme modeli olarak da anılmaktadır. YSA
modelleri Paralel Dağıtılmış İşleme Modelleri (parallel distributed processing) olarak da
adlandırılmaktadır ve yüksek hesaplama hızlarının gerekli olduğu, özellikle konuşma ve
görüntü algılama gibi çeşitli sahalarda etkin kullanılmaktadır (Akpınar, 2014, s. 239). Yapay
sinir ağları veri analiz yöntemlerinden hem tanımlayıcı hem de tahmin edici yöntemlerde
ortak olarak kullanılmaktadır.
Genel olarak yapay sinir ağları modellerini,
Ağın yapısına,
o İleri Beslemeli (feed forward)
o Geri Beslemeli (feed back)
Ağda yer alan düğümlerin özelliklerine,
Kullanılan eşik fonksiyonunun deterministik veya skolastik oluşuna,
Düğüme sadece analog/ikil veya sürekli değerlerin uygulanabilmesine,
Eğitim ve öğrenme kurallarına
göre sınıflandırmak mümkündür (Akpınar, 2014, s. 264).
Yapay sinir ağlarının geleneksel analiz yöntemlerinden farkı; aynı görev üzerine aynı
anda birbirinden bağımsız hesaplama kaynaklarının çalışmalarıdır. Bu durum paralel işlem
olarak da adlandırılır. Burada temel prensip, bir problemi veya veriyi bağımsız işlemcilere
ayırılması ve bağımsız çalışan bu işlemcilerdeki verilerin birleştirilip analiz edilmesidir.
Büyük Veri analizinde kullanılan paralel işleme modellerinden en yaygın olanları MPI
100
(Message Passing Interface), MapReduce ve Dryad modelleridir. Bu modellerin
karşılaştırılmaları Tablo 14’te gösterilmiştir.
Tablo 14: Paralel İşleme Modelleri ve Özellikleri
Kaynak: Chen ve diğerleri (2014, s. 54)
Sosyal bilimlerde kullanılan geleneksel araştırma yöntemlerinde veri bir bütün olarak
değerlendirip, analizler tek bir bütün üzerine yapılırken, yapay sinir ağ modelleri vasıtasıyla
veri birbirinden bağımsız işlemcilere ayrıştırılır ve her bir işlemci bağımsız çalışır.
Bu modellere dayandırılarak Büyük Veri analizinde ileri sistemler geliştirilmiştir. Bu
sistemlerden Pig ve Hive MapReduce, Scope ve DdryadLINQ ise Dryad modellerini
kullanmaktadır (Chen ve diğerleri, 2014, s. 53). Yapay sinir ağ uygulamaları yüz tanıma,
MPI MapReduce Dryad
Dağıtım
Hesaplama düğümü ve
veri depolaması ayrı
ayrı yapılır.
Hesaplama ve veri
depolama ve aynı
düğümde yapılır.
Hesaplama ve veri
depolama ve aynı
düğümde yapılır.
Kaynak
Yönetimi Yok
Workqueue(google)
HOD(Yahoo) Net değil
Düşük Seviye
Programlama MPI API MapReduce API Dryad API
Yüksek Seviye
Programlama Null Pig, Hive, Jaql... Scope, DryadLINQ
Veri Depolama Yerel Dosyalama
Sistemi, NFS...
GFS(Google),
HDFS(Hadoop),
Amazon S3
NTFS, Cosmos DFS
Görev Ayrımı Kullanıcı tarafından Otomatik Otomatik
Bağlantı Mesajlaşma, uzaktan
erişim Dosyalar
Dosyalar, TCP Pipes,
Paylaşılan FIFOlar
Arızaya
Dayanıklılık Kontrol Noktası Görevi tekrarlama Görevi tekrarlama
101
kredi kararlarının verilmesi, el yazısı tanıma, işletmelerin finansal durumlarının
derecelendirilmesi ve dolandırıcılık tespiti gibi farklı alanlarda etkin olarak kullanılmaktadır.
Geleneksel yöntemlerle karmaşık ve canlı sistemlerdeki algoritmaları tanımlamak ve
analiz etmek zordur. Yapan sinir ağları programlanması zor olan veya mümkün olmayan
sistemler için geliştirilmiş ve eş zamanlı bilgi işlemektedir. Çok miktarlardaki verilerin analiz
araçlarının birçoğunda kullanılmaktadır. Geleneksel araştırmalardaki önemli sorunlardan
biride verilerin toplandıktan bir süre sonra analiz edilmesidir. Ancak araştırma yöntemlerinde
sadece verinin toplanır toplanmaz eş zamanlı olarak analiz edilmesini savunan
temellendirilmiş kuram çalışmaları bu anlamda Büyük Veri’nin analiz felsefesine yakındır.
Ancak temellendirilmiş kuram çalışmalarının da internet üzerinden yapılış örneklerine
rastlanmamıştır. Büyük Veri analizinde kullanılan yöntem ve tekniklerden yapay sinir ağları
geleneksel yöntemlerden farklı çalışırken, diğerleri mevcut istatistiksel yöntemlerle ve
araştırma yöntemleriyle ilişkilendirilmektedir.
Metin Madenciliği (Text Mining)
Metin Madenciliği, serbest metin formatında bulunan verilerin yapılandırılmış hale
getirilerek analiz edilmesi ve değerli bilginin elde edilmesi esasına dayanmaktadır. Metin
madenciliği, çok büyük belgelerin analizi ve metin tabanlı verinin içerisindeki gizli
örüntülerin elde edilmesidir (Gharehchopogh & Khalifelu, 2011, s. 2). Metin madenciliğinin
en temel özelliği tamamen yapısal olmayan veriler üzerinde odaklanmış olmasıdır.
Metin madenciliği doğal yazı dilinde desenlere bakan bir teknolojidir (Prytherch,
2005, s. 688). Yapısal olmayan metinlerden bilgi keşfi yapılmasını sağlar. Yaygın olarak aynı
konuda yazılmış belgeleri bulmak, birbiriyle ilişkili belgeleri bulmak ve kavramlar arası
ilişkileri keşfetmek için kullanılır. Doğal Dil İşleme (Natural Language Processing), Bilişsel
Bilimler (Cognitive Sciences) ve Makine Öğrenmesi (Machine Learning) gibi bilimlerle ortak
çalışan bir araştırma alanıdır (Yıldırım ve diğerleri, 2008, s. 430).
Metin madenciliği konusundaki ilk seminerleri sırasıyla 1999 yılı Temmuz ve
Ağustos aylarında, “The International Machine Learning Conference” ve “The International
Joint Conference on Artificial Intelligence” sırasında gerçekleşmiştir. Metin madenciliği
konusundaki ilk çalışmalar basit metin sorguları ile başlamıştır. En başta bu yöntemle bilgi
102
getirme (information retrieval‐IR) mümkün olmuş, ancak bilgi çıkarımı (information
extraction) gerçekleştirilememiştir. Basit sorgularla başlayan sorgulama yöntemleri zaman
içinde iyileştirilmiş ve farklı tekniklerle geliştirilmiştir. Dolayısıyla metin madenciliğine
ilişkin yaklaşımların çoğu bu süreç doğrultusunda açıklanmıştır. Örneğin Han ve Kamber
(2006) tarafından oluşturulan metin madenciliğinin temel yaklaşımları Tablo 15’te
gösterilmiştir.
Tablo 15 : Metin Madenciliği Yaklaşımları
Anahtar kelime kökenli yaklaşımlar
Bu yaklaşımda girdi (veri) dokümanlardaki terim
veya anahtar kelimelerin bir setidir. Nispeten sığ
düzeyde sadece ilişki keşfi gerçekleşir. Örneğin
en az anlamla desenler meydana getirme (terörist
ve patlama gibi). Bu yaklaşım metne derin
anlama getirmez.
Etiket yaklaşımı
Bu yaklaşımda girdi (veri), veri etiketlerinin bir
setidir. Yaklaşım, manuel etiketleme ile sağlanan
etiketler temeline dayanır, ancak bu zordur ve
dokümanların büyük koleksiyonları için
uygulanamaz. Kategorileri önceden tanımlamak
şartıyla, etiketlerin nispeten küçük setini işleme
tabi tutan bazı sınıflama algoritmaları da bu
yaklaşım çerçevesinde değerlendirilir
Bilgi çıkarma yaklaşımı
Girdiler; olaylar, gerçekler, kişiler gibi anlamsal
enformasyonlardır. Bu yaklaşım daha gelişmiştir
ve derin bilginin keşfine yol gösterir ama doğal
dil anlama ve makine öğrenmesi metotlarıyla
metnin semantik analizine ihtiyaç duyar. Bu,
zorlu ve fırsatlarla dolu bir bilgi keşfi görevidir.
Kaynak: Han ve diğerleri (2012, s. 624)
Metin madenciliği anahtar kelimeler, etiketler ve semantik veriler üzerine uyguna
bilmektedir. Böylece metin madenciliğinin görevleri ortaya çıkmaktadır ama bu konuda
literatürde farklılıklar vardır. Feinerer metin madenciliğinin temel görevlerini; metin
sınıflama, metin kümeleme, ontoloji ve taksonomi yaratma, doküman özetleme ve gizli gövde
analizleri olarak sınıflandırmıştır (Feinerer, Hornik, & Meyer, 2008).
Metin madenciliğinde bu görevler yerine getirilirken çeşitli algoritmalar
kullanılmaktadır. Literatürde metin madenciliğinde en çok kullanılan algoritmalar:
103
Naive Bayes Algoritması
Rocchio Algoritması
Karar Ağaçları:
K En Yakın Komşu Algoritması
Destek Vektör Makinesi
K Ortalama Algoritması
Bu algoritmaların her biri aynı zamanda veri madenciliğinde kullanılan
algoritmalardır ve temelinde olasılık ve istatistiksel yöntemlere dayanır. Örneğin Naive Bayes
Algoritmaları istatistiksel sınıflandırma tekniklerine dayanmaktadır. Karar ağaçları da temelde
olasılığa dayanmaktadır. Olası durumlara göre göre dallanmalar olur ve uygulamalı istatistikte
makine öğrenmesi başlığı altında birçok karar ağacı algoritması bulunmaktadır (Özkan, 2013,
s. 53). Mevcut istatistiksek yöntemlerin yanında metin madenciliği, sosyal bilimlerde
kullanılan analiz tekniklerinden içerik ve söylem analizi ile ilişkilidir. İçerik analizi daha çok
metinlerdeki niceliksel özelliklerle ilgilenirken, söylem analizi anlamla ilgilenmektedir. Bu
bağlamda metin madenciliği bu iki analiz tekniğiyle de ilişkilendirilebilir.
Doğal Dil İşleme
Bilgisayar biliminde yapay zeka uygulamalarıyla, dilbilimin alt kategorisi olan doğal
dil işleme (DDİ) “naturel language processing” insan dillerinin analizi için bilgisayar
algoritmalarının kullanılmasıdır (Manyika ve diğerleri, 2011). Başka bir ifadeyle ise, DDİ;
Bilişsel Bilimler (Cognitive Sciences) ve Makine Öğrenmesi (Machine Learning) gibi
bilimlerle ortak çalışan bir araştırma alanıdır (Yıldırım ve diğerleri, 2008). DDI veri
analizinde çok geniş yelpazede problemlere hitap etmektedir. Konuşmaların
segmentasyonundan, sözdisimsel belirsizliğe, sözcük etiketlemeden, konuşmalardaki
belirsizliğin giderilmesine kadar birçok alanda uygulanmaktadır. Doğal dil işleme
uygulamalarının birçoğu makine öğrenme türlerinden oluşmaktadır. DDI yöntemlerinden en
bilinen uygulama ise fikir madenciliği “sentiment analysis-opinion mining” analizidir ve bir
sonraki başlıkta incelenecektir.
DDİ yapay zekâ (bilgi gösterimi, planlama, akıl yürütme vb.), biçimsel diller kuramı
(dil çözümleme), kuramsal dilbilim ve bilgisayar destekli dilbilim, bilişsel psikoloji gibi çok
104
değişik alanlarda geliştirilmiş kuram, yöntem ve teknolojileri bir araya getirir (Çakıroğlu &
Özyurt, 2006).
Chowhury’e göre her bir doğal dil işleme görevini doğal dili anlamaya göre
oluşturulmaktadır. Bilgisayar programlarının dili anlamasında üç temel problem
bulunmaktadır. Birincisi düşünme süreci hakkında, ikincisi dilsel girdinin anlamı ve temsili
hakkında ve üçüncü problem ise sözcük bilgisiyle alakalıdır. Başlangıçtan sonuna kadar her
bir DDİ sistemi önce kelime seviyesinde başlamalı, sonra cümle seviyesine sonra da tüm
bağlam seviyesine geçmelidir (Chowdhury, 2003).
DDI sistemlerinde aşağıdaki görevleri yapabilme amaçlanmaktadır (Liddy, 1999);
Metni başka şekilde ifade etmek
Metni başka bir dile çevirebilmek
Metnin içeriği hakkındaki sorulara cevap verebilmek
Metinden çıkarımlar yapmak
Doğal dil işlemi uygulamalarında günümüzde uygulamalarını görmekteyiz. Örneğin
Google, kullanıcılar arama yaparken hatalı yazmış olduğu sözcükleri bulmakta ve hatalı metni
düzelterek kullanıcıya doğrusunu önermektedir. Aynı zamanda Google Translate dilden dile
çeviri yaparak kullanıcılara sunmaktadır. Henüz gelişimi devam eden bu süreç, çevirilere
kullanıcıların da destek olmasını önererek çevirilerin bağlamsal anlamda daha doğru olmasını
sağlamaktadır. Kullanıcı hataları ve onların girmiş oldukları çevirilerle makine öğrenme
sağlanarak, sistem kendini geliştirmektedir.
Fikir Madenciliği
Metinlerin sahip olduğu öznel bilginin çıkarılması ve anlamlandırılması için doğal
dil işleme uygulamaları ve farklı analitikler geliştirilmiştir. Fikir Madenciliğini, Liu (2012, s.
7) kişilerin ürün, servis, kurum, olaylar ve başkaları hakkındaki duygularını, fikirlerini,
görüşlerini, değerlendirmelerini ve tutumlarını analiz eden yeni alan olarak ifade etmektedir.
Fikir madenciliği, literatürde duygu analizi, görüş madenciliği, görüş çıkarma, duygu
madenciliği ve öznellik analizi görevlerinde çok küçük farklar olan çeşitli kavramlarla ifade
edilse de bu tez bağlamında tüm kavramlar fikir madenciliği adı altında incelenecektir.
105
Özellikle pazarlama ve endüstride duygu (sentiment) analizi olarak kullanılırken, akademi de
ise fikir madenciliği ve duygu analizi kavramlarının ikisi de kullanılmaktadır.
Fikir madenciliği, yapılandırılmamış metinlerden otomatik olarak bilginin ve
içerdiği fikrin çıkarılma işlemidir. Bu işlemde metnin içerdiği yani yazarın dokümanda
vermek istediği duygu-fikir temel unsurdur. Son yıllarda giderek önem kazanmasının nedeni
internette yer alan yapılandırılmamış metin miktarı artmış olmasıdır. Bunun kaynağını
kullanıcılar tarafından üretilen içerikler oluşturmaktadır. Birçok internet kullanıcısı fikirlerini
yazılı olarak beyan etmeye başlamıştır. Ortaya çıkan bu devasa miktarlardaki metinleri
manuel olarak analiz etmek imkansıza yakınlaşmaya başladıkça metinlerden otomatik olarak
çıkarım tekniklerinde önemi artmıştır (Manyika ve diğerleri, 2011).
Sosyal medyada paylaşılan içeriklerde kullanıcıya ait içerik varsa ya da içerik fikir
olarak ifade ediliyorsa, bu içeriğin analizi fikir madenciliğinin görevleriyle ilişkilidir (Sütcü &
Çiğdem, 2013, s. 95-99). Fikir madenciliğinin görevleri literatürde farklı şekillerde ifade
edilmektedir. Farklı araştırmacıların tanımladığı fikir madenciliği görevlerini Sütcü ve
diğerleri (2014, s. 881) bir araya getirmişlerdir. Tablo 16’da bu görevler gösterilmiştir.
Tablo 16 : Fikir Madenciliği Görevleri
Esuli ve Sebastiani (2006)
Tarafından Tanımlanan
Görevler
Levene (2010) Tarafından
Tanımlanan Görevler
Liu (2007) Tarafından
Tanımlanan Görevler
Metnin SO (Subjective‐
Objective:Öznel‐Nesnel)
Kutbunu Belirleme
Duygu sınıflandırma Direkt Fikirler
Metnin PN (Pozitive‐
Negative:Pozitif‐Negatif)
Kutbunu Belirleme
Özellik tabanlı madencilik ve
özetleme Karşılaştırmalar
PN Kutup Metninin Şiddetini
Belirleme
Karşılaştırmalı cümle, ilişki
çıkarma ve sınıflandırma
problemi olarak sorun konu
etme
---
Kaynak: Sütcü ve diğerleri (2014, s. 881)
Özellikle pazarlama alanında etkinliği olan fikir madenciliğini, pazarlamacılar ürün
ve markaları ile ilgili kişilerden markaları hakkında bilgi toplamak üzere kullanmaktadırlar.
Hem kendi markalarını hem de rekabet halinde oldukları markaları izlemeye ihtiyaç
106
duymaktadırlar. Örneğin blog tarama araçlarından olan Technorati ve BlogPulse 1 milyondan
fazla blogu tarayarak pazarlamacılar için markaları hakkında tüketicilerin fikirlerini
sunmaktadırlar. Bu içeriklere fikir madenciliği teknikleriyle yaklaşan pazarlamacılar,
tüketicilerin olumlu ve olumsuz görüşlerine göre bir sonraki adımlarını atabilir ve rekabetçi
ortamda bir adım öne geçebilir.
Fikir madenciliği konusu Türkiye’de henüz üzerinde çok çalışılmamış bir konudur.
Fikir madenciliği konusunda YÖK’ün tez veritabanında bir yüksek lisans ve bir doktora tezi
bulunmaktadır. Bu alanda Türkiye’de ilk çalışma Çiğdem Aytekin (2011)’in doktora tezidir.
Çalışmada, işletme‐müşteri etkileşimini arttırmayı sağlayan araçlar kullanılabilir şekilde
ortaya konmuş ve blogların bu kullanılabilirliğe ne kadar uygun olduğu belirlenmeye
çalışılarak uygunluğu arttırmaya yönelik bir model önerisinde bulunulmuştur. Modelde Fikir
Madenciliği yöntemleri kullanılmış ve ürün/hizmetler hakkında genel bir görünüş elde etmek
amacıyla, bloglar üzerindeki metin tabanlı fikir verilerini pozitif ve negatif olarak kutuplara
atayacak bir metodoloji geliştirilmiştir. Kutuplara atama işlemini otomatik olarak sağlama
amacıyla da “Fikir Kutbu Belirleme” adlı bir program oluşturulmuştur. Program metin
verilerin sınıflandırılmasını, uygulaması basit ve çoğu durumda etkili sonuçlar veren Naive
Bayes Bit Ağırlıklandırma Algoritması kurallarına göre yapmaktadır. Modelin kutba atama
başarısı, Duyarlık Ölçüsü ile değerlendirilmiştir. Pozitif Duyarlık Ölçüsü %72,28 ve Negatif
Duyarlık Ölçüsü %73,14 olarak hesaplanmıştır (Aytekin, 2011).
Fikir madenciliği sosyal bilimlerde söylem analizi tekniklerinin daha sade hali
olarak otomatik olarak yapılması gibidir. Söylem analizinde daha az veri, araştırmacı
tarafından yorumlanıp, söyleyen kişinin görüşü ve içeriğin ne anlama geldiği, hangi duyguları
barındırdığını ifade etmektedir. Fikir madenciliğinde ise çok miktarda içeriğin olumlu-
olumsuz-nötr ve öznellik nesnellik ve bunların kutuplarını yazılımlar sayesinde otomatik
olarak ortaya çıkarmaktadır. Ayrıca çeşitli istatistiksel analiz teknikleri kullanılmaktadır.
Duygular olumlu olumsuz olarak gruplara ayrılır ve daha sonra içerikte yer alan sözcükler
önceden hazırlanmış olan gruplara otomatik olarak atanması sağlanmaktadır. Kümeleme,
olasılık hesaplamaları ve Naive Bayes gibi çeşitli istatistiksel sınıflandırma modelleri
kullanılmaktadır.
107
Büyük Veri analiz yöntem ve teknikleri açıklanıp, bunların sosyal bilimler araştırma
yöntemleri ve mevcut istatistiksel analizlerle ilişkisi incelendikten sonra, bir sonraki bölümde
Büyük Veri’nin ve analiz tekniklerin akademik çalışmalarda kullanımı üzerine yapılan
araştırma yer almaktadır.
108
4. BÜYÜK VERİ’NİN AKADEMİK ÇALIŞMALARDA KULLANIMI
ÜZERİNE ARAŞTIRMA
İnternetin gelişmesiyle birlikte ortaya çıkan Büyük Veri’nin her geçen gün önemi ve
etki alanı artmaktadır. Günümüzde Büyük Veri’yle ilgilenen şirketler, verideki gizli bilgiyi
keşfetmek, öngörüler çıkarmak ve daha doğru kararlar almak için analiz yöntem ve
tekniklerini geliştirmektedirler. Bunun için de büyük yatırımlar yapmaktadırlar. Twitter’ın
makine öğrenmesi ve yapay zeka firması olan Whetlab’ı satın alması, Büyük Veri’ye yapılan
yatırımlara bir örnektir. Gelişmekte olan bu alan akademik çalışmalar da yerini almaktadır.
Akademik çalışmalarda Büyük Veri’nin kullanımı üzerine odaklanan bu çalışmanın bu
bölümünde dünyanın en geniş akademik bilgi bankası EbscoHost tarafından tasarlanan
Academic Search™Complete (ASC) veritabanı taranmıştır.
Büyük Veri analiz yöntem ve tekniklerinden tez bağlamında incelen kavramlar,
EbscoHost ASC veritabanında aratılarak araştırmanın bulguları değerlendirilmiştir. Ayrıca bu
araştırmada EbschoHost veritabanına ek olarak Türkiye’de akademik çalışmalarda Büyük
Veri kavramını görmek adına YÖK’ün tez veritabanı taranarak, başlıklarda ve özetlerde
“Büyük Veri” veya “Big Data” kavramları geçen yüksek lisans ve doktora tezleri sayıları ve
yıllara göre dağılımları betimlenmiş ve yorumlanmıştır.
4.1. ARAŞTIRMANIN AMACI VE ÖNEMİ
Araştırmanın amacı, bu tez bağlamında yapılan literatür taraması sonucunda ele
alınan Büyük Veri’nin akademik çalışmalarda kullanımını incelemektir. Bu araştırmada
aşağıdaki sorulara cevap aranmaktadır. Akademik çalışmalarda;
Büyük Veri ne zamandan beri kullanılmaktadır?
Büyük Veri analizi hangi yöntemlerle yapılmaktadır?
Büyük Veri analiz yöntem ve tekniklerinden hangileri daha yaygın olarak
kullanılmaktadır?
Büyük Veri analiz yöntem ve tekniklerinde ortaya çıkan yeni gelişmeler
nelerdir?
Son yıllarda hangi teknikler daha da gelişmektedir?
109
Büyük Veri yılı olarak adlandırılan 2012 öncesinde ve sonrasında Büyük Veri
ve analiziyle ilgili akademik çalışmalarda bir gelişme olmuş mudur? Varsa
eğer, 2012 öncesi ve sonrası oluşan farklılıklar ve benzerlikler nelerdir?
Son yıllarda veri madenciliği tekniklerinde gözlemlenen spesifikleşme
eğilimleri nelerdir?
Web 3.0 gelişmesiyle Büyük Veri analiz yöntem ve tekniklerindeki
değişimlerle arasındaki ilişki nedir?
Büyük Veri’yle ilgili Türkiye’deki akademik çalışmaların durumu nedir ve
dünyadaki akademik çalışmalarla paralellik göstermekte midir?
Büyük Veri son zamanlarda çeşitli dergi, gazete ve sosyal medya platformlarında
popüler bir konu olmaya başlamıştır. Bu araştırmanın önemi, Büyük Veri’nin akademik
çalışmalarda kullanımını ele alması ve Büyük Veri yılı öncesiyle sonrasındaki durumunu
karşılaştırmasıdır.
4.2. ARAŞTIRMANIN METODOLOJİSİ VE MODELİ
Bu çalışmada, metodoloji olarak tarama araştırması kullanılmıştır. Yapılan tarama
araştırmasında önce incelenecek olan veritabanı seçilmiştir. Büyük Veri ve bu tez bağlamında
ele alınan Büyük Veri analiz yöntem ve teknikleri, Büyük Veri yılı olarak atfedilen 2012 yılı
baz alınarak 2012 öncesindeki ve sonrasındaki akademik çalışmaların
başlıklarında/özetlerinde/anahtar kelimelerinde/metin içinde aranarak, elde edilen sonuçlar
kaydedilmiştir. Arama sonuçları 2012 yılı öncesinde ve sonrasında olarak sınıflandırılıp,
değerlendirilmiştir. Bu araştırmanın modeli Akademik Çalışmalarda Tarama ismiyle Şekil
16’da gösterilmiştir ve araştırma bu modele göre devam etmiştir.
110
Şekil 16: Büyük Veri Analiz Tekniklerinin Akademik Çalışmalarda Kullanımına
İlişkin Tarama Modeli
Bu çalışmada EbscoHost ASC veritabanı taranmıştır. ASC 7700’den fazlası hakemli
olmak üzere, 9000’e yakın dergiyi tam metin olarak kullanıma sunmaktadır. Ayrıca, tüm
akademik disiplinlerden, 13000’den fazla dergide yayınlanan makalelerin indeks ve özetleri
yer almaktadır. ASC’de yer alan tam metin makaleler, 1887’ye kadar uzanmaktadır ve
veritabanı her gün güncellenmektedir. 1400’den fazla dergi için taranabilir atıf bilgileri yer
almaktadır. Bu bilgi bankasının seçilme nedeni, dünyanın en geniş bilgi bankası olan Ebsco
tarafından desteklenmesi, dünya üzerindeki en kapsamlı multi–disipliner tam metin bilgi
bankası olması ve Marmara Üniversitesi’nin hem kampüs içi hem de kampüs dışı erişimine
açık olmasıdır.
Veritabanı taraması yapılırken Büyük Veri’yle ilgili kavramlar İngilizce olarak
taranmıştır. Çünkü Türkçe dilinde yazılmış ve veritabanında yer alan çalışma sayısı yok
denecek kadar çok azdır. Tarama esnasında kullanılan 20 tane İngilizce terimlerin Türkçe
karşılığı aşağıdaki Tablo 17’de gösterilmiştir
1. Araştımanın yapılacağı veritabanına karar verilmesi
2. Büyük Veri'yle ilgili taranacak yöntem ve tekniklerin belirlenmesi
3. Hangi tarihler arasındaki çalışmaların ve referans noktası kabul
edilecek tarihin belirlenmesi
4. Belirlenen Büyük Veri analiz tekniklerini veritabanındaki akademik
çalışmaların başlık, özet, anahtar kelime ve metin içinde arama
5. Arama sonuçlarını referans tarihi 2012 öncesi ve 2012 sonrası olarak
sınıflandırma
6. Sınıflandırmaların karşılaştırılması
111
Tablo 17 : Araştırmada Taranan Kavramlar ve Türkçe Karşılıkları
Taranan İngilizce Kavramlar Türkçe Karşılığı
"Big Data" Büyük Veri Büyük Veri
"Data Mining" Veri Madenciliği Veri Madenciliği
"Linear Discriminant Analysis" Lineer Diskriminant Analizi
Sınıflandırma
"Decision Trees" Karar Ağaçları
"k-Nearest-Neighbor" k-En Yakın Komşu Algoritması
"Artificial Neural Networks" Yapay Sinir Ağları
"Support Vector Machine" Destek Vektör Makinesi
"Hierarchical Clustering" Hiyerarşik Kümeleme
"Partitioning Clustering" Bölümleyici Kümeleme
Kümeleme "Density-based Clustering" Yoğunluk Temelli Algoritma
"Grid-based Clustering" Izgara Temelli Algoritma
"Subspace Clustering" Alt Uzay Arama Algoritma
"Association Rules" Birliktelik Kuralı Birliktelik Kuralı
"Message Passing Interface(MPI)" MPI
Yapay Sinir Ağları "MapReduce" MapReduce
"Dryad" Dryad
"Text Mining" Metin Madenciliği Metin Madenciliği
"Natural Language Processing" Doğal Dil İşleme Doğal Dil İşleme
"Sentiment Analysis or Opinion Mining" Fikir Madenciliği Fikir Madenciliği
Araştırmada akademik çalışmaların başlıklarında, özetlerinde, anahtar kelimelerinde
ve tüm metin içinde bu kavramlar taranmıştır. Tarama sürecinde EbscoHost ASC
veritabanının gelişmiş arama seçeneği üzerinden gidilmiş ve taramalarda başlangıç noktası
olarak veritabanı otomatik ayarlarında kayıtlı olan 01.01.1963 yılı kabul edilmiştir. Ayrıca
arama sonuçlarının yer aldığı tablolarda akademik çalışmaların ilk olarak hangi tarihte
veritabanına girdikleri de belirtilmiştir.
Araştırma aşamasında 2012 yılı öncesi ve 2012 yılı sonrası olarak araştırma sonuçları
ayrı ayrı değerlendirilmiş ve iki ayrı sınıflandırma oluşturulmuştur. 2012 yılının referans
noktası olarak alınma nedeni; 2012 Şubat’ta New York Times’ta yayınlanan Büyük Veri Çağı
(The Age of Big Data) özel sayısı ve Dünya Ekonomik Forumu (World Economic Forum)
2012’de “Büyük Veri Büyük Etki” adında yayınlamış olduğu rapor gibi birçok çalışmanın
gerçekleşmesi ve 2012 yılının Büyük Veri yılı olarak adlandırılmasıdır. Tez bağlamında
yapılan araştırmalarda 2012 yılı sonrasındaki çalışmalar, 1 Ocak 2012 ile araştırmanın
yapıldığı 23-24 Haziran 2015 tarihlerini kapsamaktadır.
112
4.3. ARAŞTIRMANIN SINIRLILIKLARI
Bu araştırma için Google’da “çevrimiçi akademik veritabanı” olarak arama
yaptığımızda, ilk üç sıralamada EbschoHost, Jstore ve Oxford Journals veritabanları
çıkmaktadır. Araştırmaya Jstore ve Oxford Journal veritabanları da dâhil edilmek istenmiştir;
ancak Marmara Üniversitesi Kütüphane’sinin Jstore veritabanında sınırlı sayıda koleksiyona
abone olması, Oxford Journal veritabanının ise sınırlı sayıda Büyük Veri’yle ilgili akademik
çalışmaya sahip olması ve arama seçeneklerinde “sadece başlıklarda arama”, “sadece özette
arama” ve “sadece metinde arama” gibi özelliklere sahip olmaması gibi sınırlılıklar,
araştırmanın yalnızca EbscoHost ASC çevrimiçi veritabanında yapılmasını neden olmuştur.
Veri analiz tekniklerinden en çok kullanılanlar bu tez bağlamında ele alındığı için,
veritabanı araştırmasında da sadece bu kavramların kullanılması, tüm veri analiz tekniklerinin
dâhil edilememesi bu araştırmanın diğer sınırlılıklarındandır. Ayrıca, YÖK veritabanında
başlıklarda ve özette arama yapılabilirken, anahtar kelimelerde ve metin içinde arama
yapılamaması da bu araştırmanın diğer bir sınırlılığıdır. Türkiye’deki akademik çalışmaların
veritabanı niteliğinde olan DergiPark Ulakbim’de Büyük Veri’yle alakalı sadece bir tane
akademik çalışmaya rastlanmış olmasından dolayı bu araştırmaya dâhil edilmemiştir.
EbschoHost ASC ve YÖK tez veritabanlarında yapılan araştırmada ortaya çıkan
bulgular ve bu bulguların sonuçları aşağıda belirtilmiştir.
4.4. ARAŞTIRMANIN BULGULARI VE DEĞERLENDİRME
Akademik Çalışmaların Başlıklarında Tarama
Araştırmanın gerçekleştiği EbscoHost ASC veritabanında Büyük Veri kavramını
başlığına alan ilk akademik çalışmanın tarihi 1992’dir. Toplam akademik çalışma sayısı 1221
dir. Bu çalışmaların 1154 tanesi 2012 yılından sonra, 67 tanesi 2012 öncesi yazılmıştır.
Başlığında Büyük Veri geçen ifadelerin yıllara göre dağılımı Grafik 2’te gösterilmiştir.
113
Grafik 2: Başlığında “Büyük Veri” Geçen Akademik Çalışmaların Yıllara göre
Dağılımı
1992-2007 yılları arasında başlığında 12 tane akademik çalışma varken, 2008’de 13
olması dikkate değerdir. Bunun yanında 2011 yılında 36 olan akademik çalışma sayısı,
2012’deki gelişmelerle birlikte 112’ye yükselmiştir. 2012 yılı öncesi ve sonrası veritabanında
yer alan çalışmaların sayısını incelediğimizde 2012 yılından sonra yazılan 1154 çalışma
toplam çalışmaların %94,5’i etmektedir ki bu oran 2012 yılının Büyük Veri yılı için önemli
bir tarih olduğunu ifade etmektedir.
Türkiye’de ise Yüksek Öğrenim Kurumu (YÖK) tez veritabanında “Büyük Veri”
veya “Big Data” kavramı başlıklarda aratıldığında toplam tez 9 tane tezin başlığında Büyük
Veri kavramı yer almaktadır. Bunların biri doktora, 8’i ise yüksek lisans tezidir. Bu tezlerin
sekiz tanesi “Bilgisayar Mühendisliği Bilimleri” alanında sadece bir tanesi ise “Endüstri ve
Endüstri Mühendisliği” alanında yazılmışlardır. Tezlerin tür ve yazım dillerinin yıllara göre
dağılımları Tablo 18’de verilmiştir.
12 13 4 2
36
112
319
477
0
40
80
120
160
200
240
280
320
360
400
440
480
1992-2007
2008 2009 2010 2011 2012 2013 2014
Aka
de
mik
Çal
ışm
a Sa
yısı
Yıllar
Başlığında Büyük Veri Geçen Çalışmalar
114
Tablo 18 : YÖK Veritabanında Yer Alan Tezlerin Tür ve Yazım Dillerinin
Yıllara göre Dağılımı
Yazım Dili ve Durumu Toplam
İngilizce Türkçe
Yıl
2003 1 Yüksek Lisans 1 Yüksek Lisans 2
2004 1 Yüksek Lisans 0 1
2010 1 Yüksek Lisans 0 1
2013 1 Yüksek Lisans 0 1
2014 1 Doktora ve
1 Yüksek Lisans 1 Yüksek Lisans 3
2015 1 Yüksek Lisans 0 1
Toplam 7 2 9
Başlığında “Büyük Veri” veya “Big Data” ifadeleri yer alan tezlerin %75’inden
fazlası İngilizce dilinde yazılmıştır. Arşivde yer alan ilk tez ise 2003 yılında yazılmış ve 2014
yılında bu sayı 3’e yükselmiştir. Henüz 2015 yılının başında ise bir tez arşivde yerini almışt ır
(Erişim 17.04.2015). Dergipark Ulakbim veritabanında ise başlığında “Büyük Veri” veya
“Big Data” kavramları yer alan sadece bir adet makale bulunmaktadır (Erişim 02.07.2015).
Bu tez bağlamında incelenen Büyük Veri analiz yöntem ve teknikleri, EbscoHost
ASC veritabanında bulunan akademik çalışmaların başlıklarında aratıldığında ortaya çıkan
akademik çalışmaların sayıları Tablo 19’da gösterilmiştir. Ayrıca 2012 yılı sonrasındaki
çalışmaların 2012 yılı öncesinde çalışmalara artış yüzdesi ve 2012 sonrasındaki akademik
çalışmaların toplam içindeki oranı yüzde olarak belirtilmiştir. Son olarak, bu kavramlara
başlığında yer veren ilk akademik çalışmanın veritabanına giriş yılı verilmiştir.
115
Tablo 19 : Akademik Çalışmaların Başlıklarında Yapılan Arama Sonuçları
Terimler 2012
Öncesi
2012
Sonrası Toplam
2012
Sonrası
nın
2012
Öncesin
e
Oranı
%
2012 Yılı
Sonrasının
Toplam
İçindeki
Oranı
%
Veri
Tabanın
a İlk
Giriş
Yılı
Büyük Veri 67 1154 1221 1722,4 94,5 1992
Veri Madenciliği 1568 774 2342 49,4 33,0 1994
Lineer Diskriminant Analizi 150 92 242 61,3 38,0 1983
Karar Ağaçları 252 102 354 40,5 28,8 1978
k-en yakın komşulu
algoritması 87 74 161 85,1 46,0 1997
Yapay Sinir Ağları 1774 1052 2826 59,3 37,2 1990
Destek Vektör Makinesi 913 362 1275 39,6 28,4 1997
Hiyerarşik Kümeleme 151 108 259 71,5 41,7 1979
Bölümleyici Kümeleme 1 1 2 100,0 50,0 2009
Yoğunluk Temelli Algoritma 10 10 20 100,0 50,0 1999
Izgara Temelli Algoritma 1 1 2 100,0 50,0 2010
Alt Uzay Arama Algoritma 15 25 40 166,7 62,5 2007
Birliktelik Kuralı 203 96 299 47,3 32,1 1996
Message Passing Interface
(MPI) 17 8 25 47,1 32,0 2001
MapReduce 26 115 141 442,3 81,6 2007
Dryad 8 3 11 37,5 27,3 2009
Metin Madenciliği 164 138 302 84,1 45,7 1999
Doğal Dil İşleme 95 65 160 68,4 40,6 1986
Fikir Madenciliği 20 73 93 365,0 78,5 2008
Toplam Akademik
Çalışma Sayısı 5522 4253 9775 77,0 43,5
Büyük Veri analiz tekniklerinin tamamı EbscoHost ASC veritabanında 9775 tane
akademik çalışmanın başlığında kullanılmıştır. Bu akademik çalışmaların 4253 tanesi 2012
yılından sonra yazılarak toplamın %43,5’ini oluşturmaktadır. 2012 yılı öncesi yapılan
akademik çalışmaların veritabanına ilk giriş yılının ağırlıklı ortalaması alınarak literatüre giriş
yılı 1992 olarak hesaplanmıştır. Bu bağlamda yaklaşık olarak son 3,5 yılda yapılan akademik
çalışmaların sayısı, 20 yılda yapılan akademik çalışmaların %77’sini oluşturmaktadır. Büyük
116
Veri’yle ilgili terimleri başlıklarında bulunduran akademik çalışmaların yarısından fazlasının
2012 yılından sonra yapıldığını göstermektedir. Eğer %43 oranı referans noktası olarak kabul
edilirse; MapReduce %81,6 oranına, fikir madenciliği %78,5 oranına ve alt uzay arama
algoritması %62,5 oranına sahip olarak 2012 yılından sonra daha fazla akademik çalışmanın
başlıklarında yer almışlardır. Bu tekniklerin artış oranları da %100’ün üzerindedir. Yani 2012
sonrasında daha çok sayıda akademik çalışmanın başlığında yer almışlardır. 2012 sonrasının
2012 öncesine göre oranları dikkate alınırsa, MapReduce %442, fikir madenciliği ise %365
olmuştur. Büyük Veri kavramı ise %1722 ile 17 kat kadar artarak akademik çalışmaların
başlıklarına 2012 sonrasında eklenmiştir.
Büyük Veri analiz tekniklerinden özellikle fikir madenciliği ve paralel işleme modeli
olan MapReduce kavramlarının 2012 sonrası ve öncesindeki akademik çalışmalarda başlık
olarak kullanılmasında ciddi bir fark vardır. Fikir madenciliği başlıklı akademik çalışma
sayısı 20’den 73’e, MapReduce sayısı da 26’dan 115’e yükselmiştir. MapReduce 2004’te
Google tarafından geliştirilerek, Büyük Veri analizinde en çok kullanılan açık kodlu yazılım
çerçevesi olan Hadoop’un temel bileşeni olmuştur. EbscoHost ASC veritabanında da ilk defa
2007’de akademik bir çalışmanın konu başlığında yer almıştır. İlk kez 2008’de akademik bir
çalışmanın başlığında yer alan fikir madenciliği de bu anlamda yeni olduğunu göstermektedir.
Araştırmanın yapıldığı EbscoHost ASC veritabanında, Büyük Veri analizinde
kullanılan yöntem ve tekniklerden karar ağaçları ve hiyerarşik kümeleme, ilk 1978 ve 1979
yıllarında akademik çalışmaların başlıklarında yer almışlardır. Teknik ve yöntemlerden en
eski olan bu kavramlar, Büyük Veri kavramından halen ve daha önce de özellikle istatistikte
kullanılmışlardır. Ayrıca veritabanında ilk 1992 yılında kullanılan Büyük Veri kavramından
önce de lineer diskriminant analizi 1983’te, doğal dil işleme 1986’da ve yapay sinir ağları
kavramı ise 1990’da ilk kez akademik çalışmaların başlıklarında yer almışlardır. Veri
madenciliği kavramı ilk kez 1994’te akademik çalışmaların başlıklarında yer almıştır ve
2012’den sonra Büyük Veri’yle alakalı en çok kullanılan kavram olmuştur. Veri madenciliği
2012 yılı öncesinde 1568, 2012 yılı sonrasında 1568 olmak üzere toplam 2342 akademik
çalışmanın başlığında yer almıştır. Oransal olarak incelediğimizde başlığında veri madenciliği
ifadesi geçen tezlerin %67’si 1994 ile 2012 arasında, %33’ü ise 2012 yılından sonra
gerçekleşmiştir.
117
1999 ile 2012 yılları arasında yani 13 yılda metin madenciliği ifadesine başlığında
yer veren akademik çalışmaların sayısı 164 iken 2012 yılı sonrasında yani 4,5 senede bu sayı
138’dir. 2012 öncesinde bir yılda ortalama 13 tane akademik çalışmanın başlığında yer alan
metin madenciliği, 2012 sonrasında bir yılda ortalama 31’e yükselmiştir.
Akademik Çalışmaların Özetlerinde Tarama
Büyük Veri analiz yöntem ve tekniklerini EbscoHost ASC veritabanında yer alan
akademik çalışmaların özetlerinde arattığımızda “Büyük Veri” kavramına özetinde yer veren
akademik çalışma sayısı 2012 yılı öncesinde 56 taneyken 2012 yılı sonrasında 1861 tane
olmak üzere toplamda 1917’dir. Buradaki artış oranı dikkate alınırsa yaklaşık %3323
olmuştur. Büyük Veri’yi özetine alan ilk çalışma 1996 yılındayken, bu araştırmada taranan
kavramlardan birliktelik kural analizi ilk kez 1963 yılındaki bir çalışmanın özetinde yer
almıştır.
Bu tez bağlamında incelenen Büyük Veri analiz yöntem ve teknikleri, EbscoHost
ASC veritabanında bulunan akademik çalışmaların özetlerinde aratıldığında ortaya çıkan
akademik çalışmaların sayıları Tablo 20’de gösterilmiştir. Ayrıca 2012 yılı sonrasında ki
çalışmaların 2012 yılı öncesinde çalışmalara artış yüzdesi ve 2012 sonrasındaki akademik
çalışmaların toplam içindeki oranı yüzde olarak belirtilmiştir. Son olarak, bu kavramlara
başlığında yer veren ilk akademik çalışmanın veritabanına giriş yılı verilmiştir.
118
Tablo 20: Akademik Çalışmaların Özetlerinde Yapılan Arama Sonuçları
Terimler 2012
Öncesi
2012
Sonrası Toplam
2012
Sonrasının
2012
Öncesine
Oranı
%
2012 Yılı
Sonrasının
Toplam
İçindeki
Oranı
%
Veri
Tabanına
İlk
Giriş Yılı
Büyük Veri 56 1861 1917 3323,2 97,1 1996
Veri Madenciliği 5127 2864 7991 55,9 35,8 1990
Lineer Diskriminant Analizi 1636 1005 2641 61,4 38,1 1985
Karar Ağaçları 879 451 1330 51,3 33,9 1978
k-En Yakın Komşu Algoritması 586 607 1193 103,6 50,9 1994
Yapay Sinir Ağları 5125 2866 7991 55,9 35,9 1988
Destek Vektör Makinesi 2236 1473 3709 65,9 39,7 1988
Hiyerarşik Kümeleme 1579 1065 2644 67,4 40,3 1975
Bölümleyici Kümeleme 7 9 16 128,6 56,3 2007
Yoğunluk Temelli Algoritma 26 49 75 188,5 65,3 1998
Izgara Temelli Algoritma 3 5 8 166,7 62,5 2005
Alt Uzay Arama Algoritma 29 36 65 124,1 55,4 2002
Birliktelik Kuralı 557 255 812 45,8 31,4 1963
Message Passing Interface(MPI) 373 178 551 47,7 32,3 1993
MapReduce 50 229 279 458,0 82,1 2007
Dryad 14 18 32 128,6 56,3 2009
Metin Madenciliği 606 460 1066 75,9 43,2 1998
Doğal Dil İşleme 671 402 1073 59,9 37,5 1972
Fikir Madenciliği 55 203 258 369,1 78,7 2003
Toplam Akademik
Çalışma Sayısı 19615 14036 33651 71,6 41,7
2012 yılı öncesi ve sonrası bu tekniklerin artışlarına bakıldığında Büyük Veri’den
sonra en yüksek artış MapReduce, fikir madenciliği ve kümeleme analizi algoritmalarından
yoğunluk, ızgara ve alt uzay algoritmalarında olmuştur. İlk defa 2007 yılında veritabanında
bir çalışmanın özetine giren MapReduce 2012 yılına kadar 50 tane, 2012 yılından sonra ise
229 tane akademik çalışmanın özetinde yer almıştır. 2012 yılından sonraki çalışmalar toplam
çalışmaların %82’sini oluşturmaktadır. 2012 öncesi ve sonrasındaki sayılar oranlandığında
%458 elde edilir. Fikir madenciliği kavramına özetinde yer veren akademik çalışma sayısı
2003’ten 2012’ye kadar 55 taneyken, 2012 sonrası yaklaşık 4 katına çıkmış ve 203 olmuştur.
Kümeleme analizlerinden hiyerarşik kümeleme hariç, diğer tüm analiz tekniklerinin sayısı
119
artış göstermiştir çükü kümeleme analizinde 1990’lı yıllara kadar sadece hiyerarşik küme
analizi tek başına kullanılmaktadır. 2012 yılı öncesinde hiyerarşik kümeleme analizine
özetinde yer veren akademik çalışma sayısı 1579, sonrasında ise 1065 olmak üzere toplam
2644’tür. Özetlerinde sonradan geliştirilen küme analiz tekniklerine yer veren akademik
çalışmaların sayıları Grafik 3’te gösterilmiştir.
Grafik 3: Kümeleme Tekniklerinin Özetlerdeki Arama Sonuçları
1990 sonrası geliştirilen küme analiz tekniklerinden bölümleyici kümeleme ve ızgara
temelli algoritma diğerlerine göre daha az kullanılmıştır. EbscoHost ASC veritabanında 2012
yılı öncesinde özetinde bölümleyici kümeleme kavramı geçen çalışma sayısı 7 iken, 2012
sonrasında 9, ızgara temelli algoritma ise 2012 yılı öncesinde 3 iken sonrasında 5 tane olmak
üzere toplam 8 tane akademik çalışmanın özetinde yer almıştır. Alt uzay algoritma kavramına
2012 yılı öncesi yayınlanan akademik çalışmaların 29 tanesinin ve 2012 yılı sonrasında da 36
tanesinin özetine ulaşılmıştır. Yoğunluk temelli algoritmalara özetinde yer veren çalışma
sayısı 2012 öncesinde 26’dır. 2012 sonrasında ise yaklaşık iki katına çıkarak 49 tane
akademik çalışmanın özetinde yer almıştır.
7
26
3
29
9
49
5
36
0
5
10
15
20
25
30
35
40
45
50
Bölümleyici
Kümeleme
Yoğunluk Temelli
Algoritma
Izgara Temelli
Algoritma
Alt Uzay Arama
Algoritma
2012 Öncesi 2012 Sonrası
120
EbscoHost ASC veritabanı akademik çalışmaların özetlerinde Büyük Veri analiz
tekniklerinden veri madenciliği ve yapay sinir ağları toplamda en fazla ve toplamda birbirine
eşit akademik çalışmada yer almışlardır. 2012 yılı öncesinde veri madenciliği ifadesi 5217
tane iken, yapay sinir ağları ifadesini özetinde barındıran 5125 tanedir. 2012 yılı sonrasında
ise bu sayılar 2864’e 2886 olmuştur. Toplamda ise 7991’er tane akademik çalışmanın
özetinde veri madenciliği ve yapay sinir ağları kavramları yer almaktadır. Ancak ilk
yayınlanma yılları farklıdır. Yapay sinir ağları kavramını özetinde bulunduran akademik
çalışma ilk kez EbscoHost ASC veritabanında 1988’de, veritabanı ise 1990’da yer almıştır.
Ayrıca kavramlardan en eski tarihli olarak 1963’te birliktelik kuralı ve 1972 tarihinde doğal
dil işleme kavramları akademik çalışmaların özetlerinde yer almaktadır.
Türkiye’de YÖK tez veritabanında özetinde “Büyük Veri” kavramlarını kullanan tez
sayısı 150’dir. Bu tezlerin yıllara göre dağılımı Grafik 4’te verilmiştir.
Grafik 4 : Özetinde “Büyük Veri” Kavramı Geçen Tezlerin Yıllara göre Dağılımı
1 1 1
3
1 1 2
1
3
1 2
6 7
3
8
10
12
9 8
13
11
24
22
0
2
4
6
8
10
12
14
16
18
20
22
24
1990
1991
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
Özetinde Büyük Veri Geçen Tezler
Yıllar
121
Özetinde ilk kez Büyük Veri kavramına yer veren tez 1990 yılında yazılmıştır.
Özellikle 2012 yılında Büyük Veri’nin daha bilinir olmaya başlaması, Türkiye’de akademik
çalışmalarda da etkisini göstermiştir. 2012 yılı içerinde özetinde Büyük Veri bulunan tez
sayısı 11 iken, 2012’nin hemen ardından 2013 yılında bu sayı 24’e yükselmiştir. 2014 yılında
da 22 tane tezin özetinde Büyük Veri kavramı kullanılmıştır.
Akademik Çalışmaların Anahtar Kelimelerinde Tarama
Büyük Veri analiz yöntem ve tekniklerini EbscoHost ASC veritabanında yer alan
akademik çalışmalarda belirtilen anahtar kelimelerde arattığımızda “Büyük Veri” kavramına
yer veren akademik çalışma sayısı 2012 yılı öncesinde 2011 yılında yayınlanmış olan sadece
1 taneyken 2012 yılı sonrasında 520 tane olmak üzere toplamda 521’dir. Ayrıca Büyük Veri
analiz yöntem ve tekniklerinden doğal dil işleme kavramı akademik çalışmaların anahtar
kelimelerinde ilk kez 1969 yılında yer almış ve 2012 yılı öncesine kadar 301 tane, 2012 yılı
sonrasında ise 345 tane çalışmada kullanılmıştır. Türkiye’de YÖK tez veritabanında özetinde
“Büyük Veri” kavramlarını kullanan
Bu tez bağlamında incelenen Büyük Veri analiz yöntem ve teknikleri, EbscoHost
ASC veritabanında bulunan akademik çalışmaların anahtar kelimelerinde aratıldığında ortaya
çıkan akademik çalışmaların sayıları Tablo 21’de gösterilmiştir. Ayrıca 2012 yılı sonrasında
ki çalışmaların 2012 yılı öncesinde çalışmalara artış yüzdesi ve 2012 sonrasındaki akademik
çalışmaların toplam içindeki oranı yüzde olarak belirtilmiştir. Son olarak, bu kavramlara
başlığında yer veren ilk akademik çalışmanın veritabanına giriş yılı verilmiştir.
122
Tablo 21 : Akademik Çalışmaların Anahtar Kelimelerinde Yapılan Arama
Sonuçları
Terimler 2012
Öncesi
2012
Sonrası Toplam
2012
Sonrasının
2012
Öncesine
Oranı
%
2012 Yılı
Sonrasının
Toplam
İçindeki
Oranı
%
Veri
Tabanına
İlk
Giriş Yılı
Büyük Veri 1 520 521 52000,0 99,8 1969
Veri Madenciliği 2612 1972 4584 75,5 43,0 1973
Lineer Diskriminant Analizi 623 366 989 58,7 37,0 1982
Karar Ağaçları 354 220 574 62,1 38,3 1988
k-En Yakın komşu Algoritması 181 196 377 108,3 52,0 1995
Yapay Sinir Ağları 2181 1653 3834 75,8 43,1 1997
Destek Vektör Makinesi 1408 1079 2487 76,6 43,4 1998
Hiyerarşik Kümeleme 258 195 453 75,6 43,0 2000
Bölümleyici Kümeleme 2 4 6 200,0 66,7 2000
Yoğunluk Temelli Algoritma 16 22 38 137,5 57,9 2001
Izgara Temelli Algoritma 5 5 10 100,0 50,0 2002
Alt Uzay Arama Algoritma 27 39 66 144,4 59,1 2003
Birliktelik Kuralı 272 151 423 55,5 35,7 2004
Message Passing Interface (MPI) 83 31 114 37,3 27,2 2005
MapReduce 20 146 166 730,0 88,0 2006
Dryad 1 3 4 300,0 75,0 2007
Metin Madenciliği 279 432 711 154,8 60,8 2007
Doğal Dil İşleme 301 345 646 114,6 53,4 2009
Fikir Madenciliği 41 160 201 390,2 79,6 2011
Toplam Akademik
Çalışma Sayısı 8665 7539 16204 87,0 46,5 2011
EbscoHost ASC veritabanında anahtar kelimelerin taratılmasıyla oluşan sonuçlar
incelendiğinde 2012 yılı öncesi ve sonrasında, MapReduce kavramını anahtar kelime olarak
kullanan akademik çalışmaların artış miktarı dikkate değerdir. 20 tane akademik çalışma
varken, 2012 sonrasında 146 tane akademik çalışmanın anahtar kelimeler listesine girmiştir.
İlk kez 2007 yılında yer alan MapReduce anahtar kelimeli çalışmaların sayısının %88’ini
2012 yılı sonrası oluşturmaktadır. MapReduce yanında fikir madenciliği anahtar
kelimelerinde kullanan toplam 201 tane akademik çalışmanın 160’ı yani %79,6 sı 2012
123
yılından sonra yazılmıştır. 2006 ile 2012 arasında ise sadece 41 tane akademik çalışmanın
özetinde kullanılmıştır.
Akademik çalışmaların anahtar kelimelerinde bu tez bağlamında en çok veri
madenciliği, yapay sinir ağları ve sınıflandırma tekniklerinden destek vektör analizi
kavramları yer almaktadır. Toplamda 4584 akademik çalışmanın anahtar kelimelerinde veri
madenciliği kavramı kullanılmıştır. Ayrıca 3834 tane yapay sinir ağları ve 2487 tane de
destek vektör analizi kavramlarını anahtar kelimelerinde kullanan akademik çalışma
bulunmaktadır.
EbscoHost ASC veritabanında anahtar kelimelerde küme analiz teknikleri
incelendiğinde 453 akademik çalışmada hiyerarşik kümeleme kullanılmıştır. Bu akademik
çalışmaların 258 tanesi 2012 yılı öncesinde, 195 tanesi de 2012 yılı sonrasında
gerçekleşmiştir. İnternetle birlikte geliştirilen modern kümeleme tekniklerini anahtar
kelimelerde kullanan çalışma sayısı 2012 yılından sonra artmıştır. Bölümleyici kümelemenin
yer aldığı akademik çalışma sayısı 2 taneyken 2012 sonrasında 6 tane, yoğunluk temelli
algoritmalar 16’dan 38’e, alt uzay algoritmaları 27’den 66’ya yükselmiştir.
Sınıflandırma analizlerinden k-en yakın komşu algoritması diğer sınıflandırma
tekniklerine göre 2012’den sonra daha çok sayıda akademik çalışmaların anahtar
kelimelerinde yer almıştır. İlk kez 2001’de EbscoHost ASC veritabanında anahtar kelimelere
giren e-en yakın komşu algoritması 2001-2012 yılları arasında 181 tane akademik çalışmada,
2012’den araştırmanın yapıldığı 23-24 Haziran 2015 tarihine kadar ise 196 tane olmak üzere
toplam 377 tane akademik çalışmanın anahtar kelimelerinde yer almıştır. k-en yakın komşu
algoritması 2012 yılı öncesinde yılda ortalama 16 akademik çalışmanın anahtar kelimeler
listesinde bulunurken, 2012 sonrasında yılda ortalama 44 tane akademik çalışmada yer
almıştır. 2012 sonrasında yaklaşık 3 kat daha yaygınlaşarak, akademik çalışmalarda yerini
almıştır.
Yapay sinir ağları paralel işleme modellerinden MapReduce ve Dryad 2007 ve 2009
yıllarında ilk kez anahtar kelimelere girmişken, Message Passing Interface (MPI) modeli
1998’de girmiştir. Daha eski olan bu model 2012 yılı öncesinde 83 tane akademik çalışmada
kullanılmışken, 2012 sonrası 31 tane akademik çalışmada kullanılmış. Dryad ise toplamda 4
124
tane akademik çalışmanın anahtar kelimelerinde yer almıştır. Doğal dil işleme, k-en yakın
komşu algoritması, metin madenciliği, alt uzay algoritması, bölümleyici kümeleme, yoğunluk
temelli algoritmalar, MapReduce, dryad ve Büyük Veri kavramları 2012 yılı sonrasında yer
aldıkları akademik çalışmaların sayısı artmıştır.
Akademik Çalışmaların Metin İçlerinde Tarama
Büyük Veri analiz yöntem ve tekniklerini EbscoHost ASC veritabanında yer alan
akademik çalışmaların metinlerini arattığımızda “Büyük Veri” kavramına metin içinde yer
veren akademik çalışma sayısı 2012 yılı öncesinde 514’ken, 2012 yılı sonrasında bu sayı 7396
olarak, toplamda 7910 tanedir. 2012 yılı sonrasında Büyük Veri’yi metin içine alan akademik
çalışma sayısının, tüm veritabanında metin içinde Büyük Veri yazan çalışmaların sayısına
oranı ise %93,5’tir.
Bu tez bağlamında incelenen Büyük Veri analiz yöntem ve teknikleri, EbscoHost
ASC veritabanında bulunan akademik çalışmaların metin içlerinde aratıldığında ortaya çıkan
akademik çalışmaların sayıları Tablo 22’de gösterilmiştir. Ayrıca 2012 yılı sonrasında ki
çalışmaların 2012 yılı öncesinde çalışmalara artış yüzdesi ve 2012 sonrasındaki akademik
çalışmaların toplam içindeki oranı yüzde olarak belirtilmiştir.
125
Tablo 22: Akademik Çalışmaların Metin İçlerinde Yapılan Arama Sonuçları
Terimler 2012
Öncesi
2012
Sonrası Toplam
2012
Sonrasının
2012
Öncesine
Oranı
%
2012 Yılı
Sonrasının
Toplam
İçindeki
Oranı
%
Büyük Veri 514 7396 7910 1438,9 93,5
Veri Madenciliği 24462 13856 38318 56,6 36,2
Lineer Diskriminant Analizi 3623 2203 5826 60,8 37,8
Karar Ağaçları 5307 2743 8050 51,7 34,1
k-en yakın komşu algoritması 1772 1506 3278 85,0 45,9
Yapay Sinir Ağları 11067 6724 17791 60,8 37,8
Destek Vektör Makinesi 7971 6675 14646 83,7 45,6
Hiyerarşik Kümeleme 9203 5427 14630 59,0 37,1
Bölümleyici Kümeleme 91 41 132 45,1 31,1
Yoğunluk Temelli Algoritma 144 143 287 99,3 49,8
Izgara Temelli Algoritma 44 24 68 54,5 35,3
Alt Uzay Arama Algoritma 135 120 255 88,9 47,1
Birliktelik Kuralı 1713 808 2521 47,2 32,1
Message Passing Interface (MPI) 1555 654 2209 42,1 29,6
MapReduce 145 717 862 494,5 83,2
Dryad 638 2616 3254 410,0 80,4
Metin Madenciliği 2614 1761 4375 67,4 40,3
Doğal Dil İşleme 4176 2555 6731 61,2 38,0
Fikir Madenciliği 270 544 814 201,5 66,8
Toplam Akademik
Çalışma Sayısı 75444 57025 132469 75,6 43,0
Büyük Veri analiz tekniklerinin tamamı EbscoHost ASC veritabanında 132469 tane
çalışmanın metin içinde kullanılmıştır. Bu akademik çalışmaların 57025 tanesi 2012 yılından
sonra yazılarak toplamın %43’ünü oluşturmaktadır. Bu durum Büyük Veri’yle ilgili terimleri
metin içerisinde bulunduran akademik çalışmaların neredeyse yarısı 2012 yılından sonra
yapıldığını ifade etmektedir. Eğer %43 oranı referans noktası olarak kabul edilirse,
MapReduce, dryad, fikir madenciliği, yoğunluk temelli algoritma, alt uzay algoritması ve k-
en yakın komşu algoritması 2012 yılından sonra daha çok popüler olmuşlardır.
126
Büyük Veri’den sonra 2012 yılı sonrasında en büyük orana sahip olan MapReduce,
2012 yılı sonrasında 717 tane akademik çalışmanın metninde yer almış ve toplamda ise 862
tane olmak üzere, toplamın %83,2’si 2012 yılından sonra yayınlanmıştır. MapReduce’dan
sonra diğer bir paralel işleme modeli olan Dryad kavramı %80,4 oran ile 2012 yılından sonra
metinlerde daha çok kullanıştır. Dryad’a 2012 yılı öncesinde 638 tane, sonrasında 2616 tane
olmak üzere toplam 3254 tane akademik çalışmanın metninde yer almıştır. Oransal olarak
2012 yılı sonrasında ciddi bir artış gösteren diğer teknik ise fikir madenciliğidir. 2012 yılı
öncesinde 270 tane akademik çalışmanın içinde bulunurken, 2012 yılı sonrasında 544 tane
çalışmanın metninde bulunmuştur. Metninde fikir madenciliği bulunduran 2012 sonrası
akademik çalışmaların oranı %66’dır. Bu bize içinde fikir madenciliği geçen her üç akademik
çalışmanın ikisinin 2012 sonrasında yapıldığını göstermektedir.
Fikir madenciliğinin üst başlığı konumunda olan ve dilin bilgisayarlar tarafından
anlanabilmesine yönelik olan doğal dil işleme EbscoHost ASC veritabanında 2012 öncesinde
4176 tane, 2012 sonrasında 2555 tane olmak üzere toplamda 6731 akademik çalışmanın
metninde yer almıştır. 2012 sonrasında %38 oranıyla doğal dil işlemede gelişmekte olduğunu
ispatlamaktadır. Özellikle 2012 öncesinde 4176 tane akademik çalışma metninde yer alan
doğal dil işleme, fikir madenciliğini metninde bulunduran akademik çalışmalarının sayısının
yaklaşık 15 katıdır. 2012 sonrasında ise 2555 tanedir. Bu sayı da 2012 sonrasında fikir
madenciliğini metninde bulunduran akademik çalışmaların sayısının yaklaşık 5 katıdır. Bu
oranlar bize 2012 öncesinde dili anlamada daha çok doğal dil işleme kavramı kullanılırken,
daha sonra akademik çalışmaların spesifik olarak fikir madenciliğini kullanmaya başladığını
göstermektedir.
Araştırmanın yapıldığı tamamı EbscoHost ASC veritabanında Büyük Veri’yle ilgili
en fazla sayıda akademik çalışmanın içerisinde geçen terimler veri madenciliği ve yapay sinir
ağlarıdır. Veri madenciliği 2012 yılı öncesinde 24462 tane, sonrasında ise 13856 tane olmak
üzere toplamda 38 318 tane akademik çalışmanın metinlerinde kullanılmıştır. Yapay sinir
ağları da %38 oranında 2012 yılından sonra yazılmış olan akademik çalışmaların metinlerinde
rastlanmıştır. Toplam 17791 tane akademik çalışmanın metninde yer alan yapay sinir
ağlarının, 6724 tanesi 2012 yılı sonrasında, 11067 tanesi ise 2012 yılı öncesinde
yayınlanmıştır.
127
Kümeleme analiz tekniklerinden hiyerarşik kümeleme diğer kümeleme tekniklerine
nazaran çok fazla metin içinde kullanılmıştır. Bölümleyici kümeleme toplamda 132, yoğunluk
temelli algoritma 287, ızgara temelli algoritma 68 ve alt uzay algoritması toplamda 225 tane
akademik çalışmanın metinlerinde kullanılmışken, hiyerarşik kümeleme toplamda 14630 tane
kullanılmıştır.
Büyük Veri’nin akademik çalışmalarda kullanımı üzerine yapılan araştırmada,
dünyanın en geniş veritabanı olan EbscoHost ASC veritabanı incelenmiştir. Büyük Veri ve bu
tez bağlamında ele alınan yöntem ve teknikler akademik çalışmaların başlıklarında,
özetlerinde, anahtar sözcüklerinde ve metin içlerinde aranmıştır. Hem Türkiye’deki YÖK tez
veritabanında hem de araştırmanın yapıldığı veritabanındaki sonuçlardan, Büyük Veri yılı
olarak atfedilen 2012 yılı sonrasında Büyük Veri’yle ilgili akademik çalışmaların sayılarında
ciddi artışlar olduğu gözlemlenmiştir. Bu tez bağlamında yapılan araştırmanın benzerini
Halevi ve Maod (2012) Scopus veritabanında bulunan araştırmalar üzerinden yapmışlardır.
Grafik 5’te de görüldüğü gibi 2008’de başlayan artış devam etmekte ve 2012’de geçmiş
yıllara nazaran önemli bir artış görülmektedir. Ve bu artış her geçen sene devam etmektedir.
Grafik 5: Yıllara göre Büyük Veri Konusundaki Akademik Çalışmalar
Kaynak: Reseach Trends Special Issue on Big Data 30 Eylül 2012 s. 4
Son olarak, sadece Büyük Veri ifadesini başlıklarda, özetlerde, anahtar kelimelerde
ve metin içerinde aratılmasıyla ortaya çıkan sonuçlar Tablo 23’te gösterilmiştir.
128
Tablo 23: Büyük Veri Kavramının Akademik Çalışmalarda Arama Sonuçları
BÜYÜK VERİ 2012
Öncesi
2012
Sonrası Toplam
2012
Sonrasının
2012
Öncesine
Oranı
%
2012 Yılı
Sonrasının
Toplam
İçindeki
Oranı
%
Başlıklarda Arama 67 1154 1221 1722,4 94,5
Özetlerde Arama 56 1861 1917 3323,2 97,0
Anahtar Kelimelerde Arama 1 520 521 52000,0 99,8
Metin İçinde Arama 514 7396 7910 1438,9 93,5
Toplam 638 10931 11569 1713,3 94,4
EbscoHost ASC veritabanında “Büyük Veri” kavramına başlığında yer veren
akademik çalışma sayısı 2012 yılı öncesinde 67 iken 2012 yılı sonrasında 1154 olmak üzere
toplamda 1221’dir. 2012 yılı sonrasında başlığında Büyük Veri geçen çalışmalar toplam
çalışmaların %94,5’ini oluşturmaktadır. Özetinde Büyük Veri kavramına yer veren toplam
akademik çalışma sayısı 1917’dir ve 2012 yılı sonrasında yapılan çalışmalar toplam
çalışmaların %97’sini oluşturmaktadır. 2012 yılı öncesinde sadece bir tane akademik
çalışmanın anahtar kelimelerinde yer alan Büyük Veri, 2012 yılı sonrasında 520 tane
akademik çalışmanın anahtar kelimelerinde yer almıştır. Büyük Veri kavramı EbscoHost ASC
veritabanında toplam 7910 tane akademik çalışmanın metin içerisinde yer almıştır. 2012 yılı
öncesinde 514 tane akademik çalışma varken, 2012 sonrasında 7396 tane çalışmanın metin
içerisinde Büyük Veri ifadesine rastlanmıştır.
4.5. ARAŞTIRMANIN SONUCU
Araştırmanın gerçekleştiği tamamı EbscoHost ASC veritabanında 1992-2007 yılları
arasında başlığında 12 tane Büyük Veri ifadesini başlığında bulunduran akademik çalışma
varken, 2008’de 13 olması dikkate değerdir. Bunun olası nedenlerinden birisi 2008 yılında
Wired dergisinde yayınlanan Petabyte Çağı (The Petabyte Age) başlıklı yazısıdır. Bu yazıda
Büyük Veri kavramı “bilimi, tıbbı, işletme yönetimini ve teknolojiyi değişime uğratan devasa
miktarda veriyi tutma, depolama ve anlama kabiliyeti” olarak ifade edilmektedir (Wired,
129
2008). Bu ve bu yazı gibi çeşitli uluslararası yayın yapan yayınların Büyük Veri’ye yer
vermesi hemen ardından akademik çalışmalarda karşılığını bulmaktadır. Aynı şekilde 2012
Şubat’ta New York Times’ta yayınlanan Büyük Veri Çağı (The Age of Big Data) başlıklı
yazısı, Dünya Ekonomik Forumu (World Economic Forum) 2012’de yayınlamış olduğu
raporda “Büyük Veri Büyük Etki” (Big Data Big Impact) raporu ve 2012 Nisan ayını
“Matematik, İstatistik ve Veri Seli için Farkındalık Ayı” olarak ilan edilmesi 2012 yılındaki
Büyük Veri ve onunla alakalı tüm terimlerin akademik çalışmaların sayısında ani artışa neden
olmuştur.
2012 yılı öncesinde başlığında veri madenciliği bulunan akademik çalışma sayısının,
2012 yılı öncesindeki toplam akademik çalışma sayısına oranı %28’ken, 2012 yılından sonra
bu oran %18’e düşmüştür. Bu durum çatı bir konumda olan veri madenciliğinin konumunu
biraz değiştirmiştir. Yani 2012 sonrasında veri madenciliği altındaki metin madenciliği gibi
çeşitli tekniklerle ilgili yapılan akademik çalışmalarda, artık veri madenciliği ifadesini
başlıkta kullanmak yerine akademik çalışmadaki spesifik tekniğin adı başlıkta kullanılır
olmuştur. Veri madenciliği altındaki tekniklerle ilgili yapılan akademik çalışmaların
artmasıyla birlikte artık genel olarak “veri madenciliği” şemsiyesi değil kullanılan tekniklerin
her biri zamanla şemsiye konumuna geçmekte ve kendi alt dalları da akademik çalışmalarda
yer almaktadır. Bu durumu daha da derinleştirirsek, veri madenciliği kapsamında kümeleme
yöntemleri 1990’lı yıllara kadar sadece hiyerarşik kümeleme olarak tek başlıktayken, internet
verilerinin artmasıyla birlikte yeni teknikler geliştirilmiştir. Bu yeni teknikleri sıralayacak
olursak; bölümleyici, yoğunluk temelli kümeleme analizleri, ızgara temelli algoritmalar ve alt
uzay arama algoritmalarıdır. Bunlar gibi yeni teknikler veri madenciliği bünyesinde bulunsa
da giderek akademik çalışmalarda kendi özel isimleriyle anılmakta ve veri madenciliği
kavramını eskisi kadar çok kullanmamaktadırlar. Bu durum diğer yandan veriye ve veri
analizine bakışın da değiştiği ve veri analizinin daha özel ve daha spesifik olduğunu
göstermektedir.
Paralel işleme modellerinden MapReduce 2004’te Google tarafından geliştirilerek,
Büyük Veri analizinde en çok kullanılan açık kodlu yazılım çerçevesi olan Hadoop’un temel
bileşeni olmuştur. EbscoHost ASC veritabanında da MapReduce ilk defa 2007’de akademik
bir çalışmanın konu başlığında yer almıştır. Bununla birlikte 2012 yılına kadar paralel işleme
130
alanında en çok kullanılan model MPI iken, Google ve Hadoop’la birlikte MapReduce MPI’ın
önüne geçmeye başlamıştır. Her ne kadar mevcut durumda MPI daha çok akademik
çalışmalarda kullanılmış olsa da, MapReduce ivme kazanmış bir halde akademide yer
almaktadır ve gelecekte daha da çok çalışmanın içinde yer alacağı tahmin edilmektedir.
Burada teknolojinin, bilgisayarların işlem hızını artırması var olan imkanları daha da
artırmaktadır. MapReduce paralel işleme modeli olarak karşımıza çıkarken, amaç büyük
miktarlardaki veriyi anlık olarak eş işlemcilere ayırmak ve anında analiz etmektir Özellikle
pazarlamadaki rekabetçi ortam, verinin anlık olarak ölçülüp, analiz etmeyi ihtiyaç haline
getirmiştir. Burada devreye temelde yapay sinir ağları eseri olan MapReduce gibi teknolojik
teknikler girmektedir.
Dikkat çeken diğer bir durum ise 1972 tarihinde doğal dil işleme kavramının
akademik bir çalışmanın özetinde yer almasıdır. O çalışma incelendiğinde “MUSE: A Model
To Understand Simple English” başlıklı bir çalışma ve İngilizce’yi anlamak için geliştiren bir
modeli anlatmaktadır. Bu durum bilgisayarların insan dilini anlaması için yapılan çalışmaların
bilgisayarların icadından beri devam ettiğini göstermektedir. 2008’de ilk kez bir akademik
çalışmanın başlığında yer alan fikir madenciliği de doğal dil işleme uygulamalarından en çok
bilinen olarak özellikle 2012 sonrasında akademik çalışmalarda hızla artmaktadır. Web 2.0’ın
devamı niteliğinde olan yeni nesil web, akıllı web olarak ifade edilen Web 3.0’ün gelişimi de
bu anlamda etkilidir. Çünkü Web 3.0, semantik web, doğal dil işleme, veri madenciliği ve
yapay zeka gibi teknolojileri kullanarak makinelerin anlamasını sağlamaktadır. Daha üretken
ve sezgisel bir kullanıcı deneyimi sağlayan Web 3.0 kullanıcıya göre şekillenebilme
özelliklerine sahiptir. Web 3.0 teknolojilerini ilk kullanan şirketlerden biri olan Nova
Spivack’s Twine, 2010 ile 2020 arasında web’in semantik web olacağını ifade etmektedir.
(Cho, 2008). 2010 yılında Apple tarafından geliştirilen Siri, kişisel akıllı asistan olarak doğal
dil işlemeye ve semantik web’e verilebilecek en belirgin örnektir. Yeni nesil internet dönemi
2010’dan itibaren başlamıştır ve bu durum akademik çalışmalarda da doğal dil işleme ve fikir
madenciliği kavramlarının kullanımının artmasına neden olmuştur.
EbscoHost ASC veritabanında başlık, özet, anahtar kelime ve tüm metin içinde
yapılan aramalar sonucunda Büyük Veri, k-en yakın komşu algoritması, yoğunluk temelli
algoritma, ızgara temelli algoritma, MapReduce, metin madenciliği ve fikir madenciliği
131
teknikleri genel olarak akademik çalışmaların tüm bölümlerinde 2012 sonrasında dikkate
değer artışlar göstermişlerdir. Tüm teknikler içinde “algoritma” ifadesi geçen bu dört tekniğin
de 2012 sonrasında artması Büyük Veri analizinin bilgisayar ve matematik bilimlerinin
kesişiminde yer aldığını göstermektedir. Bilgisayar kısmını yazılım ve donanım oluştururken
matematik kısmını ise istatistik teknikleri ve mantık oluşturmaktadır.
Ayrıca Büyük Veri analizinde 2012 sonrasında özellikle dil ve anlam üzerine
çalışmalar önem kazanmış olduğunu metin madenciliği ve fikir madenciliği ifadelerinin
akademik çalışmalarda daha da fazla kullanılmasından anlamaktayız. Bu durumun iki temel
nedeninden biri Web 3.0’ın ortaya çıkması ve gelişmesidir. Diğer nedeni ise temelde
pazarlama merkezlidir çünkü günümüzdeki rekabet ortamında kurumlar markaları, ürünleri ve
kendileri hakkında internette neler konuşulduğunu takip etme ihtiyacı hissetmektedirler.
Şirketler, sosyal medya kullanıcılarının ve müşterilerinin fikirlerini öğrenmek ve onların
ihtiyaçları doğrultusunda doğru zamanda ve doğru ürünü onlara sunarak, onların satın
almalarını sağlamak ve kar etmek zorundalar. Bunun temel yolu da kişilerin ne dediklerini, ne
yediklerini, nerelere gittiklerini, ne giydiklerini, ne dinlediklerini vb. kısacası her şeylerini
takip etmek, ölçümlemek ve analiz etmektir. Bu yüzden kullanıcı içeriklerinin daha hızlı
analiz edilmesi, anlık olarak ölçümlenmesi pazarlama stratejileri açısından çok önemlidir.
Bunun yanında risk yönetiminde ve müşteri merkezli sonuçlar elde etme de Büyük Veri’den
öngörüler oluşturmak için dilbilim ve anlambilimle ilgili olan metin madenciliği ve fikir
madenciliği teknikleri son yıllarda akademik çalışmalarda da giderek önem kazanmıştır.
132
5. SONUÇ
Teknolojinin gelişmesiyle birlikte makineleşme ve internet teknolojileri baş
döndüren bir hızla büyümeye başlamıştır. Hem bireysel hem de toplumsal anlamda çeşitli
dönüşümler yaşanmaktadır, bu dönüşümler sosyal bilimlerden fen bilimlerine kadar birçok
alanı etkilemektedir. Bu etki alanının giderek artmasının nedeni ise teknolojik gelişmelerle
birlikte ortaya çıkan Büyük Veri kavramıdır. Büyük Veri’yle, farklı formatlardaki, sürekli
artış içinde olan devasa miktarlardaki veriyi ve bu verilerin analizi ifade edilmektedir. Sosyal
medyanın insanlar üzerinde etkisinin artmasıyla birlikte, sosyal medya platformlarında
üretilen verinin hem miktarının hem de değerinin artmış olması, aynı zamanda makineler
arasındaki iletişim sonucu ortaya çıkan verilerin insan yaşamını ve toplumu etkilemesi, Büyük
Veri’nin sosyal bilimler alanında da incelenmesini ihtiyaç haline getirmiştir. Bu tez
bağlamında Büyük Veri’nin sosyal bilimlerdeki araştırma yöntemlerle ve mevcut istatistiksel
yöntemlerle analiz edilip edilemediği tartışılmıştır. Yapılan literatür taraması sonucunda,
Büyük Veri analiz tekniklerinin birçoğunun temelinde, mevcut istatistiksel yöntemlerin yer
aldığı ve bu istatistiksel yöntemlerle Büyük Veri’nin analizinin mümkün olduğu sonucuna
varılmıştır. Geleneksel sosyal bilimlerdeki araştırmalarla Büyük Veri araştırmalarının
süreçlerinin ve özellikle internet araştırmalarında kullanılan analiz araçlarının Büyük Veri
analiz teknikleriyle örtüştüğü sonucuna ulaşılmıştır. Ayrıca Büyük Veri’nin akademik
çalışmalarda kullanımı üzerine nicel tarama araştırması yapılarak, Büyük Veri’nin akademik
çalışmalardaki durumu değerlendirilmiştir. Büyük Veri yılı olarak atfedilen 2012 yılının
Büyük Veri’yle ilgili akademik çalışmalar da önemli bir tarih olduğuna, 2012 yılı sonrasında
Büyük Veri’yi ve analiz tekniklerini konu alan akademik çalışmaların sayısının ciddi artış
gösterdiği sonucuna ulaşılmıştır.
Bu çalışma Büyük Veri’yi temel alarak yapılan Türkiye’deki ilk tez çalışmasıdır.
Ayrıca, Türkiye’de başlığında büyük veri ifadesi geçen 9 adet tez incelendiğinde, büyük veri
kavramının sadece çok miktardaki veri yerine kullanıldığı görülmüştür. Ayrıca bu tezlerin
sekiz tanesi “Bilgisayar Mühendisliği Bilimleri” alanında diğer bir tanesi ise “Endüstri ve
Endüstri Mühendisliği” alanında yazılmıştırlar. Bu bağlamda bu tez çalışması sosyal bilimler
alanında yazılmış olmasıyla da bir ilk olma özelliği taşımaktadır. Sosyal bilimlerdeki
araştırma yöntemlerine veya veri madenciliğine ve veri analiz yöntemlerine odaklanan tezler
133
olmasına rağmen, bu analiz yöntemleriyle sosyal bilimlerdeki araştırma yöntemlerinin örtüşüp
örtüşmediği ilk kez ele alınmıştır. Araştırmanın sahip olduğu kapsam ve sınırlılıklar da göz
önünde bulundurularak elde edilen bulguların değerlendirilmesi ve öneriler aşağıda
paylaşılmıştır.
Bilimin gelişmesiyle birlikte “veri”, disiplinler arası bir kavram olmaya başlamıştır.
Sanayi devri öncesinde sadece bir argümanda verilen şeyler olarak ifade edilirken, sonrasında
deney, gözlem, hesaplama ile elde edilen gerçekler olarak ifade edilmeye başlanmıştır.
Günümüzde ise her bir alan için farklı anlamlara sahip olan veriye; ham ve işlenmemiş
gerçekler, yorum katılmamış, içeriği olmayan semboller veya bilgisayar için işlenebilir
duruma getirilmiş sayısal ya da sayısal olmayan nicelikler gibi çeşitli tanımlamalar yapmak
mümkündür. Veriye bakış açılarının farklı olması beraberinde verinin farklı
sınıflandırılmalarına da neden olmuştur. Bu tez bağlamında veri sınıflandırmaları, nitel ve
nicel veri, birincil ve ikincil veri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış
veri, atıl veri ve sosyal veri olmak üzere dokuz alt başlıkta incelenmiştir. Farklı tanımlamaları
olsa da ortak görüş verinin enformasyonun alt basamağı olduğu ve bir anlam kazanabilmesi,
bilgi olabilmesi için çeşitli süreçlerden geçmesi gerektiğidir. Teknolojinin gelişmesiyle
birlikte veri kaynaklarının sayısı, çeşitliliği artmıştır. Veri miktarının artmasıyla birlikte,
verinin depolanması, işlenmesi ve analizi giderek zorlaşmış ve veriden bilgiye erişim süreci
daha da karmaşıklaşmıştır. İstenen veriye ulaşmayı kolaylaştırmak için çeşitli yollar
oluşturulmuştur. Bunlardan biri olarak ortaya çıkan “meta veri”; “veri hakkındaki veri” olarak
ifade edilmektedir. Meta veri sayesinde farklı kaynaklardan oluşturulan verilere standart
açıklamalar getirilmiştir. Yani meta veri, veriye ait formatı, üretim tarihi, boyutu, ismi gibi
çeşitli açıklamaları barındırmaktadır. Bilgisayarların veriyi analiz etmelerinde meta veri
etkilidir; çünkü bilgisayarın o veriyi tanıması meta veriye bağlıdır. Bilgi hiyerarşisinde
veriden enformasyona, enformasyondan bilgiye erişiminde verilerin bilgisayarlar tarafından
alınmasında, depolanmasında, işlenmesinde ve analizinde meta veri etkin rol oynar. Meta veri
miktarı ne kadar fazla ise geçiş süreci o kadar hızlı ve sistemde oluşabilecek belirsizlikte o
kadar az olacaktır.
Meta veri Büyük Veri’nin analizinde de etkilidir. Büyük Veri’nin sahip olduğu temel
özelliklerden biri olan “veri hacmi”, verinin miktarını; “veri hızı”, üretildiği anda
134
yayılabileceğini, “veri çeşitliliği”, yapısında farklı formatlarda verileri barındırıyor olması,
“veri doğruluğu”, Büyük verinin güvenilirliğini ve “veri değeri” ise Büyük Veri’nin
içerisinden çıkarılacak anlamı ifade etmektedir. Veri hacminden ve veri çeşitliliğinden dolayı
Büyük Veri analizinde meta veriye ihtiyaç duyulmaktadır. Büyük Veri’nin disiplinler arası bir
kavram olması nedeniyle kesin bir tanımı yapılamamaktadır. Büyük Veri’ye ait literatürde
bulunan farklı kavramlara da bu tez kapsamından değinilmiştir. Büyük Veri’nin farklı
tanımlamalarının bulunmasının ve disiplinler arası bir terim olmasının nedeni, yukarıda
bahsettiğimiz Büyük Veri’nin bu beş bileşeni ve çok boyutlu olmasıdır. Büyük Veri’deki
“Büyük” ifadesi aslında verinin hacminden gelmektedir. Web 2.0 ile veri miktarının %90’ını
son yıllarda üretilmiştir. Örneğin, New York Borsası’nın her gün yapılan hisse senedi
alışverişlerine ilişkin 1 terabyte’lık veri toplaması, bir jet uçağının uçtuğu her 30 dakikada 10
terabyte’lık algılayıcı verisi elde etmesi, Twitter’da günde ortalama 500 milyondan fazla
tweet atılması, Facebook üye sayısının 1,2 milyarı geçmiş olması ve paylaşılan içeriklerin
günlük 2,5 milyarı geçmesi ve Instagram’da günlük ortalama 40 milyondan fazla fotoğraf
yüklemesi gibi durumlar Büyük Veri’nin önemini yansıtmaktadır. Büyük Veri’nin sahip
olduğu diğer özellikler de ona artı değer katmaktadır. Veri kapsamlılığı ile örneklem yerine,
tüm veriyle çalışmayı, Büyük Veri dizinselliği ile her bir meta için özgün etiketlendirmeyi ve
kimliklendirmeyi mesela DOI numaraları veya RFID etiketlendirmelerini kapsamaktadır.
Esneklik özelliği sayesinde sistemlerin geliştirilebilirliği, Büyük Veri’nin ilişkisellik
özelliğiyle de farklı boyutlardaki veri setlerinin birleştirilerek, kendi aralarındaki ilişkilerle
yeni soruların cevaplandırılması ifade edilmektedir. Büyük Veri’nin sahip olduğu değeri
çıkarmak ve içgörüler oluşturmak için gerekli olan teknoloji aynı zamanda Büyük Veri’nin
sınırlılıklarındandır. Çünkü verinin toplanması, depolanması, işlenmesi ve analiz edilebilmesi
için hem güçlü analitiklere hem de bu analitikleri kullanmak için becerilere ihtiyaç vardır.
Yazılım, istatistik ve matematik bilgisine sahip veri bilimcilerine ihtiyaç duyulmaktadır.
Bunun yanında diğer bir zorluk ise veriye erişimdir. Büyük Veri şirketleri sahip oldukları
veriyi paylaşma konusunda cimri davranmaktadırlar. API’ler sayesinde sosyal ağlardaki
Büyük Veri’nin bir miktarı elde edilse de tamamı elde edilememektedir ve ayrıca kimi veriler
çeşitli nedenlerden dolayı dışarı verilememektedir. Bu nedenlerin başında mahremiyet ve
kişisel haklar yer almaktadır. Büyük Veri’nin sınırlılıklarından bir diğeri de veri
politikalarıdır. Veri politikaları mahremiyet, güvenlik, telif hakkı gibi birçok durumla alakalı
yasa ve kuralları içermektedir. Özellikle akademik çalışmalarda Büyük Veri’ye erişim daha
135
sınırlıdır. Çünkü özel sektörde veya kamuda kişilerin zaten çeşitli verileri mevcuttur ancak
akademide sınırlıdır. API’ler sayesinde veri alımı gerçekleşmekte ya da Twitter’ın ilk kez
2014 yılında yapmış olduğu Data Grants isimli projelerle Büyük Veri’ye erişim
sağlanmaktadır. Ancak bu durum çok kısıtlıdır çünkü böyle büyük projelerden de sadece
birkaç büyük araştırma merkezi faydalanmaktadır.
Büyük Veri kaynaklarını makine ve insan verileri olarak temelde ikiye ayırırsak,
insan verilerinin büyük bir kısmını aslında sosyal medyada üretilen veriler olarak
adlandırabiliriz. Sosyal medyanın insan hayatında etkin rol almasıyla birlikte sosyal
bilimlerde yapılan araştırmaların mecrası genişleyerek araştırmalara internet de katılmıştır. Bu
yüzden geleneksel araştırma yöntemlerinin, internet araştırmalarında uygulanması
incelenmiştir. Geleneksel araştırmalarda olsun, internet araştırmalarında olsun araştırma
süreçleri birbirine benzerlik göstermektedirler. Bir problemle başlayıp, veri toplama ve en
sonunda da analiz ve raporlaştırma süreci Büyük Veri analizinde de aynıdır. Veri toplama
araçları geleneksel sosyal bilimlerde dokümanlar, anket, gözlem ve görüşmeyken, internet
araştırmalarında bu araçlar internete uyarlanmıştır. Araştırmacı odak grup görüşmesini yüz
yüze yapmak yerine, katılımcılarla internet üzerinden yapmaktadır. İnternet üzerinden
uygulanan veri toplama araçları, diğer yöntemlere göre daha hızlı, daha az maliyetlidir. En
belirgin özelliği ise daha esnek ve anından analiz edilebilir olmasıdır. Geleneksel anketi
dağıttıktan sonra değişiklik yapmak çok zordur ama çevrimiçi anketlerde anında değişiklik
yapılabilmektedir. Toplanan veriler tekrardan kodlanıp bilgisayar ortamına girmek yerine,
yanıtlar direkt kodlanmış olarak elde edilmektedir. Diğer yandan internet araştırmalarındaki
veri toplama araçlarının geleneksel araçlara göre yanıtlama oranları daha düşüktür. Sosyal
bilimlerde araştırmalar nicel ve nitel yöntem olarak ikiye ayrılmaktadır. Nicel araştırmada
toplanan veriler sayısal olarak ifade edilerek analiz edilmektedir. Nicel araştırmalardan tarama
araştırmasında geleneksel sosyal bilimlerde literatür taraması yapılırken veya anket ile veri
toplanıp analiz edilirken, internet araştırmalarında tarama araştırmaları daha tekniktir. Blog
taraması, Twitter taraması ve web sitelerinin taranmasıyla araştırmalar gerçekleştirilir. Burada
da farklı tarama araçlarından faydalanılır. Blogları taramayla elde edilen veri miktarına bağlı
olarak Büyük Veri özellikleri taşıyabilir ve internet tarama araştırmaları Büyük Veri’nin
araştırılmasına benzemektedir. Ayrıca tarama araştırmaları katılımcıların ya anlık cevaplarını
ya da süreç içindeki cevaplarını toplamaktadır. Bu açıdan özellikle sosyal medya üzerinden
136
yapılan araştırmalarda kullanıcıların takip edilmesiyle toplanan veriler hem süreci hem de
kişilerin zaman içinde düşüncelerinde varsa değişiklikler bunları da tespit etmektedir.
Deneysel araştırmalarda neden sonuç ilişkisi ya da kontrol gruplar yer almaktadır. İnternet
üzerinde yapılan deney grup çalışmalarında ise kullanıcıların tepki ve eğilimleri ölçülmek
istenmektedir. Mesela Facebook yapmak istediği bir arayüz değişikliğinde, bir grup
kullanıcının arayüzünü değiştirerek tepkilerini ölçerek arayüz değişiklikleri gibi çeşitli
değişiklerde kullanıcıları denek olarak kullanır. Nitel araştırmada ise ilişkiler, durum veya
olay hakkında derinlemesine bilgi elde edilir ve “Neden?” ve “Niçin?” sorularının cevapları
aranır. Nitel yöntemlerden özellikle etnografi araştırmalarında araştırmacı aynı zamanda
katılımcı olarak bulunduğu gruptaki insanların davranışlarını gözlemleyerek, ilişkiler ve
kültür üzerinden grubu açıklamaya çalışmaktadır. İnternetin gelişmesiyle birlikte kullanıcılar
çeşitli özelliklerine göre çevrimiçi gruplar kurmaya başlamışlardır. Etnografik araştırmaların
internet ortamında yapılmasına netnografi denilmektedir ve çevrimiçi gruplar analiz
edilmektedir. Kullanıcılar tarafından üretilen içerikler Büyük Veri’de olduğu gibi metin,
fotoğraf veya video gibi farklı formatlarda bulunabilmektedir. Bu verilerin analizinde
araştırmacı ya bireysel olarak kendisi yapmaktadır ya da Nvivo, Atlas.ti gibi çeşitli analiz
araçları kullanmaktadır. Karmaşık bir durum hakkında bilgi edinmek için kullanılan durum
analizi yönteminde tek bir veri kaynağından toplanan veriler yetmemektedir. Bu yüzden
görüşme, anket veya gözlem gibi farklı veri toplama araçları uygulanmalıdır. Durum
çalışmaları bir olayı meydana getiren ayrıntıları tanımlamak ve görmek, bir olaya ilişkin olası
açıklamaları geliştirmek, bir olayı değerlendirmek amacıyla kullanılır. Sosyal medyanın ve
sanal ortamların artmasıyla birlikte internet üzerinden yapılan durum çalışmaları, geleneksel
yöntemlerle yapılan durum çalışmalarına benzerdir. Çevrimiçi odak gruplarıyla eş zamanlı ya
da eş zamansız yapılan görüşmelerle, duyuru tahtası grupları veya e-posta grupları aracılığıyla
incelenen durumla ilgili veriler toplanabilmektedir. Sonuç olarak baktığımızda nicel ve nitel
araştırmalar internet ve sosyal medya üzerinden gerçekleştirilebilmektedir. Her iki mecrada da
araştırma süreçleri benzerdir ancak araştırmalardaki maliyet, yanıt oranı, verilerin analizi,
modelin esnekliği ve araştırmacının rolü mecrasına göre değişiklik gösterebilmektedir. Hem
geleneksel sosyal bilimlerde hem de internet araştırmalarında verilerin analizinde en çok
kullanılan teknikleri içerik analiz, söylem analizi ya da istatistiksel analizdir. İçerik analizi
kullanıcıları doğrudan gözlemlemek yerine onların ortaya koydukları materyallerin incelenip,
analiz edilmesidir. Geleneksel yöntemlerde daha çok akademik çalışmalar içerik analizi
137
edilirken, internet ve sosyal medyayla birlikte web siteleri, sosyal medya paylaşımları,
profilleri analiz edilmektedir. İçerik analizinde temel istatistiksel teknikler kullanılır. İçerik
analizi için çeşitli yazılımlardan faydalanılmaktadır. Bunlardan en çok kullanılanları ise
SPSS, Nvivo ve Atlas.ti’dir. Yazılım kullanmak şart olmasa da elde edilen veriler bazen
Büyük Veri niteliğindedir ve analizi için bilgisayar desteğine ihtiyaç duyulmaktadır. Diğer
analiz tekniği ise söylem analizidir. Söylem analizi içeriğin anlamını çıkarmaya yöneliktir. Ve
sadece metin değil, görsel anlamlarının da analizini kapsamaktadır. Az miktarda veride yatan
anlamın çıkarılmasını; araştırmacı tek başına yapabilirken, çok miktarda verilerde kaynağın
ne demek istediği ya da o içeriğin bağlamıyla birlikte değerlendirilmesi zordur. Bu yüzden
farklı ortamlar için farklı söylem analizi modelleri geliştirilmiştir. Örneğin Twitter için ayrı,
Youtube için ayrı söylem analizi modelleri geliştirilmiştir. Büyük Veri analiz tekniklerinden
fikir madenciliğide aslında söylem analizinin bilgisayarlar tarafından yapılmasıdır. Özellikle
internet bağlamında yapılan araştırmalarda elde edilen veriler Büyük Veri özelliklerini
taşıdığı için analiz edilirken de kullanılan Nvivo gibi araçların Büyük Veri analizinde de
kullanıldığı ve Büyük Veri analiz araçlarıyla benzer özelliklere sahip olduğu görülmüştür. Bu
tez bağlamında yapılan veritabanı araştırmasında varılan en belirgin sonuçlardan birisi, 2012
sonrasında Büyük Veri analiz tekniklerinden fikir madenciliği en çok gelişim gösteren
alanlardandır. Özellikle pazarlama alanında kurumlar ürün ve markaları hakkında sosyal
medyada neler konuşulduğunu, kullanıcıların görüşlerini analiz etmek istemektedirler.
Kullanıcıların olumlu ya da olumsuz görüşleri de fikir madenciliği sayesinde elde
edilmektedir. Bu yüzden Büyük Veri analizlerinde son zamanlarda anlambilimsellik üzerine
durulmaktadır.
Büyük Veri analiz süreci sosyal bilimlerdeki araştırma süreçleriyle benzerdir.
Problemin belirlenmesi, verilerin toplanıp işlenmesi ve analiz edilerek değerlendirilmesi
süreçlerini kapsamaktadır. Büyük Veri analizinde özellikle veri ön işleme süreci en fazla
zaman ve emek almaktadır. Farklı kaynaklardan toplanan verilerin birliştirilmesi, Büyük
Veri’nin temizlenmesi ve indirgenerek analize hazır olması süreci ön işleme süreci olarak
adlandırılır. Veri analizindeki amaç, veride bulunan değeri ve örüntüyü keşfetmek, içgörüler
oluşturmak ve geleceği yönelik tahminler yapmaktır. Büyük Veri’nin analizinde en önde
gelen teknik Veri Madenciliği’dir. Temelini istatistikten alan veri madenciliği, Büyük
Veri’yle birlikte Veri Bilimi’nin gelişmesine de neden olmuştur. Veri Madenciliği olsun, veri
138
bilimi olsun ikisininde de amacı Büyük Veri’deki değeri ve gizli bilgiyi çıkarmaktır. Veri
madenciliği kendi içinde çeşitli yöntemlere ayrılmaktadır. Bu yöntemlerden bazıları
istatistiksel analizlerdendir. Kümeleme tekniği hem istatistikte hem de veri madenciliğinde
kullanılmaktadır. Kümeleme, veri setlerinde birbirine benzer özellikleri taşıyan nesneleri aynı
gruba, farklı özelliklerdekileri de farklı gruplara ayırmada kullanılır. Kümelemede verilerin
sahip olduğu özelliklerinden dolayı ayırım yapılması betimsel yöntemdir. Web 2.0 öncesine
kadar kümelemede sadece hiyerarşik kümeleme tekniği varken, internet verilerinin artmasıyla
birlikte kendi içinde çeşitli yöntemler gelişmiştir. Sosyal bilimlerde özellikle pazarlamada ve
internet araştırmalarında anahtar kelime aramalarda, blog taramalarda ve trend olan
kavramların belirlenmesinde etkilidir. Kümelemeye benzer özelliklerde olan bir diğer teknik
ise sınıflandırmadır. Sınıflandırma, bir nesnenin özelliklerine göre hangi gruna ait olduğunu
belirlemede kullanılır. Sınıflandırmayı kümelemeden ayıran en belirgin özellik, kümelemede
önceden veri gruplarının ve özelliklerinin belirli olmasıdır. Sınıflandırma da ise önceden
herhangi bir grup tanımlanmamıştır. Eldeki verinin özelliğine göre gruplar analiz aşamasında
ayrıştırılır. Eldeki verilerden oluşturulan fonksiyona göre gelecekteki verilerin sınıfları
belirlenir. Bu yüzden çıkarımsal bir yöntemdir. Temelinde istatistiksel yöntemler bulunan
sınıflandırma ise, diskriminant analizi ve regresyon analizleridir. Birliktelik kuralı veya
bağlantı analizi de Büyük Veri için kullanılan yöntemlerdendir. Belirli değişkenlerin birlikte
olma durumlarını ve birlikte olma kurallarını olasılıklar ortaya koymaktadır. Sosyal
bilimlerde Pazar Sepet Analizi olarak bilinen model, birliktelik kural analizine
dayanmaktadır. Müşteri merkezli pazarlama, öneri sistemlerindede ve internet
araştırmalarımda blog taramada kullanılmaktadır. Mevcut istatistiksel yöntemlerden
korelasyon, frekans tablosu ve olasılık hesaplamalarına dayanmaktadır. Yapay sinir ağları,
biyolojik sinir ağlarırından esinlenerek oluşturulmuştur. Verideki örüntüleri bulmak ve eski
verileri kullanarak onları deneyimleştirmek ve makine öğrenimini sağlamak için
kullanılmaktadır. Yapay sinir ağlarının geleneksel analiz yöntemlerinden temel farklarından
biri, verileri aynı anda birbirinden bağımsız işlemcileri bölmesi ve bağımsız çalışan bu
işlemcilerden elde edilen verilerin birleştirilmesidir. Paralel işlemi olarak bilinen bu modelde
teknolojinin gelişmesiyle birlikte MPI, MapReduce ve Dryad modelleri geliştirilmiştir. Büyük
Veri analizinde en çok kullanılan Hadoop, Spark, Pig gibi çeşitli sistemler bu modelleri
kullanmaktadır. Büyük Veri analiz yöntem ve tekniklerinden yapay sinir ağları sosyal bilimler
araştırma yöntemleriyle örtüşmemektedir. Çalışma mantığı farklıdır. Sosyal bilimlerde veri
139
toplanır ve sonra analiz edilirken, yapay sinir ağlarında veriler, birbirinden bağımsız paralel
işlemcilere ayrılmaktadır. Ayrıca yapay sinir ağları, programlanması zor olan veya mümkün
olmayan sistemler için geliştirilmiştir, eş zamanlı olarak bilgi işlenmektedir. Öte yandan
sosyal bilimlerde veri toplandıktan bir süre sonra analiz edilmektedir. Bu durum Büyük Veri
analizinde geleneksel analizlerin yetersiz kaldığı en önemli noktadır. Ancak internet
araştırmalarında, özellikle pazarlama temelli araştırmalarda anlık olarak verinin işlenmesi çok
önemli olduğu için geliştirilen sosyal medya izleme ve ölçümleme araçları veriyi anlık olarak
analiz edebilmektedir. Doğal dil işleme insan dillerinin analizi için bilgisayarların
kullanılmasına dayanmaktadır. Bilgisayarların metinleri farklı şekilde ifade etmesi, dilden dile
çevirmesi, metni anlaması ve çıkarımlar yapması gibi çeşitli görevlerin yapılabilmesini
amaçlanmaktadır. Bilgisayarların icat edildiğinden beri bilgisayarların dilleri anlaması üzerine
çalışmalar yapılmaya devam edilmektedir. Bu durum bu tez bağlamında yapılan araştırmada
doğal dil işleme üzerine yapılan ilk akademik çalışmalar incelendiğinde net olarak
anlaşılmaktadır. Doğal dil işlemenin en çok bilinen uygulamaları metin madenciliği ve fikir
madenciliğidir. Bu yöntemler yapısal olmayan verileri analiz ederek, bilgisayarların metni
veya veriyi anlaması, anlamlandırmasıyla ilişkilidir. Metin madenciliği içerik analiziyle, fikir
madenciliği de söylem analiziyle benzerdir ancak henüz çok yeni bir alandır. Fikir
madenciliği, bilgisayarların bağlam dahilinde metinlerin sahip olduğu öznel bilginin
çıkarması ve anlamlamdırmasıdır. Özellikle pazarlama alanında etkinliği olan fikir
madenciliğini, pazarlamacılar ürün ve markaları hakkında bilgi toplamak üzere
kullanmaktadırlar. Kurumlar hem kendi markalarını hem de rekabet halinde oldukları
markaları izlemeye ihtiyaç duymaktadırlar. Sosyal medyada markaları hakkında üretilen
içeriklere fikir madenciliği teknikleriyle yaklaşan pazarlamacılar, tüketicilerin olumlu,
olumsuz görüşlerine göre bir sonraki adımlarını belirleyebilmekte ve müşteri merkezli
pazarlama stratejileri geliştirebilmektedirler. Ancak çok yeni olan bu alan, henüz olgunluk
aşamasına gelmemiştir. Bilgisayarlar tarafından sadece sözcüklerin anlamları anlaşılabilir olsa
da bağlam içinde tam olarak metnin amacı kavranamamaktadır. Yapılan araştırmada da bu
alanın özellikle Büyük Veri’yle birlikte daha da popüler olmaya başladığı ve anlambilim ve
dilbilim üzerine yapılan çalışmaların hız kazandığı görülmektedir. Bu durum bir anlamda
Web 3.0’ün hayatımıza girmeye başlaması ve öneminin giderek artmasına da işarettir.
140
Ebschosct veritabanında yapılan taramada, Büyük Veri tekniklerinden veri
madenciliği 2012 öncesinde daha çatı bir konumdayken, 2012 yılı sonrasında her bir tekniğin
kendisinin akademik çalışmaların başlıklarında yer almaya başladığı gözlemlenmiştir.
Verilerin eş zamanlı işlenebilmesi için teknolojiler daha da geliştirilmiştir. Yapay sinir ağları
modellerinden olan MapReduce bu bağlamda akademik çalışmalarda en fazla artış gösteren
kavram olmuştur. En çok kullanılan Büyük Veri analiz teknolojisi olan Hadoop, Pig, Hive ve
Spark gibi çeşitli platformlar verinin anlık analizini sağlamaktadır ve yapılarında yapay sinir
ağları modeli olan MapReduce veya Dryad’ı bulundurmaktadırlar. Özellikle algoritma içeren
veri analiz tekniklerinin 2012 sonrasında akademik çalışmalarda artış göstermesi, matematik
ve bilgisayarların daha da iç içe olduğunu göstermektedir. Ayrıca bilgisayarların yaşamamıza
girdiği andan itibaren bilgisayarların insan dilini anlamasına yönelik çalışmalar devam
etmektedir ve Ebschosct veritabanındaki akademik çalışmalar incelendiğinde Büyük Veri’yle
birlikte son yıllara metin madenciliği ve fikir madenciliği konuları üzerine yapılan akademik
çalışmaların arttığı gözlemlenmiştir. Bunun temel nedenleri de sosyal medyanın yaşamımızda
öneminin artması, rekabetçi pazarlama ortamının kişileri sürekli olarak izleyip ölçümlemesi,
müşteri odaklı pazarlama stratejilerini geliştirmek ve daha çok kar etmek için yapılan
yatırımlardır.
Son olarak bu çalışmanın sınırlılıklarına ve beraberinde geleceğe yönelik önerilere
değinecek olursak; bu tez bağlamında yapılan araştırmada mevcut istatistiksel yöntemlerle
Büyük Veri’nin analizinin mümkün olup olmadığı sadece literatür taraması sonucunda
ulaşılmış olması, bu durumun test edilememiş olması çalışmanın sınırlılıklarındandır. Ayrıca
belirtmek gerekir ki bu tez çalışması biraz geniş yelpazededir. Daha derinlemesine ve sadece
sosyal bilimlerdeki araştırma yöntemleriyle ya da sadece mevcut istatistiksel yöntemlerle
Büyük Veri analizindeki yöntemlere odaklanılarak test edilebilmesi şeklinde geliştirilebilir.
Ya da akademik çalışmalarda kullanımının birkaç farklı veritabanı üzerinden yürütülerek
sonuçların değerlendirilmesi daha yararlı olacaktır.
141
KAYNAKÇA
Ackland, R. (2013). Web Social Science: Concepts, Data and Tools for Social Scientists in the
Digital Age. Londan: Sage.
Ackoff, R. L. (1999). On learning and the systems that facilitate it. Reflections: The SoL
Journal , 14-24.
Agafonoff, N. (2006). Adapting ethnographic research methods to ad hoc commercial market
research. Qualitative Market Research: An International Journal, 115 - 125.
http://www.emeraldinsight.com/doi/pdfplus/10.1108/13522750610658766 adresinden
alınmıştır
Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In Proc. 20th
int. conf. very large data bases (s. 487-499). CA: VLDB .
Akbaş, Y., & Takma, Ç. (2005). Canonical correlation analysis for studying the relationship
between egg production traits and body weight, egg weight and age at sexual maturity
in layers. Czech Journal Of Animal Science, 163-168.
Akgün, A., & Keskin, H. (2003). Sosyal Bir Etkileşim Süreci Olarak Bilgi Yönetimi ve Bilgi
Yönetimi Süreci. Gazi Üniversitesi İktisadive İdari Bilimler Fakültesi Dergisi, 1-17.
Akpınar, H. (2014). Data. İstanbul: Papatya Yayıncılık.
Aktaş, M. C. (2015). Nitel Veri Toplama Araçları. M. Metin içinde, Eğitimde Bilimsel
Araştırma Yöntemleri (s. 337-370). Ankara: Pegem.
Akturan, U. (2007). Tüketici Davranışlarına Araştırmalarda Alternatif Bir Teknik:Etnografik
Araştırma. İstanbul Ticaret Üniversitesi Sosyal Bilimler Dergisi , 237-252.
Alpaydın, E. (2000). Zeki Veri Madenciliği. Bilisim 2000 Egitim Semineri. İstanbul. Nisan 2,
2015 tarihinde http://www.cmpe.boun.edu.tr/~ethem/ adresinden alındı
142
Alyanak, Z. B. (2013). Etnografi ve Çevrimiçi Etnografi. M. Binark içinde, Yeni Medya
Çalışmalarında Araştırma Yöntem ve Teknikleri (s. 152). İstanbul: Ayrıntı.
Anı Yayıncılık Eğitim ve Danışmanlık. (2015). ATLAS.ti. 06 12, 2015 tarihinde Anı
Yayıncılık Eğitim ve Danışmanlık: http://www.aniegitim.com.tr/yazilimlar.php?p=17
adresinden alındı
Anthony, S. (2013, Ocak 28). DARPA shows off 1.8-gigapixel surveillance drone, can spot a
terrorist from 20,000 feet. Şubat 10, 2015 tarihinde extremetech:
http://www.extremetech.com/extreme/146909-darpa-shows-off-1-8-gigapixel-
surveillance-drone-can-spot-a-terrorist-from-20000-feet adresinden alındı
Arnould, E., & Wallendorf, M. (1994). Market-Oriented Ethnography:Interpretation Building
and Marketing Strategy Formulation. Journal of Marketing Research, 484-505.
Askitas, N., & Zimmermann, K. F. (2009). Google Econometrics and Unemployment
Forecasting. IZA Discussion Paper, 1-22.
Atlas, M. (2013). Zaman Serileri Analizi. E. Şıklar, & A. Özdemir içinde, İstatistik II (s. 138-
162). Eskişehir: Anadolu Üniversitesi Yayınları.
Atlasti. (2015). Why Atlas.ti? 06 18, 2015 tarihinde Atlasti: http://atlasti.com/ adresinden
alındı
AtWork. (2008). What Reseachers mean by Primary Data and Secondary Data. AtWork(54),
1-8.
Aytekin, Ç. (2011). Müşteri İlişkileri Yönetimi için Bloglar Üzerinde Fikir Madenciliği-
Doktora Tezi. İstanbul.
Aziz, A. (2011). Sosyal Bilimlerde Araştırma Yöntemleri ve Teknikleri. Ankara: Nobel Yayın
Dağıtım.
Bahar, E. (2003). Görüşme Yönteminin Avantajları ve Dezavantajları. 06 14, 2015 tarihinde
Görüşme Yönteminin Avantajları ve Dezavantajları:
143
http://emrebahar.blogspot.com.tr/2012/03/gorusme-yonteminin-avantajlari-ve.html
adresinden alındı
Bayraktutan, G., Binark, M., Aydemir, A. T., Doğu, B., Çomu, T., & İslamoğlu, G. (2013).
Sosyal medya ortamlarının siyasal iletişim uygulamaları açısından incelenmesi:
Türkiye'de 2011 genel seçimlerinde facebook ve twitter'in siyasi partiler ve liderler
tarafından kullanılması. Ankara: Tübitak.
http://uvt.ulakbim.gov.tr/uvt/index.php?cwid=3&vtadi=TPRJ&s_f=_5&detailed=1&k
eyword=159193 adresinden alınmıştır
Ben-Dor, A., Shamir, R., & Yakhini, Z. (1999). Clustering gene expression patterns. Journal
of computational biology, 281-297.
Bennet, R., & Helen, G. (1999). Organizational Factors and Knowledge Management within
Large Marketing Departments: An Empirical Study. Journal of Knowledge
Management,, 212-225.
Birgili, B. (2015). Temellendirilmiş Kuram (Grounded Theory). F. N. Seggie, & Y. Bayyurt
içinde, Nitel Araştırma Yöntem, Teknik, Analiz ve Yaklaşımları (s. 103-114). Ankara:
Anı Yayıncılık.
Bluman, A. (2009). Elementary Statistics. New York: McGraw-Hill.
Borenstein, M., Hedges, L. V., Higgins, J. P., & Rothstein, H. R. (2011). Introduction to
meta-analysis. John Wiley & Sons.
Boyd, d., & Crawford, K. (2011, September 21). Six Provocations for Big Data. A Decade in
Internet Time: Symposium on the Dynamics of the Internet and Society, 1-17.
http://ssrn.com/abstract=1926431 adresinden alınmıştır
Boyd, D., & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural,
technological, and scholarly phenomenon. Information, communication & society,
662-679.
144
BThaber. (2012, Ocak 22). (BThaber) Aralık 11, 2014 tarihinde Yapılandırılmış verinin
önemi: http://www.bthaber.com/yapilandirilmis-verinin-onemi adresinden alındı
Büyüköztürk, Ş. (2008). Bilimsel Araştırma Yöntemleri. Ankara: Pegem Yayıncılık.
Büyüköztürk, Ş., Çakmak, E., Akgün, Ö., Karadeniz, Ş., & Demirel, F. (2014). Bilimsel
Araştırma Yöntemleri. Ankara: Pegem.
Cabena, P., Hadjinian, P., Stadler, R., Verhees, J., & Zanasi, A. (1997). Discovering Data
Mining: From Concept To Implementation. New Jersey: Prentice Hall PTR, Upper
Saddle River.
Celep, C., & Çetin, B. (2003). Bilgi Yönetimi. Ankara: Anı Yayıncılık.
Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business Intelligence and Analytics:From
Big Data To Big Impact. MIS Quarterly, 4, 1-24.
Chen, M., ShiwenMao, Zhang, Y., & Leung, V. C. (2014). Big Data Related Technologies,
Challenges and Future Prospects. New York: Springer.
Cho, A. (2008, Temmuz 22). What is Web 3.0? suite.io: https://suite.io/allan-cho/wy92cm1
adresinden alınmıştır
Chowdhury, G. G. ( 2003). Natural language processing. Annual review of information
science and technology, 51-89.
Cisco. (2013, Temmuz 29). Connections Counter: The Internet of Everything in Motion.
Şubat 7, 2015 tarihinde The Network Cisco's Techology News Site:
http://newsroom.cisco.com/feature-content?type=webcontent&articleId=1208342
adresinden alındı
Coyle, K. (2006). Managing technology: one world digita. Journal of Academic
Librarianship, 205-207.
Crano, W. D., & Brewer, M. B. (2002). Principles of research in social psychology. New
Jersey: McGraw-Hill.
145
Croll, A. (2012). Big data is our generation’s civil rights issue, and we don’t know it. Big data
now, 55-59.
Çakır, M. (tarih yok). Nvivo'ya Genel Bir Bakış. 06 18, 2015 tarihinde Nvivo'ya Genel Bir
Bakış: http://dosya.marmara.edu.tr/akademikgelisim/sunum/Nvivo.pdf adresinden
alındı
Çakıroğlu, Ü., & Özyurt, Ö. (2006). Türkçe Metinlerdeki Yazım Yanlışlarına Yönelik
Otomatik Düzeltme Modeli. Elektrik‐Elektronik‐Bilgisayar Mühendisliği Sempozyumu
ve Fuarı. Bursa: ELECO. http://www.emo.org.tr/ekler/6e07156db854ca7_ek.pdf
adresinden alınmıştır
Çelik, H., & Ekşi, H. (2008). Söylem Analizi. Marmara Üniversitesi Eğitim Bilimleri Dergisi,
99-117.
Çelik, M. (2004). Bilgi ve Hikmet:Enformasyon Toplumu'nun Belleği. İstanbul: Kaknüs
Yayınlar.
Çepni, S. (2007). Araştırma ve Proje Çalışmalarına Giriş. Trabzon: Celepler Matbaacılık.
Çomu, T., & Halaiqa, İ. (2014). Web İçeriklerinin Metin Temelli Çözümlenmesi. M. Binark
içinde, Yeni Medya Çalışmalarında Araştırma yöntem ve teknikleri (s. 26-87).
İstanbul: Ayrınt.
Daşdemir, İ., & Güngör, E. (2002). Çok boyutlu karar verme metotları ve ormancılıkta
uygulama alanları. Uluslararası Bartın Orman Fakültesi Dergisi, 1-19.
Davenport, T. H., & Prusak, L. (1998). Working knowledge: How organizations manage what
they know. Harvard Business Press.
Davenport, T. H., & Prusak, L. (2001). İş Dünyasında Bilgi Yönetimi: Kuruluşlar Ellerindeki
Bilgiyi Nasıl Yönetirler. (G. Günay, Çev.) İstanbul: Rota Yayınları.
Davenport, T. H., Barth, P., & Bean, R. (2012). How 'Big Data' Is Different. MIT Sloan
Management Review, 21-24.
146
Demirbaş, M. (2015). Bilimsel Araştırma ve Özellikleri. M. Metin içinde, Eğitim Bilimsel
Araştırma Yöntemleri (s. 3-19). Ankara: Pegem.
Diebold, F. X. (2012, Ağustos). A Personal Perspective on the Origin(s) and Development of
“Big Data”:The Phenomenon, the Term, and the Discipline. Şubat 3, 2015 tarihinde
http://www.ssc.upenn.edu/~fdiebold/papers/paper112/Diebold_Big_Data.pdf
adresinden alındı
Dilmen, N. E., & Öğüt, S. (2006). Yeni İletişim Ortamları ve Etkileşime İletişimsel Bilişim
Yaklaşımı. Yeni İletişim Ortamları ve Etkileşim Uluslararası Konferansı. İstanbul.
Dodge, M., & Kitchin, R. (2003). Codes of life: identification codes and the machine-readable
world. Environment and Planning D. In Society and Space, 23(6), 851 – 881.
Dodge, Y. (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press.
Dorinsgiht. (tarih yok). Online Etnografi. 06 14, 2015 tarihinde Online Etnografi:
http://www.dorinsight.com/arastirma-cozumlerimiz/online-etnografi adresinden alındı
Doug, H. (2011, 7 11). SOFTWARE // INFORMATION MANAGEMENT. 2 5, 2015 tarihinde
InformationWeek: http://www.informationweek.com/database/hadoop-spurs-big-data-
revolution/d/d-id/1101160?page_number=2 adresinden alındı
Dumbill, E. (2012, Ocak 11). What is big data? Ocak 29, 2015 tarihinde Oreilly Radar:
http://radar.oreilly.com/2012/01/what-is-big-data.html#velocity adresinden alındı
Dura, C., & Atik, H. (2002). Bilgi Toplumu, Bilgi Ekonomisi Ve Türkiye. İstanbul: Literatür
Yayıncılık.
Durna, U., & Demirel, Y. (2008). Bilgi Yönetiminde Bilgiyi Anlamak. Erciyes Üniversitesi
İktisadi ve İdari Bilimler Fakültesi Dergisi , 129-156.
Durucasu, H. (2013). Regresyon ve Korelasyon Analizi. A. Özdemir içinde, İstatistik II (s.
116-137). Eskişehir: Anadolu Üniversitesi.
147
Earl, M. J. (1994). Knowledge as strategy: reflections on Skandia International and Shorko
Films. In Strategic information systems. John Wiley & Sons, Inc., 53-69.
Esgin, E. (2009). Literatür Taraması Ana Hatlar. 2015 tarihinde Mimoza Marmara:
http://mimoza.marmara.edu.tr/~esad.esgin/BAY/documents/Literatur_Taramasi.pdf
adresinden alındı
Evans, D. (2011). The Internet of Things How the Next Evolution of the Internet Is Changing
Everything. CISCO white paper, 1-11.
Fayyad, U., Shapiro, G. P., & Symth, P. (1996). From Data Mining To Knowledge Discovery
in Databases,. AI Magazine,, 37-54.
Feinerer, I., Hornik, K., & Meyer, D. (2008). Text Mining Infrastructure in R. Journal Of
Statistical Software, 1-54.
Fiske, S. T., Gilbert, D. T., & Lindzey, G. (2010). Handbook of Social Psychology. Wiley.
Floridi, L. (2010). Information: A Very Short Guide. Oxford: Oxford University Press.
Ford, R., & Wiedemann, J. (2015). Internet Survey Case Studies. Taschen. Haziran 14, 2015
tarihinde
http://www.rand.org/content/dam/rand/pubs/monograph_reports/MR1480/MR1480.ch
6.pdf adresinden alındı
Fraenkel, J. R., & Wallen, N. E. (2007). How to Design and Evaluate Research in Education
(5th edn.). New York: MacGraw-Hill.
Gall, M. D., Borg, W. R., & Gall, J. P. (1996). Educational Research an Introduction. USA:
Longman Publisher.
Galli, T. (2012). Get more from RFID: Extract real value from big data. HP White Paper.
Gamgam, H., Ekni, M., & Esin, A. (2006). İstatistik. Ankara: Gazi Kitapevi.
148
Ganz, J., & Reinsel, D. (2011). Extracting Value from Chaos. IDC iView, 1-12.
https://www.emcgrandprix.com/collateral/analyst-reports/idc-extracting-value-from-
chaos-ar.pdf adresinden alınmıştır
Geray, H. (2011). Toplumsal Araştırmalarda Nicel ve Nitel Yöntemlere Giriş. Ankara:
GenesisKitap.
Gharehchopogh, F. S., & Khalifelu, Z. A. (2011). Analysis and Evaluation of Unstructured
Data:Text Mining versus Natural Language Processing. In Application of Information
and Communication Technologies (AICT), 2011 5th International Conference (s. 1-4).
IEEE.
Ghemawat, S., Gobioff, H., & Leung, S.-T. (2003). The Google File System. ACM SIGOPS
operating systems review , 29-43.
Gilliland Swetland, A. J. (2000). Setting the stage. Introduction to metadata: Pathways to
digital information, 1-12.
Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Mark S. Smolinski, & Brilliant, L.
(2009, Şubat 19). Detecting influenza epidemics using. Nature, s. 1012-1014.
Google Grip Trendleri. (2011). Google Grip Trendleri|Nasıl? Şubat 23, 2015 tarihinde
Google: http://www.google.org/flutrends/about/how.html adresinden alındı
Goulding, C. (2005). Grounded Theory, Ethnography and Phenomenology A Comparative
Analysis of Three Qualitative Strategies for Marketing Research. European Journal of
Marketing, 294-308.
Göçmen, M. ( 2012, Mart 21). Z score. slideshare.net:
http://www.slideshare.net/mgocmen37/z-skorzscore adresinden alınmıştır
Gökçe, O. ( 2006). İçerik Analizi. Ankara: Siyasal Kitabevi.
Gray, J., & Liu, T. D. (2005). Scientific Data Management in the Coming Decade. Redmond:
Microsoft Research Microsoft Corporation One Microsoft Way.
149
Greenberg, J. (2005). Understanding Metadata and Metadata Schemes. Cataloging &
classification quarterly, 17-36.
Guardian US Interactive Team. (2013, Haziran 12). A Guardian guide to yourmetadata |
technology | theguardian.com. 2 16, 2015 tarihinde The Guardian:
http://www.theguardian.com/technology/interactive/2013/jun/12/what-is-metadata-
nsa-surveillance#meta=0000000 adresinden alındı
Guzman, G. (2011). Internet search behavior as an economic forecasting tool: The case of
inflation expectations. Journal of Economic and Social Measurement, 119–167.
Güler, A. (2013). Sosyal Bilimlerde Nitel Araştırma Yöntemleri. Ankara: Seçkin.
Gürdal, O. (2000). Tekstil Endüstrisinde Enformasyon Olgusu. Ankara: Türk Kütüphaneciler
Derneği.
Gürsakal, N. (2014). Büyük Veri. Bursa: Dora.
Halevi, G., & Moed, H. (2012, Kasım 30). The Evolution of Big Data as a Research and
Scientific Topic: Overview of the Literature. Research Trends, s. 3-7.
Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. Waltham:
Morgan Kaufmann Publishers.
Han, J., Kamber, M., & Tung, A. (2001). Spatial clustering methods in data mining: A survey.
M. H., & H. J. içinde, Geographic Data Mining and Knowledge Discovery (s. 1-27).
Miller: Taylor and Francis.
Hangouts, G. (2015). Google Hangouts. 06 14, 2015 tarihinde Google Hangouts:
http://www.google.com/+/learnmore/hangouts/?hl=tr adresinden alındı
Hilbert, M., & López, P. (2012). How to measure the world’s technological capacity to
communicate, store and compute information? Part I: Results and scope. International
Journal of Communication 6, 956–979.
150
Hill, K. (2012, Temmuz 2). Max Schrems: The Austrian Thorn In Facebook's Side. Temmuz
2015, 11 tarihinde Forbes: http://www.forbes.com/sites/kashmirhill/2012/02/07/the-
austrian-thorn-in-facebooks-side/ adresinden alındı
Holmes, N. (2001). The great term robbery. Computer, 94–96.
IDC iView. (2010). A Digital Universe Decade – Are You Ready? IDC iView.
https://gigaom.files.wordpress.com/2010/05/2010-digital-universe-iview_5-4-10.pdf
adresinden alınmıştır
Issenberg, S. (2012, December 16). How President Obama’s campaign used big data to rally
individual voters. Şubat 4, 2015 tarihinde MIT Technology Review:
http://www.technologyreview.com/featuredstory/508836/how-obama-used-big-data-
to-rally-voters-part-1/ adresinden alındı
Jacobs, A. (2009). The pathologies of big data. . Communications of the ACM, 52(8), 36-44.
Jupp, V. (2006). The Sage Dictionary of Social Research Methods. London: Sage
Publications.
Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. (2013). Big data: Issues and challenges
moving forward. . 46th Hawaii International Conference on In System Sciences (s.
995-1004). Hawaai: IEEE.
Kalseth, K., & Cummings, S. (2001). Knowledge Management:Development Strategy or
Business Strategy? Information Development, 163-172.
Kaptan, S. (1998). Bilimsel Araştırma ve İstatistik Teknikleri. Ankara: Tek Işık Web Ofset
Tesisleri.
Karagöz, Y., & Ekici, S. (2004). Sosyal Bilimlerde Yapılan Uygulamalı Araştırmalarda
Kullanılan İstatistiksel Teknikler Ve Ölçekler. C.Ü. İktisadi ve İdari Bilimler Dergisi,
25-43.
Karakaya, İ. (2009). Bilimsel Araştırma Yöntemleri. A. Tanrıöğen içinde, Bilimsel Araştırma
Yöntemleri (s. 55- 84). Ankara: Anı Yayıncılık.
151
Karasar, N. (2011). Bilimsel Araştırma Yöntemi. Ankara: Nobel Yayınları.
Kaya, Ö. (2015). Temellendirilmiş Teori. M. Metin içinde, Eğitimde Bilimsel Araştırma
Yöntemleri (s. 239-260). Ankara: Pegem Yayıncılık.
Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and
Their Consequences. Londra: Sage.
Kohavi, R., & Longbotham, R. (2015). Online Controlled Experiments and AB Tests.
Encyclopedia of Machine Learning and Data Mining, 1-11. Mayıs 23, 2015 tarihinde
http://www.exp-
platform.com/Documents/2015%20Online%20Controlled%20Experiments_Encyclop
ediaOfMLDM.pdf adresinden alındı
Kozinets, R. (2010). Netnography: Doing Ethnographic Research Online. London: Sage
Publications.
KrishnaKumar, A., Amrita, D., & Priya, N. S. (2013, Nisan). Mining Association Rules
between Sets of Items in Large Databases. International Journal of Science and
Modern Engineering (IJISME), s. 24-27.
Krotoski, A. (2012, Nisan 22). The Guardian. 2 8, 2014 tarihinde Big Data age puts privacy
in question as information becomes currency:
http://www.theguardian.com/technology/2012/apr/22/big-data-privacy-information-
currency adresinden alındı
Laney, D. (2001). 3D data management: Controlling data volume, velocity and variety. META
Group Research Note, 6. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-
Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf adresinden
alınmıştır
Laney, D. (2011). Information Economics, Big Data and the Art of the Possible with
Analytics. Gartner. https://www-
950.ibm.com/events/wwe/grp/grp037.nsf/vLookupPDFs/Gartner_Doug-
%20Analytics/$file/Gartner_Doug-%20Analytics.pdf adresinden alınmıştır
152
Lewin, C. (2009). Elementary Quantitave Methods. B. Somekh, & C. Lewin içinde, Research
Medhods in the Social Sciences (s. 215-226). Los Angeles: Sage.
Liddy, E. D. (1999). Natural Language Processing. Encyclopedia of Library and Information
Science (s. 1-14). içinde Marcel Decker Inc. Nisan 24, 2015 tarihinde
https://datajobs.com/data-science-repo/NLP-Background-[SU].pdf adresinden alındı
Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.
Haziran 12, 2015 tarihinde http://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-
OpinionMining.pdf adresinden alındı
Lohr, S. (2012, Şubat 11). The Sunday Review. Şubat 1, 2015 tarihinde The New York Times:
http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-
world.html?pagewanted=all adresinden alındı
Maimon, O., & Rokach, L. (2010). Data Mining and Knowledge Discovery Handbook. New
York: Springer.
Malone, R. (2007, 4 5). Structuring Unstructured Data. Forbes:
http://www.forbes.com/2007/04/04/teradata-solution-software-biz-logistics-
cx_rm_0405data.html adresinden alınmıştır
Manovich, L. (2011). Trending:The Promises and The Challenges of Big Social Data. G. K.
içinde, Debates in the Digital Humanities (s. 460-476). U of Minnesota Press.
Manyika, M. C., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., & Byers, A. H. (2011). Big
data: The next frontier for innovation, competition, and productivity.
Marr, B. (2014, Mart 6). Big Data: The 5 Vs Everyone Must Know. Temmuz 20, 2014
tarihinde Linkedin: https://www.linkedin.com/pulse/20140306073407-64875646-big-
data-the-5-vs-everyone-must-know adresinden alındı
Marz, N., & Warren, J. (2012). Big Data. Principles and best practices of scalable realtime
data systems. MEAP Edition, Manning Early Access Program.
153
Mathematical Association of America. (2012). Mathematics Awareness Month 2012 April is
Mathematics Awareness Month! Şubat 4, 2015 tarihinde Mathematical Association of
America: http://www.maa.org/mathematics-awareness-month-2012 adresinden alındı
Mauro, A. D., Greco, M., & Grimaldi, M. (2014). What is Big Data? A Consensual Definition
and a Review of Key Research Topics. 4th International Conference on Integrated
Conference (s. 97-104). New York: AIP Conference Proceedings.
Mayer-Schönberger, V., & Cukier, K. (2013). Büyük Veri. (B. Erol, Çev.) İstanbul: Palome
Yayıncılık.
Mert, E. (2014). Anket, Çevrimiçi Anket Tekniği ve Çevrimiçi'nde Anketin Uyguanması. M.
Binark içinde, Yeni Medya Çalışmalarında Araştırma Yöntem ve Teknikleri (s. 88-
117). İstanbul: Ayrıntı Yayınları.
Mertins, K., Heisig, P., & Vorbeck, J. (2003). Knowledge Management: Concepts and Best
Practices. Spinger.
Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the netflix prize dataset.
arXiv:cs/0610105v2. http://arxiv.org/pdf/cs/0610105v2.pdf adresinden alınmıştır
NASA Technology. (2015). Landsat Data Enriches Google Earth. Mart 1, 2015 tarihinde
NASA Spinnoff: http://spinoff.nasa.gov/Spinoff2015/ee_1.html adresinden alındı
National Information Standards Organization. (2004). Understanding Metadata. Bethesda:
NISO Press.
Neuman, L. W. (2012). Toplumsal Araştırma Yöntemleri:Nicel ve Nitel Yaklaşımlar. (S.
Özge, Çev.) İstanbul: Yayınodası Yayıncılık.
Nussbaum, R., Esfahanian, A.-H., & Tan, P.-N. (2010). Clustering Social Networks Using
Distance-preserving Subgraphs. International Conference on Advances in Social
Networks Analysis and Mining (s. 380-385). East Lansing: IEEE.
Oğuzlar, A. (2003, Temmuz-Aralık). Veri Ön İşleme. Erciyes Üniversitesi İktisadi ve İdari
Bilimler Fakültesi Dergisi, 67-76.
154
Open Data Center Alliance. (2012). Open Data Center Alliance: Big Data Consumer Guide.
Open Data Center Alliance. Mart 12, 2015 tarihinde
http://www.opendatacenteralliance.org/docs/Big_Data_Consumer_Guide_Rev1.0.pdf
adresinden alındı
Oracle. ( 2003). Oracle, E‐İşte Başarı Yöneticinin Yol Haritası, Türkiye, 3. Baskı,. İstanbul:
Oracle Press.
Orkan, A. L. (1992). Bilişim Teorisi: Temel Kavramlar. İstanbul: Marmara Üniversitesi
Teknik Eğitim Fakültesi Matbaa Birimi.
Öğülmüş, S. (1991). İçerik Çözümlemesi. Ankara Üniversitesi Eğitim Bilimleri Fakültesi
Dergisi, 213-228.
Özdemir, E. (2015). Tarama Yöntemi. M. Metin içinde, Eğitimde Bilimsel Araştırma
Yöntemleri (s. 77-97). Ankara: Pegem Yayıncılık.
Özer, Ö. (2009). Eleştirel Haber Çözümlemeler. Eskişehir: Anadolu Üniversitesi İletişim
Bilimleri Fakültesi Yayınları.
Özkan, Y. (2013). Veri Madenciliği Yöntemleri. İstanbul: Papatya Yayıncılık.
Özmen, A. (2013). İstatistiksel Karar Alma. E. Şıklar, & A. Özdemir içinde, İstatistik II (s.
66-103). Eskişehir: Anadolu Üniversitesi Yayınları.
Özüdoğru, Ş. (2014). Nitel Araştımanın İletişim Araştırmalarında Rol ve Önemi. Global
Media Journal: Turkish Edition , 260-275.
Pektaş, A. O. (2013). SPPS ile Veri Madenciliği. İstanbul: Dikeyeksen.
Peter J. A., S. (2009). Multivariate Statistics for the Environmental Sciences. New York:
Hodder Arnold.
Poynter, R. (2012). İnternet ve Sosyal Medya Araştırmaları El Kitabı. (Ü. Şensoy, Çev.)
İstanbul: Optimist.
Prytherch, R. J. (2005). Harrod's Librarians' Glossary And Reference Book. Gower.
155
Punch, K. F. (2011). Sosyal Araştırmalara Giriş Nicel ve Nitel Yaklaşımlar. (D. Bayrak, H. B.
Arslan, & Z. Akyüz, Çev.) Ankara: Siyasal Kitabevi.
QSRinternational. (2015). QSR International. Haziran 11, 2015 tarihinde Nvivo| Features and
benefits: http://www.qsrinternational.com/products_nvivo_features-and-benefits.aspx
adresinden alındı
QSRinterneational. (2015). Qualitative Data Analysis Software | Nvivo. Haziran 11, 2015
tarihinde QSR Interneational: http://www.qsrinternational.com/products_nvivo.aspx
adresinden alındı
Raffi, K. (2014, Nisan 17). Twitter Data Grants Selections. Twitter Blogs:
https://blog.twitter.com/2014/twitter-datagrants-selections adresinden alınmıştır
Rajaraman, A., Leskovec, J., & Ullman, J. D. (2014). Mining od Massive Datasets.
Cambridge University Press.
Rial, N. (2013, Mayıs 24). The power of big data in Europe. Şubat 7, 2015 tarihinde
NewEurope: http://www.neurope.eu/article/power-big-data-europe adresinden alındı
Rokach, L. (2010). A survey of Clustering Algorithms. O. Maimon, & L. Rokach içinde, Data
Mining and Knowledge Discovery Handbook (s. 269-299). London: Springer.
Rosenberg, D. (2013). Data Before the Fact. Oregon: Text for American Historical
Association.
Ruffatti, G. (2013, Mart 7). Value is the most meaningful V for Big Data. SpagoWorld:
http://blog.spagoworld.org/2013/03/value-is-the-most-meaningful-v-for-big-data/
adresinden alınmıştır
Sağlam, M., & Yüksel, i. (2007). Program değerlendirmede meta-analiz ve meta
değerlendirme yöntemleri. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi, (18),
175-189.
Sağsan, M. (2009). Knowledge Mangement Discipline; Test for Undergraduate Program in
Turkey. eJournal of Knowlege Management, 627-638.
156
Saillard, E. K. (2009). NVivo8 ile Nitel Araştırma Projeleri. NVivo8 ile Nitel Araştırma
Projeleri:
http://www.academia.edu/9092986/NVivo8_ile_Nitel_Ara%C5%9Ft%C4%B1rma_Pr
ojeleri adresinden alınmıştır
Sankur, B. (2004). Bilişim Sözlüğü. İstanbul : Pusula Yayıncılık.
Saporito, P. (2014, Ocak 24). 2 More Big Data V’s — Value And Veracity. Temmuz 17, 2015
tarihinde www.digitalistmag.com: http://www.digitalistmag.com/big-data/2-more-big-
data-vs-value-and-veracity-01242817 adresinden alındı
Saporta, G. (2000). Data Mining and Official Statistics. Quinta Conferenza Nationale di
Statistica (s. 1-4). Roma: ISTAT.
Sarstedt, M., & Mooi, E. (2014). Cluster Analysis. A Concise Guide to Market Research (s.
279-324). içinde Berlin: Springer .
Sencer, M. (1989). Toplum Bilimlerinde Yöntem. İstanbul: Beta Yayun Dağıtım.
Sharma, C. (2014, May). Big Data Analytics Using Neural networks.
http://scholarworks.sjsu.edu/cgi/viewcontent.cgi?article=1366&context=etd_projects
adresinden alınmıştır
Short, J. E., Bohn, R. E., & Baru, C. (2011). How much information? 2010 report on
enterprise server information. UCSD Global Information Industry Center.
Siegel, S. (1956). Nonparametric Statistics For The Behavioral Sciences. Newyork: McGraw-
Hill Book Company .
Silahtaroğlu, G. (2013). Veri Madenciliği Kavram ve Algoritmaları. İstanbul: Papatya.
Strohm, C., & Timothy R., H. (2013, Haziran 25). NSA Spying Row in Congress Ushers in
Debate Over Big Data. Şubat 8, 2015 tarihinde http://www.bloomberg.com/:
http://www.bloomberg.com/news/articles/2013-07-25/nsa-spying-row-in-congress-
ushers-in-debate-over-big-data adresinden alındı
157
Sumathi, S., & Sivanandam, S. N. (2006). Introduction to data mining and its applications
(Vol. 29). . New York: Springer Science & Business Media.
Sun, H., & Heller, P. (2012, Ağustos). Oracle Information Architecture:An Architect’s Guide
to Big Data. şubat 3, 2015 tarihinde https://academy.oracle.com/oa-web-
overview.html: http://www.codecdss.ie/wp-content/uploads/2014/07/oea-big-data-
guide-1522052.pdf adresinden alındı
Sütcü, C. S. (2013). cemsutcu.wordpress.com. Haziran 13, 2015 tarihinde Bioistatistik:
https://cemsutcu.wordpress.com/lisans-ogrencileri-icin/bioistatistik/ adresinden alındı
Sütcü, C. S., & Çiğdem, A. (2013). Elektronik Ticaretten Sosyal Ticarete Dönüşüm Süresinde
Ölçümleme. İstanbul: Derin Yayınevi.
Sütcü, C. S., Çiğdem, A., Kara, T., Akyazı, E., Dilmen, N. E., & Değerli, B. (2014). Jetfighter
Down! Predicting Opinions with Twitter and the Role of Social Media in Turkey
Within Context of Attribute Agenda-Setting Theory. Uluslararası Sosyal Araştırmalar
Dergisi, 7(34), 875-889.
Swoyer, S. (2012, Temuz 24). Big Data -- Why the 3Vs Just Don't Make Sense--TDWI.
Temmuz 19, 2015 tarihinde tdwi.org: http://tdwi.org/Articles/2012/07/24/Big-Data-
4th-V.aspx?Page=1 adresinden alındı
Şıklar, E. (2013). Ki-Kare Testi. E. Şıklar, & A. Özdemir içinde, İstatistil-II (s. 104-115).
Eskişehir: Anadolu Üniversitesi .
Tabachnick, B., & Fidel, L. (1996). Using Multivariate Statistics. California: North Bridge.
Tang, Z., & MacLennan, J. (2005). Data Mining with SQL Server 2005. Indiana: Wiley.
Tavşancıl, E., & Aslan, E. (2001). İçerik Analizi Uygulama ve Örnekleri. İstanbul: Epsilon
Yayınevi.
TDK. (2006, 09 26). Türk Dil Kurumu. Haziran 09, 2015 tarihinde Türk Dil Kurumu:
http://www.tdk.gov.tr/index.php?option=com_gts&arama=gts&guid=TDK.GTS.5577
4d3a38ba93.44896020 adresinden alındı
158
TDK. (2006). Türk Dil Kurumu. Haziran 3, 2015 tarihinde Türk Dil Kurumu:
http://www.tdk.gov.tr/index.php?option=com_bts&arama=kelime&guid=TDK.GTS.5
57a03ec7aabb5.66386813 adresinden alındı
Tekbıyık, A. (2015). İlişkisel Araştırma Yöntemi. M. Metin içinde, Eğitimde Bilimsel
Araştırma Yöntemleri (s. 99-114). Ankara: Pegem Yayıncılık.
The Economist. (2010). Data, data everywhere A special report on managing information.
SAP.
Thiprungsri, S., & Vasarhelyi, M. A. (2011). Cluster Analysis for Anomaly Detection in
Accounting Data: An Audit Approach. The International Journal of Digital
Accounting Research, 69-84.
Törenli, N. (2004). Enformasyon Toplumu ve Küreselleşme Sürecinde Türkiye. İstanbul:
Bilim ve Sanat.
Transparency Market Research. (2012). Big Data Market - Global Scenario, Trends, Industry
Analysis, Size, Share and Forecast 2012-2018. Kanada: Transparency Market
Research. Şubat 27, 2015 tarihinde http://www.transparencymarketresearch.com/big-
data-market.html adresinden alındı
Tuomi, I. (2000). Data is More Than Knowledge: Implications of the Reversed Knowledge
Hierarchy for Knowledge. Journal of Management Information Systems, 107-121.
Turban, E., King, D., Lee, J., & Turban, D. C. (2012). Electronic commerce 2012:
Managerial and social networks perspectives. Boston: Pearson.
Türken, S. (2013). Anket ve Gözlem Teknikleri. 05 14, 2015 tarihinde Akademia:
http://www.academia.edu/5422060/Anket_ve_G%C3%B6zlem_Teknikleri adresinden
alındı
Two Crows Corporation. (1998). Edelstein, H. A. 1-36. Mart 12, 2015 tarihinde
http://www.twocrows.com/intro-dm.pdf adresinden alındı
159
Varnalı, K. (2013). Dijital Kabilelerin İzinde Sosyal Medyada Netnografik Araştırmalar.
İstanbul: MediaCat.
VerisignInc. (2013). Alan Adı Endüstrisi Özeti. VerisignInc.
http://www.verisigninc.com/assets/domain-name-brief-april2013-tr.pdf adresinden
alınmıştır
Vorhies, B. (2013, Ekim 31). How Many “V”s in Big Data – The Characteristics that Define
Big Data. Temmuz 18, 2015 tarihinde data-magnum.com: http://data-
magnum.com/how-many-vs-in-big-data-the-characteristics-that-define-big-data/
adresinden alındı
Wang, F. Y., Daniel, Z., Carley, K. M., & Mao, W. (2007). Social computing: From social
informatics to social intelligence. Intelligent Systems, IEEE, 22(2), 79-83.
Weber, R. (2001). Statistics. Haziran 12, 2015 tarihinde
http://www.statslab.cam.ac.uk/~rrw1/stats/ adresinden alındı
Widup, S. (2010 ). The Leaking Vault: Five Years of Data Breaches . Digital Forensics
Association.
Wiersma, W. (2000). Research Methods in Education: An Introduction. USA: Allyn and
Bacon.
Wired. (2008, Haziran 23). Wired. Şubat 2, 2015 tarihinde http://www.wired.com/:
http://archive.wired.com/science/discoveries/magazine/16-07/pb_intro adresinden
alındı
Wu, E., Ng, M., Yip, A., & Chan, T. (2004). A Clustering Model for Mining Evolving Web
User Patterns in Data Stream Environment. Wu, E. H., Ng, M. K., Yip, A. M., & Chan,
T. F. (2004). A clustering In Intelligent Data Engineering and Automated Learning–
IDEAL (s. 565-571). Berlin Heidelberg: Springer.
Yeung, R. (2001, mart 15). www.cityu.edu.hk. 2015 tarihinde
personal.cityu.edu.hk/~mepatri/knowledge_management.ppt adresinden alındı
160
Yıldırım, A., & Şimşek, H. (2013). Sosyal Bilimlerde Nitel Araştırma Yöntemleri. Ankara:
Seçkin Yayıncılık.
Yıldırım, P., Uludağ, M., & Görür, A. (2008). Hastane Bilgi Sistemlerinde Veri Madenciliği.
Akademik Bilişim (s. 429-434). Çanakkale: Çanakkale Onsekiz Mart Üniversitesi.
Yılmaz, G. K. (2015). Durum Çalışması. M. Metin içinde, Eğitimde Bilimsel Araştırma
Yöntemleri (s. 261-285). Ankara: Pegem.
Yılmaz, M. (2009). Enformasyon ve Bilgi Kavramları Bağlamında Enformasyon Yönetimi ve
Bilgi Yönetimi. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi, 95-118.
Yükselen, C. (2010). Hipotez Kurma. 2015 tarihinde Hipotez Kurma:
http://web.deu.edu.tr/upk15/docs/seminerSunumlari/HIPOTEZ%20KURMA-
PROF.%20DR.%20CEMAL%20YUKSELEN.pdf adresinden alındı
Zadrozny, P., & Kodali, R. (2013). Big Data Analytics Using Splunk: Deriving Operational
Intelligence from Social Media, Machine Data, Existing Data Warehouses, and Other
Real-Time Streaming Sources. Apress.
Zikopoulos, P. C. (2012). Understanding big data. New York et al: McGraw-Hill.
Zins, C. (2007). Conceptual Approaches for Defining Data, Information, and Knowledge.
Journal of The American Society for Information Science and Technology, 479-493.