T.C.tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi...

T.C.

MARMARA ÜNİVERSİTESİ

SOSYAL BİLİMLER ENSTİTÜSÜ

GAZETECİLİK ANABİLİM DALI

BİLİŞİM BİLİM DALI

SOSYAL BİLİMLERDEKİ AKADEMİK ÇALIŞMALARDA BÜYÜK VERİ

KULLANIMI

Yüksek Lisans Tezi

SERKAN BAYRAKCI

İstanbul, 2015

T.C.

MARMARA ÜNİVERSİTESİ

SOSYAL BİLİMLER ENSTİTÜSÜ

GAZETECİLİK ANABİLİM DALI

BİLİŞİM BİLİM DALI


KULLANIMI

Yüksek Lisans Tezi

SERKAN BAYRAKCI

Danışman: PROF. DR. CEM SEFA SÜTCÜ

İstanbul, 2015

i

GENEL BİLGİLER

Adı ve Soyadı : Serkan BAYRAKCI

Anabilim Dalı : Gazetecilik

Programı : Bilişim

Tez Danışmanı : Prof. Dr. Cem Sefa SÜTCÜ

Tez Türü ve Tarihi : Yüksek Lisans – Temmuz, 2015

Anahtar Kelimeler : Büyük Veri, Analiz Teknikleri, İnternet Araştırmaları,

Araştırma Yöntemleri, Bilgi Hiyerarşisi

ÖZET


KULLANIMI

Teknolojik gelişmelerle birlikte üretilen, depolanan ve işlenen veri miktarı artmıştır.

Akıllı telefonlar, kameralar ve sensörler gibi çeşitli makineler ve sosyal medya kullanıcıları

tarafından sürekli farklı formatlarda veri üretilerek, anlık olarak iletilmeye başlamıştır. Büyük

Veri* kavramı farklı formatlarda sürekli artış gösteren devasa miktardaki veriyi ifade

etmektedir. Bu çalışmanın amacı, Büyük Veri’nin mevcut istatistiksel analiz teknikleriyle ve

sosyal bilimlerdeki araştırma yöntemleriyle anlamlandırılmasının mümkün olup olmadığını

incelemek ve Büyük Veri’nin akademik çalışmalarda kullanımını araştırmaktır.

Çalışmada yapılan literatür taraması sonucunda Büyük Veri analiz tekniklerinin

mevcut istatistiksel yöntemlere dayandığı ve özellikle sosyal bilimlerde mevcut bulunan

araştırma süreçleriyle benzerlik gösterdiği sonucuna varılmıştır. Literatür çalışmasına ek

olarak yapılan nicel araştırmayla birlikte Büyük Veri ve analiz tekniklerinin 2012 yılı

sonrasında akademik çalışmalarda 2012 yılı öncesine nazaran çok daha fazla yer aldığı

saptanmıştır.

* Büyük Veri, bu çalışmada vurgulanmak istendiği için baş harfleri büyük olarak belirtilmiştir.

ii

GENERAL KNOWLEDGE

ABSTRACT

THE USE OF BIG DATA IN ACAMIC RESEARCHES IN SOCIAL

SCIENCES

With the technological developments, the quality of the data that is produced, stored

and processed has been increased. Different formats of data were produced and transmitted

instantaneously and constantly by social media users and various machines like smartphones,

cameras and censors. The concept of Big Data has been used to define the increasing size of

data, the increasing rate at which it is produced and transmitted, and the increasing range of

formats of these data. The aim of this study has been set as to find out whether it is possible

to explain the Big Data with the current statistical analysis techniques and research methods

used in social sciences, and to investigate the usage of Big Data in academic researches.

In this study, after reviewing the literature, it has been found out that Big Data

analysis techniques are compatible with the current statistical techniques, and it shows

similarities with the research processes in social sciences. With the qualitative research that

has been conducted in addition to the literature review, it became apparent that Big Data and

analysis techniques were used much more in post-2012 in comparison with pre-2012.

Name and Surname :

Serkan BAYRAKCI

Field :

Journalism

Programme :

Informatics

Supervisor : Professor Cem Sefa SÜTCÜ

Degree Awarded and Date

:

Master – July, 2015

Keywords

:

Big Data, Analysis Techniques, Internet Studies, Research

Methods, Knowledge Hierarchy

iii

ÖNSÖZ

Yüksek lisans ders dönemimde ve bu tez çalışmam sürecinde bana yol gösteren

danışmanım Sayın Prof. Dr. Cem Sefa SÜTCÜ’ye, tezlerimizin her aşamasında birbirimize

destek olduğumuz değerli arkadaşım Arş. Gör. Alaattin ASLAN’a, çeviri konusunda

yardımını esirgemeyen arkadaşım Mustafa DOĞAN’a, manevi desteklerini esirgemeyen

çalışma arkadaşlarıma, akademik hayata girme kararını almamda ve bu yolda ilerlemem

konusunda desteklerini sürekli hissettiğim dostum Muhammed Mustafa KURT’a, ağabeyim

Fatih BAYRAKCI’ya, anneme ve tüm aile bireylerime sonsuz teşekkürlerimi sunar, bu

çalışmamı bu günleri görememiş olan rahmetli babama ithaf ederim. Çalışmanın tüm ilgililere

yararlı olmasını dilerim.

İstanbul, 2014 Serkan BAYRAKCI

iv

İÇİNDEKİLER Sayfa No.

ŞEKİL LİSTESİ.................................................................................................... vi

GRAFİK LİSTESİ ............................................................................................... vii

TABLO LİSTESİ ................................................................................................ viii

1. GİRİŞ ...............................................................................................................1

2. VERİ, ENFORMASYON, BİLGİ (V-E-B) VE META VERİ İLİŞKİSİ VE

BÜYÜK VERİ ÖZELLİKLERİ

2.1. Veri Sınıflandırmaları.................................................................................6

2.1.1. Nicel ve Nitel Veri ................................................................................6

2.1.2. Birincil ve İkincil Veri ..........................................................................7

2.1.3. Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış Veri .........8

2.1.4. Atıl (Exhusted) Veri ve Sosyal Veri ......................................................9

2.2. Enformasyon ve Bilgi Kavramları ............................................................ 11

2.3. Meta Veri ve V-E-B İlişkisi ...................................................................... 15

2.4. Bilgi Hiyerarşisi ....................................................................................... 18

2.5. Büyük Veri ve Özellikleri......................................................................... 21

2.6. Büyük Veri’nin Boyutları ......................................................................... 23

2.6.1. Veri Çeşitliliği .................................................................................... 26

2.6.2. Veri Hacmi ......................................................................................... 27

2.6.3. Veri Hızı ............................................................................................. 29

2.6.4. Doğruluk............................................................................................. 31

2.6.5. Veri Değeri ......................................................................................... 31

2.7. Büyük Veri’nin Diğer Özellikleri ............................................................. 32

2.7.1. Büyük Veri’nin Kapsamlılığı .............................................................. 32

2.7.2. Büyük Veri’nin Dizinsellik ve Çözünürlük Özelliği ............................ 34

2.7.3. Büyük Veri’nin İlişkiselliği ................................................................. 34

2.7.4. Büyük Veri’nin Esneklik Özelliği ....................................................... 36

2.8. Büyük Veri’nin İlişkisi Olduğu Temalar ................................................... 36

2.9. Büyük Veri’nin Sınırlılıkları ve Zorlukları ............................................... 43

v

3. SOSYAL BİLİMLERDE GELENEKSEL SOSYAL BİLİMLER

ARAŞTIRMALARI İLE İNTERNET ARAŞTIRMALARININ KARŞILAŞTIRILMASI

3.1. Sosyal Bilimlerde Araştırmanın Temelleri ................................................ 45

3.1.1. Araştırma Süreci Bağlamında Karşılaştırma ........................................ 46

3.1.2. Veri Toplama Araçları Bağlamında Karşılaştırma ............................... 48

3.2. Sosyal Bilinlerde Nicel ve Nitel Yöntemler .............................................. 51

3.2.1. Nicel Araştırma Yöntemler Bağlamında Karşılaştırma ........................ 51

3.2.2. Nitel Araştırma Yöntemler Bağlamında Karşılaştırma ......................... 62

3.3. Sosyal Bilimlerde Araştırmaların Analizlerinde Kullanılan Teknikler....... 70

3.3.1. İçerik Analizi Bağlamında Karşılaştırma ............................................. 70

3.3.2. Söylem Analizi Bağlamında Karşılaştırma .......................................... 75

3.3.3. İnternet Araştırmalarında Büyük Veri Analizi ..................................... 79

4. BÜYÜK VERİ’NİN AKADEMİK ÇALIŞMALARDA KULLANIMI

ÜZERİNE ARAŞTIRMA

4.1. Araştırmanın Amacı ve Önemi ............................................................... 108

4.2. Araştırmanın Metodolojisi ve Modeli ..................................................... 109

4.3. Araştırmanın Sınırlılıkları....................................................................... 112

4.4. Araştırmanın Bulguları ve Değerlendirme .............................................. 112

4.5. Araştırmanın Sonucu .............................................................................. 128

5. SONUÇ ........................................................................................................ 132

KAYNAKÇA ....................................................................................................... 141

vi

ŞEKİL LİSTESİ

Sayfa No

Şekil 1: Verinin Enformasyona Dönüşüm Süreci .................................................... 12

Şekil 2: Veri-Enformasyon-Bilgi Hiyerarşisi .......................................................... 19

Şekil 3: Büyük Veri Boyutları ................................................................................ 25

Şekil 4: Büyük Veri Temaları ................................................................................. 37

Şekil 5: Çevrimiçi Deneylerin Yapısı...................................................................... 59

Şekil 6: Comprehensive Meta-Analysis (CMA) 2.0 Arayüzü .................................. 61

Şekil 7: CMA 2.0 ile Yapılmış Örnek Bir Meta Analiz Diagramı ............................ 62

Şekil 8: Etnogratik Araştırmanın Çok Boyutlu Çerçevesi ........................................ 65

Şekil 9: Nvivo Arayüzü .......................................................................................... 73

Şekil 10: Atlas.ti Arayüzü ve Ekran Görüntüleri ..................................................... 75

Şekil 11: Van Dijk’in Söylem Analizi ..................................................................... 77

Şekil 12: Twitter Söylem Analizi Çözümleme Şablonu ........................................... 78

Şekil 13: Veri Ön İşleme Aşamaları ........................................................................ 87

Şekil 14: Veri Madenciliği Yöntemleri ................................................................... 93

Şekil 15: Kümeleme Örneği.................................................................................... 95

Şekil 16: Büyük Veri Analiz Tekniklerinin Akademik Çalışmalarda Kullanımına

İlişkin Tarama Modeli ........................................................................................................ 110

vii

GRAFİK LİSTESİ

Sayfa No.

Grafik 1: Yapılandırılmış ve Yapılandırılmamış Veri ...............................................9

Grafik 2: Başlığında “Büyük Veri” Geçen Akademik Çalışmaların Yıllara göre

Dağılımı ............................................................................................................................. 113

Grafik 3: Kümeleme Tekniklerinin Özetlerdeki Arama Sonuçları ........................ 119

Grafik 4: Özetinde “Büyük Veri” Kavramı Geçen Tezlerin Yıllara göre Dağılımı 120

Grafik 5: Yıllara göre Büyük Veri Konusundaki Akademik Çalışmalar ............... 127

viii

TABLO LİSTESİ

Sayfa No.

Tablo 1: Veri-Enformasyon-Bilgi’ye Yönelik Farklı Kavramsal Bakış Açıları ....... 14

Tablo 2: Meta Veri Türleri ve Tanımları ................................................................ 16

Tablo 3: Çeşitli Servislerin Meta Verileri ............................................................... 17

Tablo 4: Büyük Veri Tanımları .............................................................................. 22

Tablo 5: Büyük Veri Boyutlarının Google’da Arama Sıralamaları Sonuçları .......... 26

Tablo 6: Veri Hacmi Ölçüleri ................................................................................. 28

Tablo 7: Veri Toplama Araçları ve Özellikleri ....................................................... 48

Tablo 8: Tarama Araştırması Türleri ...................................................................... 54

Tablo 9: Blog Tarama Araçları ve Özellikleri ........................................................ 56

Tablo 10: Nitel Araştırmaların Özellikleri .............................................................. 63

Tablo 11: Söylem Analizi Temel Kavramları ......................................................... 76

Tablo 12: Tek Değişkenli, İki Değişkenli ve Çok Değişkenli Analiz Teknikleri ..... 81

Tablo 13: Veri Bilimi, İstatistik ve Veri Madenciliği Arasındaki Farklar ................ 91

Tablo 14: Paralel İşleme Modelleri ve Özellikleri................................................. 100

Tablo 15: Metin Madenciliği Yaklaşımları ........................................................... 102

Tablo 16: Fikir Madenciliği Görevleri .................................................................. 105

Tablo 17: Araştırmada Taranan Kavramlar ve Türkçe Karşılıkları ........................ 111

Tablo 18: YÖK Veritabanında Yer Alan Tezlerin Tür ve Yazım Dillerinin Yıllara

göre Dağılımı ..................................................................................................................... 114

Tablo 19: Akademik Çalışmaların Başlıklarında Yapılan Arama Sonuçları .......... 115

Tablo 20: Akademik Çalışmaların Özetlerinde Yapılan Arama Sonuçları ............. 118

Tablo 21: Akademik Çalışmaların Anahtar Kelimelerinde Yapılan Arama Sonuçları

........................................................................................................................................... 122

Tablo 22: Akademik Çalışmaların Metin İçlerinde Yapılan Arama Sonuçları ....... 125

Tablo 23: Büyük Veri Kavramının Akademik Çalışmalarda Arama Sonuçları ...... 128

1

1. GİRİŞ

Web 2.0 ve sosyal medyanın gelişmesiyle birlikte, kullanıcılar içerik üretmeye ve

ürettikleri içerikleri paylaşabilmeye başlamışlardır. Sürekli gelişim halinde olan sosyal medya

platformları kullanıcılara farklı formatlara sahip içerikleri de aynı anda paylaşabilme imkânı

sağlamıştır. Örneğin metin, fotoğraf ve video gibi üç farklı formattaki veri aynı anda

paylaşılabilir olmuştur. Böylece farklı formatlardaki veri miktarı giderek artmış ve bu durum

bilgisayar bilimlerinden sosyal bilimlere, pazarlamadan, sağlık bilimlerine kadar birçok

bilimsel disiplinin dikkatini çekmiştir. Sürekli artan verinin analiz edilmesi de giderek

zorlaşmıştır. İşte tam bu noktada karşımıza çıkan Büyük Veri kavramı, farklı formatlardaki ve

sürekli artış içinde olan devasa miktardaki veriyi ve söz konusu verileri analiz edebilme

becerisi olarak ifade edilmektedir. Büyük Veri, sadece kullanıcılar tarafından üretilen veriyi

değil aynı zamanda makineler ve sensörler tarafından üretilen veriyi de kapsamaktadır. Birçok

alan için giderek önem kazanan Büyük Veri’nin analizi için özel şirketler ve kamu kuruluşları

tarafından ciddi yatırımlar yapılmakta, yeni teknikler ve yazılımlar geliştirilmektedir. Bu

bağlamda ortaya çıkan “Mevcut araştırma yöntem ve teknikleri Büyük Veri’nin

anlamlandırılması için uygun mudur?”, “Mevcut istatistiksel analiz teknikleri Büyük Veri için

uygun mudur?” ve “ Akademik çalışmalarda Büyük Veri yer almakta mıdır?” ifadeleri bu

çalışmanın cevap aradığı temel sorular olmuştur. Bu temel soruların yanında çalışmada

destekleyici bir işlev gören şu sorulara da cevap aranmıştır.

Sosyal bilimlerde geleneksel araştırmalarla internet araştırmalarının

benzerlikleri ve farklılıkları nelerdir?

Sosyal bilimlerdeki internet araştırmalarıyla Büyük Veri araştırmaları

arasındaki ilişki nedir?

Büyük Veri’yle ilgili Türkiye’deki akademik çalışmaların durumu nedir ve

dünyadaki akademik çalışmalarla paralellik göstermekte midir?

Bahsi geçen sorunsal bağlamında, bu çalışmanın amacı; Büyük Veri’nin

anlamlandırılması için sosyal bilimlerdeki geleneksel araştırma yöntemlerinin ve mevcut

istatistiksel analiz tekniklerinin uygun olup olmadığını tartışmak ve yapılan araştırmayla

Büyük Veri’nin akademik çalışmalarda kullanılıp kullanılmadığını incelemektir. Bu

çalışmada yöntem olarak literatür taraması kullanılmış olup, mevcut araştırma ve istatistiksel

analiz yöntemlerinin Büyük Veri analiz yöntemleriyle örtüşüp örtüşmediği tartışılmıştır. Aynı

2

zamanda yapılan nicel araştırmayla birlikte, akademik çalışmalarda Büyük Veri kullanımının

tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi bankası

olan EbscoHost tarafından tasarlanan Academic Search™ Complete (ASC) veritabanı

taranarak Büyük Veri ve analiz tekniklerinin akademik çalışmalarda kullanımı incelenmiştir.

Ayrıca, Yüksek Öğretim Kurumu (YÖK) tez veritabanında Büyük Veri kavramı taranarak

elde edilen bulgular ışığında Büyük Veri’yle ilgili Türkiye’deki akademik çalışmaların

sonuçlarıyla, EbschoHost ASC veritabanındaki akademik çalışmaların sonuçları

karşılaştırılmıştır.

Bu tez giriş ve sonuçla birlikte toplam 5 bölümden oluşmaktadır. Birinci bölüm giriş

kısmı, ikinci bölümde Büyük Veri’yi oluşturan veri ve veri çeşitleri ve meta veri ve Büyük

Veri ve özellikleri ele alınmıştır. Veri, enformasyon, bilgi (V-E-B) kavramları ve bilgi

hiyerarşisi açıklanarak, meta verinin V-E-B’le ilişkisi üzerine durulmuştur. Ayrıca ikinci

bölümde Büyük Veri’nin farklı tanımları, gelişim süreci ve temel özellikleri ve unsurları olan

veri çeşitliliği, veri hacmi, veri hızı ve veri değeri açıklanmıştır. Büyük Veri’nin temel

unsurları yanında Büyük Veri’nin kapsamlılığı, dizinselliği, çözünürlüğü ve esnekliği gibi

çeşitli özellikleri aktarılmıştır. Büyük Veri’nin disiplinler arası bir ifade olması nedeniyle

ilişkili olduğu temalar literatür dâhilinde tartışılmıştır. İnternet araştırmalarında Büyük

Veri’yle alakalı projelere değinilerek, Büyük Veri’nin yaşam üzerine etkisi ve Büyük Veri’nin

sınırlılıkları ve zorlukları ifade edilmiştir.

Üçüncü bölümde, sosyal bilimlerde geleneksel sosyal bilimler araştırmaları ile

internet araştırmaları karşılaştırılması yapılmış ve Büyük Veri analiz yöntem ve teknikleri

incelenmiştir. Sosyal bilimlerde araştırma süreçleri, veri toplama araçları ve nicel-nitel

araştırma yöntemleri sosyal medya ve internet bağlamında ele alınmıştır. Ayrıca üçüncü

bölümde, sosyal bilimlerde araştırmaların analizlerinde kullanılan teknikler aktarılmıştır.

İçerik analizi, söylem analizi ve istatistiksel analiz teknikleri geleneksel araştırmalar ve

internet araştırmaları bağlamında ele alınarak Büyük Veri analizi incelenmiştir. Büyük Veri

analiz süreci ve analiz yöntem ve tekniklerine odaklanılmıştır. Büyük Veri analiz süreci,

verinin toplanması ve ön işleme süreci detaylı olarak ifade edilmiştir. Büyük Veri analizinde

kullanılan çeşitli veri madenciliği teknikleriyle literatürde en çok yer alan çeşitli analiz

yöntem ve teknikleri açıklanmıştır. Bu tekniklerin ne olduğu ve nasıl yapıldığı aktarılarak,

her bir analiz tekniğinin geleneksel araştırma yöntemleri ve mevcut istatistiksel tekniklerle

olan benzerlikleri, farklılıkları ve ilişkileri tartışılmıştır.

3

Dördüncü bölüm, Büyük Veri’nin akademik çalışmalarda kullanımı üzerine yapılan

araştırmayı kapsamaktadır. EbscoHost ASC veritabanı taranarak Büyük Veri’nin ve analiz

tekniklerinin akademik çalışmaların başlıklarında, özetlerinde, anahtar kelimelerinde ve metin

içinde yer alma durumları incenmiş, Büyük Veri analiz tekniklerinden hangilerinin daha çok

uygulandığı belirlenmeye çalışılmıştır. Ayrıca Büyük Veri yılı olarak atfedilen 2012 yılının

öncesi ve sonrasındaki akademik çalışmalardan elde edilen sonuçları karşılaştırılarak, Büyük

Veri öncesi ve sonrası oluşan farklılıklara ortaya koyulmuştur. Bu bölümde ayrıca, Büyük

Veri’nin Türkiye’deki akademik çalışmalardaki durumu araştırılmıştır. Yüksek Öğrenim

Kurumu (YÖK) tez veritabanında yer alan yüksel lisans ve doktora tezleri taranarak

başlığında veya özetinde “Büyük Veri” veya “Big Data” kavramları geçen akademik

çalışmalar yıllara göre incelenmiştir. Büyük Veri’yle ilgili Türkiye’deki akademik

çalışmaların bulgularıyla, EbschoHost ASC veritabanındaki akademik çalışmalardan elde

bulguların benzerlikleri ve farklılıkları ortaya konmaya çalışılmıştır.

Son bölüm, sonuç ve değerlendirme kısmıdır. Bu bölümde Büyük Veri analizi

teknikleriyle, internet ve sosyal medya bağlamında ele alınan araştırma yöntem ve

tekniklerinin özellikleri değerlendirilmiş, elde edilen sonuçlar yorumlanmıştır. Yapılan

araştırma sonucunda Büyük Veri’nin akademik çalışmalarda kullanımı yorumlanmış ve

çalışmanın sınırlılıklarına ve bu alanda yapılabilecek çalışmalar için önerilere yer verilmiştir.

4

2. VERİ, ENFORMASYON, BİLGİ (V-E-B) VE META VERİ İLİŞKİSİ

VE BÜYÜK VERİ ÖZELLİKLERİ

Veri köken olarak Latince “vermek” anlamındaki dare sözcüğünden gelmektedir.

İngilizce’de data anlamına gelen veri kavramı ilk kez on yedinci yüzyılda matematikte

kullanılmış olup, daha sonra on sekizinci yüzyılda diğer disiplinlerde de kullanılmaya

başlanmıştır. On yedinci yüzyılda “bir argümanda verilen şeyler” anlamında kullanılan

sözcük on sekizinci yüzyılın sonuna doğru çeşitli yöntemlerle deney, gözlem, hesaplama veya

ölçümlerden elde edilen, çıkarılan gerçekler olarak nitelendirilmiştir (Rosenberg, 2013, s. 15).

Verinin anlamının süreç içinde değişmesindeki etkili olan faktör ise bilimin gelişmesidir.

Veri, günümüzde genel anlamda hesaplama, gözlem, deney ve kayıtlardan ortaya çıkarılan

kanıtlar, elementler, gerçekler veya olguları temsil eden formlar olarak nitelendirilmektedir.

Bilişim literatüründe veri kavramı “olgu, kavram veya komutların iletişim, yorum ve işlem

için elverişli biçimde gösterimi”, “bir çözüme ulaşmak için işlenebilir duruma getirilmiş

gözlemler, ölçümler”, “bilgisayar için işlenebilir duruma getirilmiş sayısal ya da sayısal

olmayan nicelikler” olarak ifade edilmektedir (Sankur, 2004).

Veri, farklı disiplinlerde kullanılan bir kavram olması nedeniyle birçok kişi

tarafından farklı anlamlarda ifade edilmektedir. Veri bilgi hiyerarşisinin en alt katmanıdır.

Veri enformasyona dönüşmekte, enformasyon da bilgiye dönüşmektedir (Bennet & Helen,

1999, s. 213). Kalseth ve Cummings’e göre veri, yorum katılmamış, içeriği olmayan sembol,

şekil ve/veya olgulardır (Kalseth & Cummings, 2001). Akgün ve Keskin’in ifadesiyle, veri

işlenmemiş, ham enformasyon parçacıklarıdır. Veri dışarıdan transfer edilen, alınan veya

kaydedilen formlardır (Akgün & Keskin, 2003). Bateson veriye bir sistemin iki durumu

arasında görülen veya tanınan bir farklılık olarak bakarken Ackoff ise verinin objeleri,

olayları veya onların özelliklerini aktaran semboller olduğunu belirtmektedir (Ackoff, 1999,

Aktaran: Yılmaz, 2009).

Öte yandan, Celep ve Çetin ise veriyi ham ve işlenmemiş gerçekler (raw facts) olarak

tanımlayıp, verinin aktarılması, düzenlenmesi veya sınıflandırılma gibi çeşitli işlemlere tabi

tutulduğunda değer kazanabileceğini belirtmektedir (Celep & Çetin, 2003, s. 7). Örneğin web

sitesindeki bir ürünün tıklanma sayısı, görüntülenme sayısı veya satış miktarı o site ve ürün

hakkında hiç bir şey bilmeyen bir kişi için sadece veridir ve bir değer taşımazken, o sitenin

yöneticisi için bu veriler değer taşımaktadır. Çünkü diğer günlerin verileri de mevcut olduğu

için bu verileri karşılaştırmak gibi farklı işlemlere tabi tutabilir.

5

Holmes (2001) veriyi gerçeklerin veya fikirlerin temsilcisi olarak tanımlamaktadır.

Verinin bazı işlemler yardımıyla iletilebilir veya değiştirilebilir olması verinin gerçeklerle ve

makinelerle ilişkili olduğunun göstermektedir.

Zins (2007)’in 16 farklı ülkeden önde gelen 57 enformasyon bilimcisi ile yapmış

olduğu çalışmasında veri, enformasyon ve bilgi kavramlarına verilen 130 tanıma yer

vermiştir. Çalışmasında veri kavramı için verilen cevaplardan bazıları aşağıda verilmiştir.

Duyu organlarıyla algılanan duyusal uyaranlardır.

Bilgisayarda kullanılmak üzere kayıtlar veya kodlanmış kayıtlardır.

Gözlem yoluyla depolanan, bağlam olmadan anlamdan yoksun olan

sayılardır.

Kurulu algoritmalara göre düzenlenmiş sembollerdir.

Algılanan gerçekleri temsil eden semboller kümesidir.

Bilgisayar tarafından depolanmak, işlenmek ve iletilmek amacıyla

oluşturulan ikili kodlu öğelerdir (Zins, 2007)

Davenport ve Prusak (2001, s. 7) veriyi tanımlarken verinin kendi önemi ya da bir

işe yarayıp yaramayacağı hakkında bir anlam belirtmediğini ifade etmişlerdir. Diğer yandan

enformasyon ve bilgi oluşumunda veri vazgeçilmez bir hammadde olmasından dolayı da

önemlidir.

Rosenberg’e göre veri retorik, kanıtlar epistemolojik ve gerçekler ise ontolojik

kavramlardır. Enformasyona dönüşecek olan argüman ve yorumlardan önce verinin var

olduğunu belirterek bu perspektiften verinin soyut, ayrık, başka bir veriyle birleşme gibi bazı

prensipler taşıdığını belirtmiştir (Rosenberg, 2013, s. 18). Bu özelliklere ek olarak veri

ortamdan, formattan, dilinden, kaynağından ve bağlamdan bağımsız olarak anlam

taşımaktadır. Örneğin bir veri analog ortamda veya dijital ortamda depolanması, kâğıt

üzerinde veya ekranda gösterilmesi onun anlamını değiştirmez (Floridi, 2010).

Veri genel olarak dünyayı soyut kategorilere, ölçülere ve numara, karakter, sembol,

imaj, ses, elektromanyetik dalga, bitler gibi yaratılan enformasyon ve bilgiden oluşan inşa

bloklarının meydana getirdiği diğer temsili formların ürettiği ham materyal olarak

anlaşılabilir. Veri doğası gereği temsilidir (örneğin bir kişinin yaşı, boyu, kilosu, rengi,

tansiyonu, düşüncesi, alışkanlıkları, yerleşim ölçüleri gibi vd.) fakat aynı zamanda somuttan

6

soyuta veya bir veriden üretilen başka veriyi ima edebilir ve hem analog ortamda hem de

dijital ortamda bit olarak kaydedilebilir ya da depolanabilir (Kitchin, 2014, s. 1).

2.1. VERİ SINIFLANDIRMALARI

Veri, bilimin gelişmesiyle birlikte farklı disiplinlerde kullanılmasından dolayı

standart bir tanımlama yapılamamaktadır. Disiplinler arası bir kavram olması aynı zamanda

verinin sınıflandırılmasında da farklı bakış açılarına sebep olmuştur. Kimi kaynaklarda veri

sadece şekline göre (nicel, nitel veri) sınıflandırılırken, kimi kaynaklarda veri üreticisine göre

(birincil veri, ikincil veri) sınıflandırılmıştır. Literatürde genel olarak veri; şekline, yapısına,

kaynağına, tipine, üreticisine, sırasına göre sınıflandırılmıştır. Ayrıca bu faktörlerin alt

ögelerine göre de farklı sınıflandırmalar mevcuttur. Bu çalışmada veri, nitel ve nicel veri,

birincil ve ikincil veri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış veri, atıl veri

ve sosyal veri olmak üzere dokuz ana başlıkta incelenmiştir. Bu sınıflandırmalarda kesin bir

ayrım olmadığı gibi bir veri seti aynı anda farklı veri sınıflarına dâhil edilebilir çünkü verinin

amacına ve duruma göre sınıflandırması değişebilir.

2.1.1. Nicel ve Nitel Veri

Veri farklı şekillerde olabilir. Bunlardan başlıcaları sayı, metin, görüntü, video,

resim, sembol, fotoğraf, ses, elektro-manyetik dalgadır. Nicel veri, sayısal değerleri içeren

verilerdir. Uzunluk, ağırlık, mesafe, alan gibi fiziksel yani ölçülebilir özellikleri içerir. Nicel

veri fiziksel özelliklerin yanında fiziksel olmayan olaylar hakkında da içeriğe sahip olabilir.

Nicel verinin ölçülmesinde istatistikteki temek dört ölçekten faydalanır. Bu ölçeklere bağlı

olarak nicel veri analizi için betimsel ve çıkarımsal istatistik yöntemlerinden faydalanılır

(Kitchin, 2014). Veri ölçek türleri aşağıda belirtilmiştir.

Sınıflama Ölçeği (Kategorik, Nominal Ölçek): Veriyi ismine veya sınıfına

göre ayıran ölçek çeşitidir. Sınıflama ölçeği diğer ölçeklere nazaran daha az

açıklama içerir ve sınıflar arasında denklik söz konusudur. Örneğin cinsiyet,

meslek, tutulan takım, vd.

Sıralı Ölçek: Değişkenleri arasında üstünlük, hiyerarşi veya sıralama olan

ölçek çeşididir. Örneğin akademik unvanlar, sosyal statüler veya beğeni

düzeyleri “beğenmedim-kararsızım-beğendim” (Siegel, 1956, s. 22).

Aralık Ölçeği: Sıralı ölçeğin özelliklerine ek olarak, değerler arasındaki

farklar da biliniyorsa bu ölçek aralık ölçeğidir. Aralık ölçeğinde tüm değerler

7

sıradandır ve sıfır herhangi bir özellik taşımaz (Sencer, 1989, s. 253). Örneğin

100

C olan bir sıcaklık 50 C’den daha sıcaktır ancak iki kat sıcaklığında

değildir veya sıcaklığı 00 C olan bir nesnenin sıcaklığı yoktur denemez,

çünkü 0 değeri de diğer değerler gibidir, yokluk belirtmez. Değerler nicel

olarak ifade edilmektedir (Karagöz & Ekici, 2004).

Oran Ölçeği: Diğer ölçeklerin özelliklerini barındıran, başlangıç noktası

olarak sıfır noktasını alan ve değerleri arasında oran olan en kapsamlı

ölçektir. Oran ölçeğindeki sayılar birbirine oranlanabilir ve değerler değişse

de oran değişmez. Tüm istatistiksel yöntemler uygulanabilir. Sıfır değeri

yokluğu ifade eden oran ölçeği daha çok fiziki değerlerde kullanılır. Kilo,

uzunluk, yaş, gelir miktarı gibi numerik değerler oran ölçeğine örnektir

(Siegel, 1956, s. 29).

Nitel veri ise sayısal olmayan, nitelikleri belirten verilerdir. Metin, resim, çizim,

video, ses ve görüntü gibi formlardaki verilerdir. Nitel veri analiz için sayısallaştırılarak nicel

hale dönüştürülebilir ve bu dönüşümdeki amaçlar verinin güvenirlik derecesini artırmak,

objektifliği sağlamak ve veri grupları arasında karşılaştırma yapmaktır (Yıldırım & Şimşek,

2013). Öte yandan nicelleştirmenin, verilerin orijinalliğini yitirebileceğini bu yüzden nitel veri

işlenmesinin ve analizinin orjinal verilerle yapılması gerektiğini, bu işlemler içinde akıllı

makineler ve veri madenciliği gibi tekniklerin her geçen gün daha da gelişim gösterdiğini de

ifade edilmektedir (Kitchin, 2014, s. 5).

2.1.2. Birincil ve İkincil Veri

Birincil veri, düzenlenen araştırmaya göre araştırmacının doğrudan elde ettiği veridir.

Çalışmanın amacına göre hazırlanan sorulardan toplanan cevaplar veya anket ve görüşme gibi

farklı yöntemlerle araştırmacının doğrudan topladığı veriler birincil veriye örnektir (AtWork,

2008). Florini’ ne göre ise birincil veri; veritabanındaki başlıca verilerdir, örneğin

hesaplamadaki sayılar, sıfır ve birlerin dizimidir (Floridi, 2010, s. 30). İkincil veri ise birincil

verinin yokluğunda ya da eksikliğinde başka bir araştırmacı veya kaynaklardan elde edilen

veridir (AtWork, 2008). Araştırmacı doğrudan kendisi elde etmez. Birincil veriler, bir başka

araştırma için ikincil veri konumunda olabilirler. Örneğin Türkiye İstatistik Kurumu’nun

internet kullanım verileri birincil veriyken bir araştırmacının kendi çalışması için kullanması

o veriyi ikincil veri yapar. Döküman, rapor, sinema, gazete, dergi, makale ve kitap gibi farklı

kaynaklardan elde edilen veriler de ikincil veridir.

8

2.1.3. Yapılandırılmış, Yapılandırılmamış ve Yarı Yapılandırılmış Veri

Yapılandırılmış veri belirli bir veri modelini baz alarak kolaylıkla depolanabilen,

işlenebilen, iletilebilen ve veri formatı kesin ve belirli olan veri çeşididir (BThaber, 2012).

Yapılandırılmış veri için Microsoft SQL Server, Oracle, SAP, Access, Excel gibi geleneksel

veritabanı sistemler kullanılmaktadır. Yapılandırılmış veri, format olarak veri tabanlarına

uygundur yani satır ve sütun olarak kaydedilebilmektedir. Örneğin telefon numaralar, posta

kodları sayılardan oluşmuştur ve yapılandırılmış veriye örneklerdir.

Yapılandırılmamış veri ise geleneksel veritabanlarına uygun olmayan, tanımlanmış

tek bir formatı olmayan verilerdir. Access, SAP ve SQL yapılandırılmış veriler için birer veri

tabanı sistemi iken NoSQL veya MangoDB gibi veritabanı sistemleri ise yapılandırılmamış

veriler içindir. Yapılandırılmamış verilere mailler, metinler, görseller, ses kaydı, video, web

siteleri, bloglar, forumlar, sosyal ağlardaki gönderiler gibi farklı formatlarda yer alan veriler

örnek olarak verilebilir. Web 2.0 ile hayatımıza giren sosyal medya yapılandırılmamış veri

artışını etkilemiştir. Teradata’nın Müdür Yardımcısı Jerry Hill’in 2007’de Forbes

Dergisi’ndeki röportajında verinin %85’inin yapılandırılmamış olduğunu belirtmektedir

(Malone, 2007).

2011 yılındaysa dijital evrende bu oranın %90’nın üzerinde olduğu bilinmektedir

(Gantz & Reinsel, 2011, s. 2). Grafik 1’de görüldüğü gibi yapılandırılmamış veri hacmi her

geçen gün daha da arttığı, farklı formatlarda olduğu için depolama ve analiz edilmesinde de

zorluklar yaşanmaktadır. Bunun için Hadoop, Spark, MapReduce, Nvivo gibi platformlar ve

çeşitli veri madenciliği teknikleri yapılandırılmamış veri analizinde kullanılmaktadır.

9

Grafik 1: Yapılandırılmış ve Yapılandırılmamış Veri

Kaynak:http://oraclestorageguy.typepad.com/.a/6a00e009802a798833013486adc56

9970c-pi ’den uyarlanmıştır. (Erişim; 18 Ocak 2015)

Yarı yapılandırılmış veriler yapılandırılmış ile yapılandırılmamış veri arasındadır.

Yarı yapılandırılmış verilerin bir yapısı vardır ama toplanan tüm veriler aynı yapıda değildir.

Veriler bir yapıya sahiptir ama bir bütün olarak aynı yapıda değildir yani tabloların formal

yapılarına uygun değillerdir. Örneğin e-mail, Genişletilebilir İşaretleme Dili “eXtensible

Markup Language (XML)” ve mp3 olabilir, çünkü bu veriler yapılandırılmış verilerle

ilişkilidir (Gürsakal, 2014, s. 55-56). Bir hekimin hastasının hikâyesi ile ilgili olarak kayıt

altına aldığı veriler bu tip verilere örnek olarak verilebilir.

2.1.4. Atıl (Exhusted) Veri ve Sosyal Veri

Atıl veri (Exhaust Data) tüm çevrimiçi veya dijital faaliyetlerden kaynaklanan ürün

ve durumların bilgilerinin tutulduğu veri tipidir. Örneğin log dosyaları, gecici dosyalar,

çerezler gibi veriler ve yapılan tüm eylemlerin sonucu oluşmuş veriler atıl veriye örnektir. Bu

veriler özellikle pazarlamacılar ve ticari kuruluşlar için önemlidir. Çünkü kullanıcıların

bilgileri, tercihleri, alışkanlıkları gibi çeşitli özellikleri atıl veriler sayesinde elde

edilebilmektedir. Bu verilere göre de kurum ve kuruluşlar pazarlamada hedef kitle

belirlemede stratejiler geliştirilmektedir (Kitchin, 2014).

10

Web 2.0 gelişimiyle birlikte hayatımıza giren ve önemi günden güne artan sosyal

medyada kullanıcılar tarafından üretilen içeriğe (user generated content), veriye sosyal veri

ismi verilmektedir. Sosyal medyanın ortaya çıkması beraberinde sosyal ve kültürel

araştırmaların yapılabileceği yeni alanlara imkân tanımıştır. Milyonlarca insanın duygu ve

düşüncelerini takip etme, ürettikleri fotoğraf veya videoları görme, yaptıkları yorumlara ve

konuşmalara vakıf olma, gittikleri yerleri görme ve bu kişileri takip etme fırsatı sunan sosyal

medyada araştırma yapmak için izin alma zorunluluğu kalkmış durumdadır (Manovich,

2011). Çünkü sosyal verileri kullanmak araştırma için yeterlidir. Kullanıcılar tarafından

üretilen sosyal veri aynı zamanda, bu tez bağlamında incelenecek olan Büyük Veri’nin de

temel kaynaklarındandır. Zadrozny ve Kodali (2013, s. 2-3) Büyük Veri kaynaklarını makine

verileri (sensörler, banka işlemleri, kameralar, Nesnelerin İnterneti “IoT” vb.) ve kullanıcılar

tarafından üretilen veri olmak üzere iki kategoriye ayıran, kullanıcılar tarafından üretilen

içeriğin en başta sosyal medyadan geldiği ifade ederek sosyal veri hakkında aşağıdaki bilgileri

vermektedirler.

Şubat 2013’te kullacıcı sayısı 1 milyar ve günlük aktif kullanıcı sayısı 618

milyon olan Facebook’ta ortalama günlük 2, 5 milyar içerik paylaşılmakta ve

2,7 milyar “beğen” tıklanmakta, 500 Terabyte’n üzerinde veri üretilmektir.

Kasım 2012’de 500 milyon kullanıcıdan 200 milyonu günlük aktif olan

kullanıcılar Twitter’da günlük 500 milyon tweet atılmaktadır.

Ocak 2013’te Instagram’da kullanıcılar günde 40 milyon fotoğraf yüklemekte

ve saniyede 8 500 “beğeni” ve 1000 yorum yapılmaktadır.

Mart 2013’te WordPress’te aylık 40 milyon yeni gönderinin ve 42 milyon

yorumun yapıldığını, aylık 388 milyondan fazla insanın 3,6 milyardan fazla

sayfaya göz atmıştır.

Sosyal veri, birçok disiplini etkileyerek yeni alanların oluşmasına neden olmuştur.

Bu yeni alanlardan biri dördüncü bölümde incelenecek olan netnografi, bir diğeri ise sosyal

hesaplama “social computing” dir. Sosyal hesaplamada sosyal ve beşeri bilimlerde sosyal

davranışların, sosyal etkileşimin ve sosyal unsurların belirlenmesinde, analiz edilip

yorumlanmasında bilgisayar, bilgi ve iletişim teknolojilerinden faydalanmaktadır (Wang ve

diğerleri, 2007). Sosyal hesaplama kavramı ilk olarak MIT Medya Lab’dan Natham Eagle ve

danışmanı Alex Petland tarafından ortaya atılmıştır. Özel yazılımlı cep telefonlarını 100

öğrenciye dağıtarak, cep telefonlarından toplanan veriler üzerinden insan davranışlarına dair

analizler yapılmıştır (Manovich, 2011, s. 4). Sosyal hesaplama, kişilerin seyahat

11

kararlarından, yemek yiyecekleri mekânı tercih etmelerine kadar birçok durumu

etkilemektedir. Bunun nedeni; daha önce seyahat etmiş veya deneyimlemiş kişiler, olumlu-

olumsuz görüşlerini veya deneyimlerini tripadvisor.com ve benzeri sitelerden paylaşarak

diğer insanları uyarmakta ve gidecek olan kişiler de eski yorumlara bakarak fikir edinip ona

göre karar vermektedirler (Turban ve diğerleri, 2012, s. 48).

Verinin tanımı, gelişim süreci ve çeşitleri ifade edildikten sonra bu bölümde

enformasyon ve bilgi kavramları ele alınacaktır.

2.2. ENFORMASYON VE BİLGİ KAVRAMLARI

Türk Dil Kurumu sözlüğünde enformasyon; Latince kökenli olup “Danışma,

tanıtma”, “Haber alma, Haber verme, Haberleşme” olarak tanımlanmaktadır. Bilişim

sözlüğünde ise “Bilgi işlemde kullanılan kabul edilmiş kurallardan yola çıkarak veriye

yöneltilen anlam”, “Bilişim kuramında, birçok olası olay arasında belirli bir olayın meydana

gelme belirsizliğini, bilinmezliğini azaltan herhangi bir bilgi” ve “Bilgi işlemede, verilerden

elde edilen herhangi bir kavram, olgu, anlam” şeklinde ifade edilmektedir (Sankur, 2004).

Enformasyon, etimolojik olarak “informatio” ya da “informare” kökünden gelmektedir. Veri

bilginin en ufak parçasını oluştururken, enformasyon ise bilginin alt bileşenidir. Enformasyon

bilgiye erişimin alt basamağıdır ve veri de enformasyonun alt basamağıdır. Düzenlenmiş ya

da organize edilmiş veri de denebilecek olan enformasyon, ham bilgilerin elde edilmesi,

bunların çeşitli işlemlerden geçirilmesi ve sonuçta bilginin oluşturulmasında meydana gelen

yarı işlenmiş bir üründür (Çelik M. , 2004, s. 30-32).

Enformasyonun “genellikle belge şeklinde ya da görsel ve işitsel mesaj” olarak ifade

eden Davenport ve Prusak enformasyonun iletişime dayandığı, iletişim de alınan mesajın

enformasyon niteliği taşıyıp taşımadığına dayandırmaktadırlar. Enformasyon, bir belge veya

buna benzer bir araç yardımıyla genellikle bir mesaj olarak anlaşılmaktadır. Enformasyonun

amacı, alıcının bir konudaki düşüncelerini değiştirmek, bir durumu yorumlatmak ya da

davranışında etki oluşturmaktır. Bu çerçevede enformasyon alıcıda fark oluşturan veridir

(Davenport & Prusak, 2001, s. 24).

Enformasyon kavramını iletişim bağlamında değerlendirildiğinde ise Gürdal (2000)

enformasyonu, “alıcıda şüpheyi indirgeyen ve onun üzerinde etki bırakan bilgi ve bu

nitelikleri taşıyan bilginin uygun bir kanal aracılığıyla iletimi eylemi” olarak ifade etmektedir.

Enformasyonun kavramının yaygınlaşmasında Shannon ve Weaver’in “matematiksel iletişim

12

kuramı” temel olmuştur. Bu kuramla birlikte 1940’lı yılların sonundan itibaren, fen

bilimlerindeki bilimsel yöntem ve modeller iletişim biliminde de uygulanmaya başlanmıştır.

Enformasyon, zamanla, farklı kavramların da disiplinler arası olmasını sağlayan temel bir

unsur olmuştur. Enformasyon ölçülebilir ve taşınabilir bir nicelik olması, iletişimin

makinelerle sağlanmasında etkili olmuştur (Törenli, 2004, s. 18).

Karar verme sürecinde hangi seçeneğin hangi sonuca gideceğini hesaplayabilmek

için enformasyon gereklidir. Enformasyon miktarı ile belirsizlik arasında ilişki vardır. Kişinin

sahip olduğu enformasyon miktarı ne kadar fazla olursa yapacağı hareketin sonucunu

kestirebilme olasılığı da artacaktır. Karar mekanizmalarında mevcut durumla ilgili

enformasyona deney veya gözlemle ulaşabilir ancak karar ortamlarının giderek değişmesi

karar verenin önemini ve enformasyonun önemini artırmıştır. Bu yüzden karar sürecinde

enformasyonun alınıp, verilmesi, aktarılması ve depolanması kurum ve örgüt iletişiminde

önemli rol oynamaktadır. Orkan (1992, s. 3) örgüt iletişiminin önemli olmasının iki nedenini

şöyle açıklamıştır; örgütü amaçlarına ulaştıracak gerekli enformasyonun sağlanması, ikincisi

ise örgütte yer alan kişilerin faaliyetlerini amaçlara uygun doğrultuda olması için gerekli

enformasyonun kişilere aktarılmasıdır. Davenport ve Prusak (1998) enformasyonun veri gibi

olmayıp, anlam taşıdığı ve bu anlamın aslında enformasyonun biçiminde ve bağlamla

ilişkisinde olduğunu ifade etmektedir. Enformasyon amaca göre şekillendirilmekte ve anlam

kazanmaktadır. Verinin enformasyona dönüşüp, anlam kazanabilmesi için çeşitli süreçlerden

geçmesi gerekmektedir. Bu süreçler Şekil 1’de gösterilmiştir.

Şekil 1: Verinin Enformasyona Dönüşüm Süreci

Kaynak: Yeung (2001) personal.cityu.edu.hk/~mepatri/knowledge_management.ppt

den uyarlanmıştır. (Erişim: 19 Şubat 2015)

Sıkıştırma (Condensed): Veri özetlenerek daha kısa hale dönüştürülüp,

gereksiz boşluklar temizlenir.

13

Bağlamsallaştırma (Contextualized): Verinin toplanma nedeni bilinir.

Hesaplama (Calculated): Analiz edilmiş veri, yoğunlaştırılmış veri gibi olur.

Sınıflandırma (Categorized): Analiz ünitesi bilinir.

Düzeltme (Corrected): Hatalar düzeltilir, kayıp ‘veri delikleri’ doldurulur.

Farklı disiplinlerin farklı anlamlar yüklediği bilgi kavramı, Türkçe sözlükte “ insan

aklının erebileceği olgu, gerçek ve ilkelerin bütünü, bili, malumat”, “öğrenme, araştırma veya

gözlem yolu ile elde edilen gerçek, malumat, vukuf” anlamlarına gelmektedir (TDK, 2006).

Bilişim literatüründe ise bilgi: “Kurallardan yararlanarak kişinin veriye yönelttiği anlam” ve

“yapay zekâda bir programın akıllı bir şekilde işlenmesine elveren olaylar, olgular, kurallar ve

buluşsal ipuçları” olarak belirtilmektedir (Sankur, 2004, s. 441). Bilginin önemi bilgiyi

oluşturan enformasyonu ölçülebilir bir nicelik haline dönüşmüş olmasında yatmaktadır.

Tuomi (2000, s. 108) bilgiyi “enformasyonun daha yüksek biçimi” olarak tanımlayarak,

bilginin karar verme durumlarında kullanılan ve değerlendirilebilen, kıyaslanabilen ve

ölçülebilen özelliklerde olması gerektiğini belirtmektedir.

Daniel Bell’e göre bilgi; sistematik bir biçimde rastgele bir iletişim vasıtasıyla diğer

insanlara aktarılan, makul bir zihinsel muhakemeye ya da tecrübeye dayanan, sonucu

gösteren, olgu veya fikirlerle ilgili sistematik ifadeler olarak açıklanabilir. Bilgi doğruluğu

saptanmış inançlardır. Bilgi, sosyal olaylarda karşılaşılan eylem ve olayların anlaşılmasına ve

kavranmasına yardımcı olan işaret ve kavrayışlardır. Bilgi, gözleme dayalı, ölçülebilir,

hesaplanabilir, değerlendirilebilir bir davranış ya da tutuma yönelik değerler bütünüdür. Bilgi,

belli bir aşamalardan geçmiş veri olarak da tanımlanabilir (Dura & Atik, 2002, s. 12).

Mevcut tanımlardan farklı olarak Earl (1994), bilginin ayırt edici özelliğinin onun

sosyal kabul görmesi veya toplumsal onaylama olarak ifade ederek, bilginin kişilerarası ve

nesnel olması gerektiği görüşünü savunmaktadır. Earl’a göre bilgi, her biri gittikçe artan

miktarda yapıyı, kesinliği ve geçerliliği ifade eden dört seviyeye sahiptir. İlkin, olaylar

vakalar veriye dönüştürülmek için toplanmalı ve düzenlenmeli. Sonra veriler enformasyonun

üretilmesi için işlenmeli, yorumlanmalı ve sunulmalıdır. Daha sonra enformasyon test

edildikçe, geçerliliğe sahip oldukça ve sistemleştikçe bilgiye dönüşmektedir. Earl, toplumsal

onaylama, kişiler arası onaylama yoluyla bilginin ortaya çıktığını anlatmaktadır (Aktaran:

Tuomi, 2000, s. 110-111).

14

Veri, enformasyon ve bilgi kavramları ayrı başlıklar halinde yukarıda açıklanmıştı.

Bu kavramlara ilişkin farklı tanımlamalar ve karşılaştırmaları ise Durna ve Demirel (2008)

Tablo 1’deki gibi belirtmektedir.

Tablo 1 : Veri-Enformasyon-Bilgi’ye Yönelik Farklı Kavramsal Bakış Açıları

Yazarlar Veri Enformasyon Bilgi

Wing -

Bir olayı açıklamak

için ayarlanmış

gerçekler.

Gerçekler ve

beklentilerin

yorumu.

Nonaka & Takeuchi - Anlamlı mesajların

akışı.

Mesajlardan

çıkarılan araçlar.

Spek & Spijkervet

Henüz yorum

getirilmemiş

semboller.

Anlamlı verileri içeren

bir bütün.

Enformasyona

anlam kazandırma

yeteneği.

Davenport Basit gözlemleri

içeren süreçler.

Belirli bir amacı olan

veriler.

İnsan zihninden

kaynaklanan

enformasyon.

Dovenport& Prusak Birbirinden farklı

süreçleri içeren set.

Alıcının ön yargısını

kırmak için gönderilen

mesajlar.

Tecrübe ve

değerlere dayalı

enformasyon.

Quigley&Debons

Çeşitli özel durumlar

için anlam içermeyen

ifadeler.

Kim ne zaman, ne

nerede, hangi gibi

sorulara cevap veren

metinler.

Niçin ve nasıl

sorularına cevap

veren metinler.

Choo ve diğerleri Olgular ve mesajlar Anlam ifade eden

veriler bütünü.

Haklılığı ispat

edilmiş gerçek

kanaatler.

Hussain ve diğerleri

Gerçeklerin, istatiksel

olarak hesaplanmış

bütünüdür.

Düzenlenmiş ve kesin

olan verilerdir.

Uygulanabilir,

anlamlı

enformasyon.

Tuomi

Enformasyona

çevrilmek üzere

düzenlenen ham

gerçekler.

Verilerin

düzenlenmesi ve ona

anlam kazandırılması

işlemi.

Enformasyonun

yorumlanması

sonucu ona anlam

katma işlemi.

Marchand -

Diğer kişilerden

alınan verilerin

düzenlenip sıraya

dizilmesi.

Kişisel yorumlara

dayalı enformasyon.

Terra&Angeloni - Düzenlenmiş ve

yorumlanabilen veri.

Deneyim ve

tecrübeye dayalı

inançlar.

Hey Henüz işlenmemiş

enformasyon.

Elektronik araçlarla

anlam kazandırılan

veriler.

Kişilerin

deneyimleri ile

biçimlenen

enformasyondur.

Kaynak: Durna & Demirel (2008, s. 138).

15

Veri, enformasyon ve bilgi kavramlarına dair çeşitli görüşler olsa da genel olarak bu

görüşlerin ortak tarafı, bu üç kavramın birbiriyle ilişkili olduklarıdır. Veriden enformasyona,

enformasyondan da bilgiye yönelik bir geçiş olduğudur. Bir sonraki başlıkta giderek önem

kazanan meta veri ve meta verinin veri, enformasyon ve bilgi ilişkisinden bahsedilecektir.

2.3. META VERİ VE V-E-B İLİŞKİSİ

İnternet ve iletişim teknolojilerinin gelişmesiyle birlikte veri kaynakları sayısı ve

çeşitliliği artmıştır. İstenilen veriye, bilgiye ulaşmak veri çokluğu içinde zorlaşmıştır. Aranan,

istenilen veriye daha kolay ulaşılabilmeyi sağlayan faktörlerin başında meta veri gelmektedir.

Meta veri ya da üstveri en genel anlamıyla “veri hakkındaki veri/bilgi” olarak

tanımlanmaktadır.

Meta Veri ilk olarak Jack E. Meyers tarafından 1969 yılında ifade edilmiş ve ilk

olarak 1973 yılında bir ürün broşüründe kullanılmıştır. Jack E. Meyers bu terimi kendi

MetaModel’i ile ilgili mevcut ve gelecekteki ürünleri temsil etmek ve bu ürünleri geliştirmek

ve pazarlamak için bir şirket kurmak amacıyla kullanmıştır. METADATA® 1986 yılında

Amerika’da tescil edilmiştir. Meyers’in kullanımı üzerine inşa edilen meta veri, bilgisayar

bilimi, istatistik, veritabanı ve kütüphane ve bilgi bilimi topluluklarında veri hakkında veri

(data about data) anlamında kullanılmak üzere benimsenmiştir (Greenberg, 2005).

Bilgisayarların yapılandırılmamış verileri okuyabilmesi için müdahale gereklidir.

Bu müdahalede meta veri sayesinde olur, çünkü meta veri verilere ait açıklamalardır. Meta

veri, herhangi bir verinin ölçülen özelliklerini, adları, birimleri, tarihi, formatını ve tasarımını

açıklar. Bir anlamda meta veri bir veri kümesine erişimizi, nesne veya kaynağın nasıl

biçimlendirildiği, ne zaman ve kimler tarafından toplandığını, verilerin nasıl ölçülüp

hesaplandığını içeren açıklayıcı bilgidir. Verinin bilgisayar tarafından analiz edilebilmesi için,

bilgisayarın o veriyi tanıyabilmesi gerekir. Bu tanıma işlemini sağlayan faktör de meta

veridir. Örneğin bir dosyanın JPEG formatında olduğunu belirttiğimizde, program o dosyanın

bir görsel olduğunu anlayabilir. Meta veri ne kadar açıklayıcı ve çoksa farklı disiplinlerin ve

programlarının veriyi anlaması ve paylaşımı o kadar kolay ve etkili olur (Gray & Liu, 2005) .

Meta Veri Türleri

Meta verinin farklı türlerinin ortaya çıkmasındaki etken, farklı yapılarda veri türlerinin

ortaya çıkması, bu farklı verilerin farklı yöntemlerle saklanması analiz edilmesi ve farklı

16

şekillerde işlenmesidir. Meta veri Swetland tarafından 5 ayrı kategoriye ayrılmıştır. Bunlar, Tablo

2’de tanımları ve örnekleri ile açıklanmıştır (Gilliland Swetland, 2000).

Tablo 2: Meta Veri Türleri ve Tanımları

Türü Tanım Örnek

Tanımlayıcı

(Descriptive)

Bilgi kaynaklarını

tanımlama ve

kimliklendirmede kullanılır

Katalog kayıtları, başlık, yazar

Yönetimsel

(Administrative)

Bilgi kaynaklarının

yönetiminde kullanılan meta

veridir.

Erişim izinleri, oluşturma tarihleri

Koruma (Preservation)

Kaynağı koruma ve

arşivleme için gerekli

bilgileri içerir.

Kaynaklarun fiziksel ve dijital

korunmasına yönelik eylemlerin

dökümantasyonu

Teknik (Technical)

Sistemin nasıl çalışacağına

veya meta verinin nasıl

kullanılacağına ilişkin

Yazılım ve donanım

dökümantasyonu sayısallaştırma

bilgisi(format-sıkıştırma oranı,

güvenlik verisi gibi)

Kullanım (Use)

Bilgi kaynaklarının

kullanım türü ve düzeyine

ilişkin meta veri

Kullanım ve kullanıcıyı izleme,

bilginin birden fazla formatta

tutulması(HTML, PDF gibi)

Kaynak: Gilliland Swetland (2000, s.5)’dan uyarlanmıştır.

Meta veri bir verinin hem insanlar hem de makineler tarafından birlikte

anlamlandırılmasını olumlu etkiler. Veri miktarının ve çeşitliliğinin artmasıyla da meta veri

de artmıştır. Bu yüzden ortaya meta verinin standartlaştırılması ihtiyaç haline gelmiştir. Bu

standartlaşma meta veri şemalarıyla mümkün kılınmıştır. En çok kullanılan meta veri şemaları

aşağıda verilmiştir (National Information Standards Organization, 2004);

Dublin Core - Her kaynak için

TEI (Text Encoded Initiative) - Metinler için

EAD (Encoded Archival Description) - Arşivler için

RDF (Resource Description Framework) - Kaynak Tanımlama Çatısı

VRA (Visual Resources Association) - Görsel Kaynaklar için

ONIX (Online Information Exchange) - Çevirimiçi Bilgi Değişimi

FGDC (Federal Geographic Commitee’s Content Standart for Digital

Geospatial Metadata) - Coğrafik Veriler için

GILS (Government Information Locator Service) - Hükümet yayınları için

MPEG (Moving Picture Experts Group) - Ses ve videolar için

17

Meta veri şemaları sadece yukarıda yazılanlardan ibaret değildir. Ama hepsinin

amacı veriler hakkındaki veri olan meta veriyi standart hale getirmektir. Ancak günümüzde

her bir servisinde kendine has meta verileri vardır. Aşağıdaki başlıkta çeşitli servislerin meta

verileri sıralanmıştır.

Çeşitli Servislerin Meta Verileri

Yukarıda belirtilen meta veri standartları ışığında günümüzde en çok kullanılan sosyal

ağların ve çeşitli servislerin meta verileri aşağıda Tablo 3’te belirtilmiştir. Bu servislerin ortak

özelliği, veri üretir konumda olmaları ve bu verinin çeşitlilik göstermesi, yapılandırılmamış

veya yarı yapılandırılmış olmasıdır.

Tablo 3: Çeşitli Servislerin Meta Verileri

E-Posta Facebook

• Göndericinin adı, e-mail ve ip adresi.

• Alıcının ve e-mail adresi

• Sunucu transferi bilgisi

• Tarih, saat ve saat dilimi

• İçerik türü ve kodlama

• IP adresi ile posta istemcisi giriş kayıtları

• Posta istemcisi başlık biçimleri

• Öncelik ve kategoriler

• E-posta durumu

• Doğum günü, memleket, iş geçmişi ve biyografi bilgileri

• Kullanıcı adı

• Abonelikler

• Yaşadığı yer

• Aile ve İlişkiler

• Cihaz

• Etkinlik tarihi, saati

• Faaliyetle, like’lar, check-in'ler ve olaylar

Telefon Web tarayıcısı-Google Search • Her arayanın telefon numarası

• Katılan telefonların benzersiz seri

numaraları

• Çağrını zamanı

• Çağrı süresi

• Her katılımcının yeri • Telefon arama kartı numaraları

• Sayfaların ne zaman ziyaret edildiğini içeren aktivite

kaydı

• Kullanıcı verileri ve özellikleri ve otomatik doldurma ile

muhtemel kullanıcı giriş bilgileri

• IP adresi, internet servis sağlayıcısı, cihaz, donanım

detayları, işletim sistemi ve tarayıcı sürümü • Çerezler ve internet sitelerinden önbelleğe alınan veriler

• Arama sorguları

• Arama sonuçları

• Arama sonucu ziyaret edilenler

Twitter Kamera

• Ad, konum, dil, profil bilgisi ve url

• Kullanıcı adı ve benzersiz tanımlayıcı

• Tweet'in konumu, tarih ve saat

• Tweet'in benzersiz kimliği ve cevap tweet

kimliği

• Katılımcı kimlikleri

• Takipçi, takip edilen ve favori sayısı • Doğrulama durumu

• Fotoğrafçı tanımlama

• Oluşturma - değiştirme tarih ve saati

• Fotoğrafın çekildiği yer

• Bir fotoğrafın içeriği hakkında detaylar

• Telif hakkı bilgileri

• Kamera markası ve modeli

• Kamera ayarları: deklanşör hızı, f-stop, odak uzaklığı ve flaş türü

• Fotoğraf boyutları, çözünürlüğü ve oryantasyonu

Kaynak: Guardian US Interactive Team (2013)

18

Meta veri oluşturmanın önemli nedeni konuyla ilgili bilgilerin keşfini

kolaylaştırmaktır. Kaynak keşfine ek olarak metadata, elektronik kaynakları organize etmeyi,

birlikte işlerliği ve kaynakların entegre edilmesini sağlar, ayrıca dijital kimliklendirme,

arşivlemeyi destekler ve korur (National Information Standards Organization, 2004). Bilgi

hiyerarşisinde bir basamakta yer almasa da, meta veri, verinin alınmasında, depolanmasında,

işlenmesinde ve verinin bilgisayarlara tarafından okunmasında faydalıdır. Ayrıca verinin

enformasyona, enformasyonun bilgiye dönüşünde meta veri etkin rol oynar. Veri ve

enformasyon hakkında bilgilendiricidir ve geçiş ve dönüşüm süreçlerini hızlandırır. Meta veri

ne kadar fazla ise bilgisayarlar da insanlar da daha hızlı anlar ve yorumlama yapabilirler.

Örneğin bir metnin başlığı o metne ait meta veridir ve kişi başlığı okuduğunda o metnin ne

hakkında olduğunu kestirebilir.

2.4. BİLGİ HİYERARŞİSİ

20. ve 21. yüzyılda enformasyonun ölçülebilir bir meta olmasında veri, enformasyon

ve bilgi (VEB) hiyerarşisinin fen bilimleri şemsiyesi altında değerlendirilmesinin olumlu

etkisi vardır. Ancak veri, enformasyon ve bilgi hiyerarşi ilk olarak fen bilimlerinde değil

sosyal bilimlerde yer bulmuştur. İlk kez 1982 yılında Harlan Cleveland’ın “Information as

Resource” isimli makalesinde bilgi hiyerarşisinden bahsedilmektedir. Clevand makalesinde

şair T.S. Eliot’un 1934 yılında yayınladığı The Rock isimli şiirini enformasyon, bilgi ve

bilgelik kavramlarına ışık tuttuğunu belirtmektedir (Dilmen & Öğüt, 2006).

Where is the wisdom that we have lost in knowledge?

(Bilgi içinde kaybettiğimiz bilgelik nerede?)

Where is the knowledge that we have lost in information?

(Enformasyon içinde kaybettiğimiz bilgi nerede?)

Eliot bu mısralarda bilgeliğin bilgiye, bilginin ise enformasyona olan bağımlılığını

hiyerarşik bir sıralamayla anlatmaktadır. Şekil 2’de bilgi hiyerarşisi gösterilmektedir.

19

Şekil 2: Veri-Enformasyon-Bilgi Hiyerarşisi

Bilgi hiyerarşisi, “Bilgi Piramidi” veya “Enformasyon Hiyerarşisi” gibi farklı

kavramlar da ifade edilmektedir. Veri, enformasyon, bilgi ve bilgelik (VEBB) sıralaması bilgi

yönetimi alanında bilgi hiyerarşisi, enformasyon alanında yapılan çalışmalarda ise

enformasyon hiyerarşisi olarak tanımlanmaktadır. Bu tanımlamaların seçilmesinde ilgili

çalışmaların yapıldığı alanların etkisi yatmaktadır.

Bilginin oluşumuyla ilgili genel kabul gören hiyerarşi veri, enformasyon, bilgi

şeklindeki sıralamadır ancak bilgisayar bilimlerinde buna ek olarak veri öncesine sinyal ve

felsefe bilimlerinde de bilginin sonuna bilgelik -akıl- ilave edilmektedir (Mertins, Heisig, &

Vorbeck, 2003, s. 3). Bu tez kapsamında bilgi hiyerarşisi içinde veri enformasyon ve bilgi

kavramları ve birbirleriyle ilişkileri ele alınmaktadır.

Bilgi hiyerarşisinin üç aşamadan oluştuğunu ifade eden Sağsan (2009, s. 629)’a göre

ilk aşama; belirsizlik ve bulanıklığın giderilmeye çalışıldığını, belirsizliğin en aza indirilmesi

sonucu elde edilen göstergelerin gözlem yolu ile toplanarak kodlanıp verinin elde

edilebileceği aşamadır. İkinci aşama ise elde edilen bulguların organizasyonunu

gerektirmektedir. Karmaşık süreçlerin yaşandığı bu aşamada, verileri sıraya koyma, birbirleri

ile ilişkisi olanları kümeleme, belirli bir süzgeçten geçirme, aralarındaki ilişkiyi kurma ve

belirgin bir bağlam içinde örgütsel süreçleri gerçekleştirme gibi eylemler, verinin

enformasyona dönüştürülmesinde kullanılmaktadır. Üçüncü aşamada ise enformasyon bir

diğer enformasyon ile karşılaştırılmakta, belirsizlikler ortadan kaldırılmaya çalışılmaktadır.

Elde edilen enformasyon açıklanarak ve anlaşılarak belirsizliği ortadan kaldırılıp bilgi haline

dönüştürülmektedir. Bir anlamda bilgi bağlantılar kullanılarak hayata geçirilmiştir.

Devenport ve Purusak (2001), bilgiyi tanımlarken insanın özüne vurgu yaparlar.

Onlara göre bilgi insanın içindedir, karmaşık ve önceden bilinmez, insan doğasının bir parçası

20

olarak hep var olur. Aynı zamanda enformasyonu bilgiye dönüştürmek için karşılaştırma,

sonuçlar, bağlantılar, konuşmalar şeklinde işlemlerden geçirilmesi gerektiğini belirtmişlerdir.

Enformasyonun bilgiye dönüşmesi için gerekli olan süreç ise şu şekilde sıralanmaktadır

(Davenport & Prusak, 1998, s. 6).

Karşılaştırma: Mevcut duruma ilişkin enformasyon ile diğer durumlara ilişkin

bildiğimiz enformasyonlar arasındaki benzerlik ve farklılıkların belirlenmesi.

Sonuçlar: Enformasyonun kararlar üzerinde ne kadar etkili olduğunun bilinmesi.

Bağlantılar: Mevcut bilgi parçası ile diğerleri arasındaki ilişkinin nasıl olduğunun

ortaya konulması.

Konuşmalar: Diğer çalışanların bu enformasyon hakkındaki düşüncelerinin

öğrenilmesidir.

Açık bir şekilde görülmektedir ki, bu bilgi oluşturma süreci kendi içinde ve insanlar

arasında gerçekleşmektedir. Böylece bilginin temelinde enformasyon, onun da temelinde

verilerin olduğu görülmektedir. Verinin enformasyona, enformasyonun bilgiye dönüşünde

meta verinin önemi günümüzde daha da büyüktür çünkü bilgisayarlar ve makineler meta

veriler sayesinde verileri anlamlandırır, işleyebilir ve analiz edebilirler. Meta veri miktarı

fazla oldukça da veriyi işleyip enformasyona ve enformasyonu da bilgiye dönüştürme hızı

hem makineler hem bilgisayarlar için artar.

Makinelerin ve bilgisayarların verileri otomatik olarak okuyup, işleyip,

anlamlandırmaları için yapılan çalışmalar beraberinde yeni kavramları da ortaya çıkarmıştır.

Bu kavramlardan en önemlileri Büyük Veri ve Nesnelerin İnterneti (Internet of Things)’dir.

Bu tez bağlamında bir sonraki başlıkta Büyük Veri ve özellikleri, sınırlılıkları ve zorlukları

açıklanacaktır.

21

2.5. BÜYÜK VERİ VE ÖZELLİKLERİ

Teknolojik gelişmelerle birlikte üretilen, saklanan ve işlenen veri miktarı hızla

artmaya başlamıştır. Günümüzde Web, akıllı telefonlar, televizyonlar, uydular, sosyal ağlar,

kameralar, bankalar, kredi kartları, uçaklar, hastaneler, Küresel Konumlama Sistemi (Global

Positioning System-GPS) cihazları, radyolar ve algılayıcılar gibi birçok unsur sürekli farklı

formatlarda veri üretmektedirler. Örneğin “Bir jet uçağı uçtuğu her 30 dakikada 10

terabyte’lık algılayıcı verisi ve New York Borsası her gün yapılan hisse senedi alışverişlerine

ilişkin 1 terabyte’lık veri toplamaktadır.” (Sun & Heller, 2012). YouTube’a günlük ortalama

65 bin video yüklenmekte ve Amazon’a ait sadece iki veritabanında 42 terabyte’lık veri

bulunmaktadır. WhatsApp’ta günlük ortalama 27 milyar mesaj gönderilmekte, Google günlük

24 petabyte veri işlemektedir (Davenport ve diğerleri, 2012, s. 22). Bu bağlamda hayatımızın

her alanında “veri seli” hissedilmekte ve yaşanmaktadır. Veri miktarı ve çeşitliliği arttıkça da

literatüre yeni kavramlar girmeye başlamıştır. Büyük Veri kavramı da bu kapsamda ilk olarak

John Mashey tarafından 1990’lı yılların ortalarında büyük veri setlerinin yönetimi ve analizi

olarak kullanılmıştır. Ancak akademik referans anlamında ilk olarak Weiss ve Indurkhya

(1998) tarafından bilgisayar biliminde, Diabold tarafından 2000 yılında ekonometri ve

istatistik alanlarında Büyük Veri kavramı mevcut anlamı ile kullanılmıştır (Diebold, 2012).

Büyük Veri, 2008 yılına kadar hem akademik literatürde hem de bilişim sektöründe

bilinirliği sınırlı kalmış bir kavram olarak karşımıza çıkmaktadır. 2008 yılının Haziran ayında

Wired dergisinde yayınlanan Petabyte Çağı (The Petabyte Age) başlıklı yazıyla birlikte

popüler olan Büyük Veri kavramı bu yazıda “bilimi, tıbbı, işletme yönetimini ve teknolojiyi

değişime uğratan devasa miktarda veriyi tutma, depolama ve anlama kabiliyeti” olarak ifade

edilmektedir (Wired, 2008). Özellikle 2012 yılında Büyük Veri ile ilgili birçok yayın, dergi

makalesi ortaya çıkmıştır. Harvard Nicel Sosyal Bilimler Enstitüsü yöneticisi Gary King’in

2012 yılı Şubat sayısı New York Times’ta yayınlanan Büyük Veri Çağı (The Age of Big

Data) başlıklı yazısında, Büyük Veri’nin bilim dünyasından iş dünyasına ve kamu

yönetimlerine kadar her alanı etkileyeceğini ve etkilenmeyecek bir alanının olmayacağını

belirterek Büyük Veri olgusunun bir devrim olduğunu belirtmektedir (Lohr, 2012). Dünya

Ekonomik Forumu (World Economic Forum) 2012’de yayınlamış olduğu “Büyük Veri Büyük

Etki” (Big Data Big Impact) başlıklı raporda Büyük Veri’nin kamu ve özel sektörün

22

uluslararası gelişimi ve yeni imkânlar sunmasına değinmiştir. Ayrıca, bu zirvede Büyük

Veri’nin, altın ya da para gibi ekonomik varlıkların yeni bir türü olarak ilan edildiğini de

belirtmekte fayda var. Amerikan İstatistik Derneği ve Amerikan Matematik Derneği başta

olmak üzere birçok dernek 2012 Nisan ayını “Matematik, İstatistik ve Veri Seli için

Farkındalık Ayı” olarak ilan ederek sürekli artan miktardaki veriyi anlamak için istatistik ve

matematiğin önemine vurgu yapmıştır (Mathematical Association of America, 2012).

2012’nin Büyük Veri yılı olmasından dolayı 2012’de Araştırma Trendleri Dergisi, Büyük

Veri özel sayısını çıkarmıştır.

Büyük Veri teknolojik gelişmelerle birlikte çok hızlı ve geniş yelpazeli bir şekilde

geliştiği için farklı disiplinlerde farklı anlamlarla ifade edilebilmektedir. Disiplinler arası bir

kavram olması nedeniyle hem farklı disiplinlerdeki araştırmacıların hem de Büyük Veri’yle

ilgilenen kurumların Büyük Veri’ye yükledikleri anlam ve bakışı farklılıklar göstermektedir.

Tablo 4’te Büyük Veri’nin farklı tanımları gösterilmiştir.

Tablo 4 : Büyük Veri Tanımları

Kaynak Büyük Veri Tanımı

Dijcks (2012) Büyük Veri'yi tanımlayan 4 özellik hacim, hız, çeşitlilik ve

değerdir.

Intel (2012) Karmaşık, yapılandırılmamış veya devasa miktarlarda veri

Suthaharan (2013) 3 Özellikle tanımlanabilir; nicelik, süreklilik, karmaşıklık.

(Schroeck vd. (2012) Büyük Veri günümüzün dijital pazarında firmalara rekabette

avantaj sağlayacak, fırsatlar yaratan hacim, çeşitlilik, hız ve

doğruluk özelliklerini taşıyan bir kombinasyondur.

(Beyer & Laney (2012) Karar verme ve doğru çıkarımlarda bulunabilmek için maliyeti

ucuz ve inovatif enformasyon işleme şekilleri gerektiren ve

yüksek hacim, hız ve çeşitlilik enformasyon varlıklarıdır.

(NIST Big Data Public

Working Group (2014)

Depolama, işleme ve analiz için ölçülebilir bir yapı gerektiren

büyük veri setlerinin hacim, hız, çeşitlilik ve/veya doğruluk

özelliklerini taşır.

Ward & Barker (2013) NoSQL, MapReduce ve makine öğrenmesi gibi yöntemleri

kapsayan ama bunlarla sınırlı olmayan büyük ve karmaşık veri

setlerinin depolanması ve analizi.

Microsoft (2013) Ciddi ve önemli hesaplama gücü, uygulama işlemi, makine

öğrenmesi ve yapay zekâdaki en son gelişmelerden çok çok

büyük ve çok karmaşık verisetlerini içerir.

Dumbill (2013) Klasik veritabanlarının işlem kapasitelerini aşan veriye denir.

23

Fisher vd. (2012) Kolaylıkla işlenemeyen ve baş edilemeyen veridir.

Shneiderman (2008) Ekrana sığamayacak kadar büyük veri setidir.

Manyika vd. (2011) Geleneksel veritabanı yazılım araçlarının depolayıp,

yönetemediği ve analiz edemediği veya bunları yapma

kapasitesini aşan büyüklükteki veri kümeleridir.

Chen vd. (2012) Çok büyük, karmaşık ve gelişmiş veri depolama, yönetme, analiz

ve görselleştirme teknolojileri gerektiren veri kümeleri ve analitik

teknikleridir.

Boyd&Crawford (2012) Teknoloji, analiz ve mitolojinin birbiriyle ilişkisine dayanan

kültürel, teknolojik ve bilimsel bir olgudur.

Mayer-Schönberger&

Cukier (2013)

Toplumu anlama ve düzenleme biçimimizi değiştiren, bilgiyi

analiz etmemizde üç değişimi temsil eden olgudur: 1. Daha fazla

veri, 2. Daha dağınık veri, 3. Nedensellikten korelasyona geçiş.

Kaynak: Mauro, Greco&Grimaldi 2014 s.7’den uyarlanmıştır.

Yapılan literatür araştırmasında geçen Büyük Veri tanımları incelendiğinde “hacim”

“hız”, ve “çeşitlilik” kavramlarının Büyük Veri’nin temel özellikleri olduğunu, analitik

yöntemlere ihtiyaç duyulduğunu, Büyük Veri’nin sahip olduğu “değer” kavramının kurum ve

toplumları dönüştürdüğünü çıkarabiliriz.

Bu tez çalışmasında Büyük Veri kavramı Mayer-Schönberger&Cukier (2013) ve

Manyika vd. (2011) yapmış oldukları tanımlara dayandırılmaktadır. Büyük Veri, “Geleneksel

veritabanı yazılım araçlarının depolayıp yönetemediği ve analiz edemediği veya bunları

yapma kapasitesini aşan büyüklükteki veriyi ve toplumu anlama ve düzenleme biçimimizi

değiştiren, bilgiyi analiz etmemizde değişimi temsil eden olgu” olarak kabul edilerek bu

bölümde Büyük Veri’nin boyutları, özellikleri, ilişkili olduğu alanlar ve sınırlılıklarıyla

zorluklarına değinilmiştir.

2.6. BÜYÜK VERİ’NİN BOYUTLARI

Büyük Veri’nin farklı disiplinlerde farklı anlam ve özellikleri olsa da en çok kabul

edilen özellikleri; veri hacmi (volume), veri hızı (velocity) ve veri çeşitliğidir (variety) ve

bunlar 3V ile ifade edilir (Laney, 2001). Çeşitli kaynaklarda doğruluk (verification) ve değer

(value) de bu özelliklere ilave edilerek 5V olarak belirtilmektedir. Diğer yandan kimi

kaynaklarda ise Büyük Veri boyutları hacim, hız ve çeşitliliğe ek olarak sadece doğruluk veya

sadece değer eklenerek 4V olarak da literatürde yer almaktadır. Bu beş kavram için standart

24

bir tanımlama bulunmamakla birlikte bunlar çeşitli kaynaklarda Büyük Veri

Bileşenleri/Unsurları/Elementleri/ Özellikleri/Boyutları gibi farlı isimlerle ifade edilmektedir.

Veri hacmi verinin miktarını, veri hızı; üretildiği anda yayılabileceğini, veri çeşitliliği ise veri

yapısının farklı formatlarda olabilmesini ifade etmektedir (Zikopoulos, 2012). Doğruluk,

Büyük Veri’nin güvenilirliğini ve Büyük Veri’nin sahip olduğu en önemli özellik olarak

atfedilen değer kavramı ise Büyük Veri’de yatan soyut anlamı ve kurum için artı bir değer

yaratıyor olmasıdır. Büyük Veri öncesinde ilk üç özellikleri veri tabanları aynı anda birlikte

barındıramıyorlardı, sadece ikisini (büyük ve hızlı, çeşitli ve hızlı, büyük ve çeşitli)

barındırabiliyorlardı. Büyük Veri ile birlikte bu üç özellik bir araya gelmiştir (Croll, 2012).

Şekil 3’te Büyük Veri’nin 5 Boyutu gösterilmektedir.

25

Şekil 3: Büyük Veri Boyutları

Kaynak: http://andressilvaa.tumblr.com/post/87206443764/big-data-refers-to-5vs-

volume’den uyarlanmıştır (Erişim: 19.07.2015)

Literatürde daha çok yer bulduğu için bu tez bağlamında Büyük Veri’nin

boyutlarından veri çeşitliği, veri hızı ve veri hacmi ifadeleri daha detaylı olarak

incelenecektir. Google arama motorunda, 3V olarak adlandırılan Büyük Veri unsurlarının

hangi sıralamada daha çok Büyük Veri’yle kullanıldığını belirlemek için, bu üç kavramın

birlikte yer aldığı farklı permütasyonlar aratılmıştır. Bu aramalardan birine örnek verecek

olursak, “big data”+“volume velocity variety” şeklindedir. Arama dilinin İngilizce olmasının

nedeni bu üç unsurun Türkçe kaynaklarda “hacim” veya “veri hacmi” gibi farklı şekilderde

Büyük Veri'nin 5 V'si

Yıllık-Aylık

Günlük-Saatlik

Gerçeğe Yakın

Gerçek Zamanlı

İstatistiki

Olgular

Korelasyonlar

Varsayımsal

Güvenilirlilik

Gerçeklik

Kaynak, Saygınlık

Ulaşılabilirlik

Hesaplanabilirlik

Yapılandırlmış

Yarı Yapılandırılmış

Yapılandırılmamış

Çok faktörlü

Olasılıksal

Terabaytlar

Kayıtlar

İşlemler

Tablolar

Velocity (Veri Hızı)

Value

(Veri Değeri)

Veracity

(Veri Doğruluğu)

Variety

(Veri Çeşitliliği)

Volume

(Veri Hacmi)

26

ifade edilmesinden kaynaklanan anlam karmaşasının önüne geçmektir. Bu sıralamalar Tablo

5’te belirtilmiştir.

Tablo 5: Büyük Veri Boyutlarının Google’da Arama Sıralamaları Sonuçları

Google’da Arama Sıralamaları Sayfa

Sayısı

variety volume velocity 28300

velocity Variety volume 20800

volume velocity variety 17800

volume Variety velocity 12500

velocity volume variety 1840

variety velocity volume 1600

Kaynak: Google (Erişim: 27 Mart 2015)

Yapılan Google aramalarından elde edilen sonuçlara göre Büyük Veri ile birlikte Veri

Çeşitliliği, Veri Hacmi ve Veri Hızı” sıralaması yaklaşık 28300 sayfada bulunmuştur. “Veri

Hızı, Veri Çeşitliliği ve Veri Hacmi” sıralaması ise yaklaşık 20800 sayfada kullanılmaktadır.

Büyük Veri’nin üç boyutlarının farklı sıralama permütasyonlarının Google arama motoru

sonuçları doğrultusunda elde edilen sayfa sayılarına göre en çok “Veri Çeşitliliği, Veri Hacmi

ve Veri Hızı” Büyük Veri’yle kullanıldığı için bu tez çalışması bağlamında da bu sıralamaya

göre devam edilerek daha sonra Büyük Veri ile anılmaya başlayan diğer boyutlar olan veri

doğruluğu ve veri değeri açıklanacaktır.

2.6.1. Veri Çeşitliliği

Veri çeşitliliği, Büyük Veri’nin yapısındaki farklılık ve zenginliğin ölçüsüdür. Veri

yapılandırılmış, yapılandırılmamış ve yarı yapılandırılmış, sayı, metin, resim, video, ses ve

diğer farklı formatlarda bulunabilir. Büyük Veri’nin bu çeşitli formatları aynı anda

bulundurması analizinde zorluklara sebep olmaktadır. (Kaisler ve diğerleri, 2013). İnternetle

birlikte yapılandırılmamış veri miktarı hızla artmakta ve dijital evrende yapılandırılmamış

veri miktarı oranı %90’nın üzerinde olduğu ifade edilmektedir (Gantz & Reinsel, 2011).

Büyük Veri’de farklı yapıdaki veriler genellikle birleştirilmiş ve bağlanmış, birleştirilmiş

yapısal ve yapısal olmayan veriler şeklindedir. Örneğin Facebook gönderilerinde fotoğraf,

video, diğer web sitelerinden link ve yorumları içerebilen farklı formatları aynı anda

bulunabilmektedir (Kitchin, 2014).

27

Geleneksel analitik platformlar farklı çeşitlilikteki verilerle aynı anda baş

edememekte ve analiz edemememektedir. Bununla birlikte geleneksel veritabanları farklı

formattaki veriyi depolayamamaktadır. Kurumlar, yatırımlarını Büyük Veri’nin çeşitliliğinde

bulunun değeri yeni yöntemlerle analiz edip, çıkararak rekabet ortamında öne geçmeyi

hedeflemektedirler. Ayrıca geleneksel ilişkisel veritabanlarında numerik veriler kullanılarak

çeşitli istatistiksel analizler yapılabilmekteyken, numerik olmayan verilerde ise analiz yapma

gücü zayıf kalmıştır (Zikopoulos, 2012, s. 8). Bu yüzden temelinde mevcut istatistiksel

tekniklerin yer aldığı yeni veri analiz teknikleri geliştirilmiştir. Bu analizlerin bir kısmı veri

madenciliği adı altında sınıflandırılmıştır. Bu yöntem ve teknikler bu tez bağlamında beşinci

bölümde ele alınmıştır. Open Data Center Alliance (2012) ’nın raporuna göre, Büyük Veri

öncesinde yapısal olmayan veri ya yok sayılırdı ya da en iyi ihtimalle verimsiz olarak

kullanırdı. Ama NoSQL yapısı kullanılarak dizayn edilen veri tabanlarındaki yapısal olmayan

veriler, veri madenciliği yöntemleri ve Hadoop ve MapReduce gibi yeni tekniklerle

yönetilebilir, işlenebilir ve analiz edilebilir olmuştur.

Web 2.0’la ortaya çıkan sosyal medyada kullanıcılar artık aynı anda farklı

formatlardaki verileri paylaşabilir olmuşlardır. Örneğin sosyal ağlarda paylaşılan bir içerikte

metin, link ve video aynı anda bulunabilmektedir. Kişilerin sosyal medyada paylaşımları

sayesinde de ortaya çıkan Büyük Veri, araştırmalar içinde ham madde konumundadır.

Özellikle sosyal medya, internet araştırmalarına ev sahipliği yapmakta ve toplanan veriler

hem mevcut istatistiksel hem de yeni gelişen analiz teknikleriyle analiz edilmektedir. Bu tez

bağlamında toplanan Büyük Veri’nin analizinde kullanılan yöntem ve teknikler

açıklanacaktır.

2.6.2. Veri Hacmi

Büyük Veri özelliklerinden ilk akla gelen veri hacminin büyüklüğüdür. Büyük Veri

kavramındaki “Büyük” ifadesi de aslında verinin hacminden gelmektedir (Zadrozny &

Kodali, 2013). Web 2.0 ve sosyal medya ile birlikte günlük bazda üretilen ve işleme konulan

veri miktarının artışı dikkat çekicidir. Birçok şirket dünyadaki enformasyon miktarını ölçerek

dijital evreninin büyüklüğünü belirlemeye çalışmaktadır. Örneğin EMC şirketi

sponsorluğunda IDC’nin yapmış olduğu çalışmada dijital evrenin 2020 yılında 2009 yılından

44 kat daha büyük olacağı ifade edilmiştir (IDC iView, 2010).

28

Ganz&Reinsel ve Hilbert&Lopez yapmış oldukları çalışmalarda dünyada var olan

veri hacmini hesaplamaya çalışmış, farklı metotlar ve tanımlar denemişlerdir. Bu

çalışmalardaki ortak görüş veri artış oranının üstel olduğu yani katlanarak devam ettiğidir

(Hilbert & López, 2012, Ganz & Reinsel, 2011). Günümüzdeki bu artış içinde olan veriye ait

veri hacim ölçüleri Tablo 6’da gösterilmiştir.

Tablo 6: Veri Hacmi Ölçüleri

Birim Büyüklük Anlamı

Bit(b) 0 veya 1

"İkili sayı"nın (binary digit) kısaltılması.

Bilgisayarlar verileri ikili kod (0-1) temelinde saklar

ve işlerler.

Byte (B) 8 bit Bir harf veya sayıyı bilgisayar kodunda oluşturmak

için yeterli enformasyon. Temel hesaplama birimi.

Kilobyte (KB) 1000 veya 210

byte Yunancadaki "bin". Bir sayfa yazı 2 KB.

Megabyte (MB) 1000 KB; 220

byte Yunancadaki "büyük". Shakespeare'in bütün eserleri

5 MB, tipik bir pop şarkı 4 MB.

Gigabyte (GB) 1000 MB; 230

byte Yunancadaki "dev". İki saatlik bir film 1-2 GB'ye

sıkıştırılabilir.

Terabyte (TB) 1000 GB; 240

byte Yunancadaki "dev". Amerikan Kongre

Kütüphanesi'ndeki kitaplar 15 TB.

Petabyte (PB) 1000 TB; 250

byte Google her saatte 1 PB işliyor.

Exabyte (EB) 1000 PB; 260

byte Economist dergisinin 10 milyar kopyasına eşdeğer.

Zetabyte (ZB) 1000 EB; 260

byte 2010 yılında var olan tüm bilgi 1,2 ZB olarak

öngörülüyor.

Yotabyte(YB) 1000 ZB; 280

byte Hayal etmesi zor.

Kaynak: The Economist http://www.economist.com/node/15557421) (Erişim 12

Ocak 2015).

Short, Bohn ve Baru (2011)’nun “Ne Kadar Enformasyon” (How much information?)

adlı yıllık raporuna göre, 2008 yılı itibariyle dünya sunucuları 9.57 ZB enformasyonu

işlemiştir. 2013 yılında AB Dijital Ajansı komisyoncusu Neelie Kroes dakika başına dünyada

1.7 milyon byte veri üretildiğini bildirmiştir (Rial, 2013). Gantz ve Reinsel (2011)’in hesabına

göre internet üzerinde üretilen ve yinelenen veri miktarı 2011 yılında 500 quadrilyon dosya

içerisinde 1.8 ZB'yi geçmektedir.

http://www.economist.com/node/15557421

29

Tech America'nın tahminine göre dünya üzerinde her gün 114 milyar e-mail, 24

milyar kısa mesaj gönderilmekte ve 12 milyar telefon çağrısı gerçekleşmektedir (Strohm &

Timothy R., 2013). Cisco'ya göre, 2013 yılında 10 milyar nesne Nesnelerin İnterneti’ne

bağlanmakta, çeşitli miktarlarda veri üretmektedir ve bu sayının 2020 yılı itibariyle 50

milyara çıkması beklenmektedir. (Cisco, 2013). 2012 yılında Google’da, her biri kayda alınan

günlük 3 milyon arama sorgusu gerçekleşmiştir. Bu sorguların günlük hacmi 24 PB

civarındadır (Mayer-Schönberger & Cukier, 2013). 2011 yılında Facebook'taki aktif

kullanıcılar, ayda ortalama 9,3 milyar saatten fazla bir süreyi bu sitede online olarak

geçirmektedirler (Manyika ve diğerleri, 2011). Facebook kullacıcı sayısı 1 milyarı aşmakta ve

günlük aktif kullanıcı sayısı 650 milyona yaklaşmaktadır. Facebook’ta günlük ortalama 2,5

milyar içerik paylaşılmakta, 2,7 milyar “beğen” düğmesi tıklanmakta ve 500 Terabyte’n

üzerinde veri üretilmektir (Zadrozny & Kodali, 2013, s. 2).

Bilimsel projelerde de üretilen veri miktarı çok yüksektir. CERN’de bulunan Geniş

Hadron Çarpıştıcısı her saniyede 40 TB veri üretmektedir. Slon Digital Sky Survey, 2000

yılında çalışmaya başladığında, New México da bulunan teleskoplarında birkaç ay içerisinde

o güne kadar insanlık tarihinin astronomi alanında üretmiş olduğu veriden daha fazla miktarda

gözlemsel veriyi toplamıştır. 2010 yılında bu arşiv 140 TB veriden oluşmaktadır (The

Economist, 2010).

Hükümetler ve kamu kurumları da vatandaşlar için çok yüksek miktarda veri

üretmektedir. Örneğin ulaşım kartları verileriyle kişilerin nerden nereye hangi araçla gittiği, o

araçlarda kimlerin olduğu bilgisine ulaşılabilir (Kitchin, 2014, s. 71). DARPA ve ABD

Ordusu bünyesindeki ARGUS-IS görüntü platformu 7 gün 24 saat Neywork City ve

Manhattan gözetleyen dronlarla günlük 8 PB’lık video görüntüsü kaydetmektedir. Güvenliği

sağlayan 16 istihbarat teşkilatıyla beraber Amerikan Ordusu saat bazında çok yüksek

miktarda veriyi tarayıp, depolayarak analiz etmekte ve binlerce analist bu verilerin

ayıklanması ve yorumlanması için çalıştırılmaktadır (Anthony, 2013).

2.6.3. Veri Hızı

Büyük Veri’yi farklı kılan en önemli özellik veri üretiminin dinamik doğasıdır. Küçük

veri genellikle belirli bir zaman ve mekânda yapılan sabit çerçeveli çalışmalardan oluşur.

30

Boylamsal çalışmalarda veri belirli zaman aralıklarıyla (her ay, her yıl gibi) elde edilmektedir.

Diğer yandan Büyük Veri ise sürekli, devam eden bir yapıda gerçek zamanlı ya da gerçeğe

çok yakın süreyle üretilir. Aralıklı, kesintili bir veri akışından ziyade veri selinden elde edilir

ve veri, hızıyla birlikteyken işlenir. Bundan dolayı, veri yığınlarından akan veriye doğru

kayan bir ilgi vardır (Zikopoulos, 2012).

Hız, süreç içinde her zaman açık olan sistemlerin çalışması ve bu sistemlerde tekrar

edilen gözlemlerin zaman veya mekân içerisinde sürekli olarak tekrarlı şekilde devam

etmesinden kaynaklanır (Jacobs, 2009). Örneğin web siteleri kullanıcıların yaptığı işlemler ve

ziyaretler hakkında sürekli olarak aynı şekilde log tutar, tıbbi cihazlar yaşamsal belirtileri

sürekli olarak takip eder, mobil telefon şirketleri cihazları sürekli izleyerek her saniye şebeke

durumunu kontrol eder, hava sensörleri her dakika atmosfer hakkında ölçüm yaparak hava

tahmini için ilgili veriyi işler, şehirdeki otobüs ve tren işletmeleri sürekli olarak ulaşım

aletlerini kontrol eder ve zamanlama hakkında bilgi verir, bir teleskop sürekli olarak uzay ve

gezegenler hakkında radyo dalgaları ile ölçüm yapar ve yeni keşiflere imkân sağlar. Bu

durumların hepsi akan veriye örnektir ve verinin hızıyla birlikte analiz edilmesine ihtiyaç

duyulmaktadır.

İnternetle birlikte hayatımıza giren e-ticaret şirketleri ve çevrimiçi satıcıları da veri

hızı ile ilgilenmektedir. Sadece ürünün son satışı ile değil, müşterilerin her etkileşimini ve

tıklamalarını takip eden çevrimiçi şirketler, anlık olarak hemen kullanıcıların verilerini analiz

ederek, kullanıcılara satın alabileceği ek ürünler sunmakta, kullanıcıların yaptıkları aramalar

doğrultusunda onlara benzer şeyler önererek rekabet ortamında öne geçmektedirler. Akıllı

telefonlar sayesinde veri akışı hızlanmaktadır, çünkü kullanıcılar onları yanlarında taşıyarak

konum bilgilerinin verisini yaymaktadır (Dumbill, 2012). Bu veriyi analiz eden şirketler

kişilere konum tabanlı reklam, mesaj göndermekte ve bu durum giderek yaygınlaşmaktadır.

Verilerin anlık olarak izlenmesi, ölçümlenmesi ve analiz edilmesi pazarlama sektörü

açısından hayati önem taşımaktadır. Çünkü rekabetçi ortamda kurumlar veriyi ne kadar hızlı

analiz edebilirse, o kadar hızlı pazarlama stratejileri geliştirerek hedef kitlelerini

belirleyebilirler. Böylece kişilerin ihtiyaç duydukları bir ürünü/hizmeti anlık olarak

belirleyerek kişilere ilgili ürün/hizmetleri gerçek zamanlı olarak sunabilir ve böylelikle pazar

paylarını genişletebilirler.

31

2.6.4. Doğruluk

Büyük Veri’nin doğruluğu iki anlamı ifade etmektedir. Birincisi, Büyük Veri’yi

oluşturan kaynağın güvenilirliğinin yüksek olmasını ve ikincisi de verinin hedef kitleye uygun

olmasını ifade etmektedir. Doğruluk günümüzde Büyük Veri açısından en zor temin edilen

durumdur. Çünkü Büyük Veri’nin çoğunluğu farklı kaynaklardan gelmektedir ve bu

kaynakları veriyi toparlayan kurumlar kontrol edememektedir (Sütcü & Çiğdem, 2013, s. 94).

Örneğin Twitter’da belirli bir hashtag ile oluşturulmuş içeriklerin güvenilirliğini ve o hashtag

ile ilgili olup olmadığını kontrol etmek güçtür. Kitap mağazasının tüm müşterilerine aynı

kitap reklamını yapması da uygun olmayabilir. Özellikle sosyal medyada reklam vermek için

hedef kitlenin belirlenmesinde filtreleme ne kadar hassas olursa reklamın doğru kişilerce

alınması da doğru olacaktır. Büyük Veri’nin doğruluğunu ve kalitesini etkileyen en önemli

unsurlar veri hacmi ve veri miktarıdır. Çünkü veri miktarı arttıkça ve veri kaynakları

çeşitlendikçe verini güvenilirliği ve kalitesi azalmaktadır. Günümüzde çeşitli Büyük Veri

analitikleri bu tür durumlarla da baş edebilmek için sürekli gelişim halindedirler (Marr, 2014).

2.6.5. Veri Değeri

Büyük verinin sahip olduğu özelliklerden en önemlisi değerdir. Ruffatti (2013) 5V

olarak nitelendirilen bu özelliklerin en anlamlısı olarak değer olduğunu ve değeri “veriden

anlam çıkarma” olarak ifade etmektedir. Elde edilen verinin içerisinde taşıdığı anlamı ifade

eden veri değeri; Büyük Veri’yi anlamlandırmaya olanak sağlamakta ve böylelikle Büyük

Veri’yi kullanmak için mantığa göndermede bulunmaktadır. Veri değeri özelliği veriden

soyut anlamın daha efektif olarak çekilmesini sağlayarak verim ve fayda kazanılmasını

sağlamaktadır (Ruffatti, 2013). Büyük Veri’nin diğer tüm boyutlarının amacının aslında

Büyük Veri’nin sahip olduğu değeri ortaya çıkarmak için hizmet ettiğini vurgulayan (Swoyer,

2012, s. 2) kurumların Büyük Veri’den fayda elde etmelerinde ve veriyi karar alma

süreçlerine uygulayabilmeleri için veri değerini ortaya koymak zorunda olduklarını ve Büyük

Veri özelliklerinden veri hacmi, veri hızı ve veri çeşitliliğinin tek başına veride yatan değeri

ortaya çıkarmada yetersiz olduklarını bir anlam ifade etmedikleri belirtmektedir.

Diğer yandan, günümüz iş dünyasında kurumlar Büyük Veri’nin sahip olduğu

değerin yardımıyla bir yol haritası elde etmektedirler. Dolayısıyla yatırımlarında en az

32

maliyetle en yüksek karlılığı sağlarlar. İş durumlarının belirlenmesinde, projelerin

belirlenmesinde, uygulanmasında ve devam eden yatırımların sürdürülebilirliğinde değer

kavramı önemlidir. Yatırım getirisi veya yatırımın geri dönüşü olarak ifade edilen “Return of

Investment (ROI)” Büyük Veri’nin sahip olduğu değerle paralellik göstermesi durumunda iş

dünyasındaki kurumlar geleceğe yönelik yatırım yapmaya devam eder (Saporito, 2014).

Bununla birlikte, bilinmesi gereken bir diğer husus değerin yalnızca Büyük Veri’nin

ifade ettiği ölçülerdeki büyüklükler için anlam taşımadığıdır. Vorhies’in ifadesiyle hem büyük

hem de küçük olarak nitelendirilebilecek büyüklükteki verinin analizinde değer özelliği

bulunmak zorundadır. Eskiden müşterileri gruplar halinde kaydederek, eldeki kayıtlar

üzerinden verinin sahip olduğu değeri bulmaya çalışan kurumlar, Büyük Veri ile birlikte

kurumlar müşterilerine dair verileri bireysel olarak kaydetmektedirler. Böylece her bir müşteri

için kişeye özel teklifler sunarak, rekabetçi ortamda Büyük Veri’den elde ettikleri değerle

fayda sağlamaktadırlar (Vorhies, 2013).

2.7. BÜYÜK VERİ’NİN DİĞER ÖZELLİKLERİ

Büyük Veri’nin veri çeşitliliği, veri hacmi, veri hızı, doğruluğu ve değeri olmak üzere beş

temel boyutunun yanında Büyük Veri’nin kapsamlılığı, esnekliği, ilişkiselliği, dizinselliği ve

çözünürlüğü gibi farklı özelliklerine de literatürde yer verilmiştir.

2.7.1. Büyük Veri’nin Kapsamlılığı

Büyük Veri, daha küçük miktarda veri setlerini kabul etmek zorunda kalmak yerine,

bir konu hakkındaki çok fazla miktarda hatta tüm veriyle analiz etmeye çalışma becerisidir.

Uzun yıllar araştırmacılar az miktarda veri ile çalışmışlardır. Bunun nedeni; veriyi toplama,

düzenleme, depolama ve analiz etme araçlarının yeterli olmamasıdır. Bu yüzden az miktarda

veri ile çalışılarak örneklemeler ve geneli ifade eden çıkarımlar yapılmıştır ki bu da aslında

bir anlamda istatistiğin amacıdır. Bu yöntem toplam popülasyon çok büyük olduğunda, bütün

verilerin tek tek alınmasının vakit ve mekân açısından imkânsızlığı nedeniyle

kullanılmaktadır. Büyük Veri, büyük miktarlarda verinin kontrol edilerek analiz edilebilmesi

sayesinde örneklemeye ve çıkarıma ihtiyaç kalmamasını sağlayabilmektedir. Büyük Veri

projeleri bütün popülasyonunu yakalamaya çalışmaktadır. N=hepsi ya da tüm veri setinin

mümkün olan en büyük bölümünü kullanılır. (Mayer-Schönberger & Cukier, 2013, s. 27-34).

33

Büyük Veri’nin kapsamlılığı konusunda en önemli örneklerden biri Google Grip

Trendleri’dir.

Google Grip Trendleri, dünya çapındaki grip etkinliklerini hemen

hemen gerçek-zamanlı olarak tahmin etmek için toplu Google arama

verilerinden yararlanmaktadır. Griple ilgili arama yapan kişi sayısı ile

gerçekten grip semptomları taşıyan kişi sayısı arasında yakın bir ilişki olduğu

tespit edilmiştir. Elbette "grip" için arama yapan herkes hasta değildir, ancak

griple ilgili tüm arama sorguları birbirine eklendiğinde bir model ortaya

çıkar. Sorgu sayımları geleneksel grip izleme sistemleriyle

karşılaştırıldığında birçok arama sorgusunun grip mevsiminin başlamasıyla

birlikte kesin bir şekilde artma eğiliminde olduğu görülmüştür. Bu arama

sorgularının ne sıklıkta görüldüğü sayılarak gribin dünya çapındaki farklı

ülkelerde ve bölgelerde ne kadar dolaştığı tahmin edilebilir (Google Grip

Trendleri, 2011).

Büyük Veri’yle ilgilen Google, Windows ve Facebook gibi şirketlerin kullanıcılara

ait tüm bilgileri kaydettiği konusu tartışmalıdır. Yakın zamanda medyada yer alan haberlere

göre Facebook’tan kullanıcı bilgilerini isteyen Max Schrems’e Facebook tarafından 1222

sayfalık bir pdf dosyası gönderilmiştir. Bu dosyadan silinmiş mesajlar, aranılan isimler,

sohbet kayıtları, oynanan oyunlar, bakılan fotoğraflar, beğeniler kısacası Facebook’ta

yapılabilecek her şeyin kayıtlı olduğu görülmektedir. Günümüzde Facebook’un 1,3 milyar

kullanıcıyı aşan sayısı ile sahip olduğu Büyük Veri düşünüldüğünde, kişilerin özel hayatlarına

varana kadar kapsamlı bir boyutta olduğu anlaşılmaktadır (Hill, 2012).

Dumbill (2012) Büyük Veri’nin altında yatan temel prensibin "Yapabiliyorsan her

şeyi kaydet" olduğunu ifade etmektedir. Ne kadar çok veriye ulaşılırsa, o kadar iyi karar

verilip, verinin sahip olduğu değere daha iyi ulaşılabilir. Diğer yandan Büyük Veri’nin

kapsamlılığının doğruluğu, nesnelliği ve verilerin nasıl toplandığına dair etik sorunlar da

vardır (Boyd & Crawford, 2012). Bu etik sorunlara Büyük Veri’nin etkisi ve zorluklarında

değinilmiştir.

34

2.7.2. Büyük Veri’nin Dizinsellik ve Çözünürlük Özelliği

Veri kapsamlılığına ek olarak, dizinsellik (özgün etiketlendirme ve kimliklendirme)

ile Büyük Veri giderek çok daha detaycı bir çözünürlülüğe sahip olmaktadır (Dodge &

Kitchin, 2003). Geliştirilmiş çözünürlülüğe örnek olarak uzaktan ölçümlü resimler verilebilir.

1980’nin sonlarında, kamu harici araştırmacıların sahip olduğu yeryüzüne ait en yüksek

çözünürlüklü resimler Landsat uydularından elde ediliyordu ve her bir piksel 30x30 metre

toprak parseline tekâmül ediyordu. Şimdi ise Google Earth üzerindeki resimlerin birçoğu

“2,5m x 2,5m” çözünürlüğe sahiptir (NASA Technology, 2015). Bu oran çok daha detaylı

görüntü elde etmeyi ve daha iyi analiz yapılmasını sağlamaktadır. Veri çözünürlüğünün

artması; insanların, eşyaların, bölgelerin vb. kimliklendirilmesi ile doğada daha çok

dizinselliği de yanında getirmektedir. Örneğin Radyo Frekansı ile Tanımlama (RFID)

sistemiyle etiketlenmiş bir ürün özel olarak kimliklendirilir. Her ürün belirli bir mesafeden

radyo dalgalarıyla okunabilecek özel bir ID koduna sahiptir. Böylelikle her bir ürün

üreticiden, tedarik zincirindeki her bir noktadan, müşterisinin alış veriş çantasına girene kadar

gerçekleşen süreçte detaylı bir şekilde takip edilebilmektedir (Galli, 2012). Başka bir deyişle,

her bir bireysel ürünün anlık olarak zaman ve mekân çerçevesinde hangi süreçlerden geçtiği,

neler olduğu ve nasıl bir yol izlediği kesin ve doğru bir şekilde dizinsellik sayesinde

görülebilmektedir. Bunlar da şirketler için karar alma ve yatırım yapma süreçlerinde önemli

bir rol oynamaktadır.

2.7.3. Büyük Veri’nin İlişkiselliği

İlişkisellik boyut olarak, farklı veri setlerinin nasıl birleştirildiğini ve bu birleşimlerin

yeni soruları cevaplandırmada nasıl kullanıldığını kapsamaktadır. İlişkisellik, geleneksel veri

tabanlarının temel mantığını oluşturmaktadır, çünkü birbirleriyle ilişkili verileri tekrar tekrar

karşımıza çıkarmak yerine veritabanı sadece birini depolamaktadır. İlişkisellik sayesinde

nüfus sayımları ile bir ülkenin nüfusu ve bu nüfusun zaman ve mekân içerisinde nasıl

değiştiğini anlayabiliriz. Küçük veri çalışmaları ilişkisellikleri bakımından çeşitlilik gösterir;

yapısal veri içerenler yapısal olmayanlara göre daha fazla veri ilişkilendirmelerine sahiptir

(Kitchin, 2014, s. 75).

35

Büyük Veri her ne kadar ilişkisel veritabanlarını kullanmasa da, büyük verinin

doğasında ilişkisellik vardır. Büyük Veri temel olarak şebekelendirilmiştir. Büyük Veri’nin

değeri bireyler hakkında, bireylerin başkalarıyla arasındaki ilişkileri hakkında, bir grup insan

hakkındaki veri parçalarının birleştirilerek oluşan örüntüden, düzenden gelmektedir. İlişkisel

veritabanlarından farklı olarak, numerik olmayan verilerde -yapısal olsun veya olmasın- ve iki

şeyin kesişimlerinden bir değer çıkarmada Büyük Veri etkilidir (Boyd & Crawford, 2011, s.

2).

Obama’nın seçim kampanyası ilişkisellik açısından güzel bir örnektir. Obama’nın

ekibi, nüfus sayımlarındaki verilerden kablolu TV kullanıcılarına, kredibilite notlarından

anketlere kadar birçok veriyi birleştirmişlerdir. Neticede ortaya devasa büyüklükteki veri

tabanları çıkmıştır. Bunlar, her bir seçmenin ve potansiyel seçmenlerin demografik

dağılımından oy geçmişlerine, Obama’nın kampanyasına karşı verdikleri tepkilerden

tüketimsel ve davranışsal alışkanlıklarına, sosyo-ekonomik geçmişlerinden verdikleri fikir ve

tepkilerine kadar birçok farklı değişken içermektedir. Sürekli olarak gün içerisinde getirilen

yeni verilerle veri tabanları güncellenmiştir. Obama’nın veri analistleri bir seçmenin siyasi

görüşünü bilmeme durumuna karşı kişilerin oy verecekleri siyasi partiyi anlamak için,

seçmenlerin seçim kararlarını etkileyen değişkenler arasında ilişkiselliği üzerinde

durmuşlardır. Sonuç olarak, seçmenlerin profilleriyle tahmini oy oranlarını, yeni uygulanacak

politikalara karşı verilecek tepkileri ve çok çeşitli değişkenleri ölçmek için birbiriyle

ilişkilendirilmiş milyarlarca veriyle analizler yaparak seçim stratejileri üretmişlerdir.

(Issenberg, 2012).

İlişkisellik matematikte bağıntı olarak ifade edilmektedir. İlişkiselliğe bir örnek

verecek olursak, A ve B herhangi iki küme olmak üzere; A ve B’nin eleman sayıları s(A) = m

ve s(B) = n olarak verilmiştir.

A dan B’ ye 2mn

tane bağıntı (relation) tanımlanabilir.

A kümesi 3 elemanlı, B kümesi 2 elemanlı ise, A’dan B’ye oluşacak bağıntı sayısı;

23x2

= 26=64 tanedir. A kümesinin eleman sayısı 1 artırıldığında ise durum değişecektir.

Yeni durumda 24x2

= 28=256 tane bağıntı oluşacaktır. Eleman sayısı 1 artarken artış miktarı

üstel olmuştur. Bu durum eleman sayısı 2, 3 olan basit kümelerde bile bu denli artış

36

gösterirken, veri hacmi çok büyük olan veri setlerinde oluşan Büyük Veri’de ise çok çok daha

fazla bağıntı sayısı ortaya çıkacaktır.

2.7.4. Büyük Veri’nin Esneklik Özelliği

Küçük veri projelerinde saha çalışmalarına ve analizlere başlandığında örneklemde,

araştırma yönteminde ve veri yönetiminde değişiklik yapmak zordur çünkü seçimler

yapılmıştır ve çok esnek olmayabilir. Ayni şekilde ilişkisel veri tabanlarında veri belirli bir

formda olmak zorundadır ve ölçek limitlidir. Buna karşılık Büyük Veri sistemleri

genişlenebilirlik (yeni alanlar kolayca eklenebilir) ve ölçeklenebilirlik (hızlıca büyüyebilir)

özelliklerini koruyacak şekilde, doğası gereği esnek olarak dizayn edilmektedir (Marz &

Warren, 2012). NoSQL veritabanları değişebilir, çok yüksek hızdaki verinin yönetilmesini ve

yeni alanlara uygulanmasını sağlar. Bunun anlamı, veri üretiminin bir döngüye uyarlanmasına

ve uyarlanabilirlik testinin uygulanmasına imkân sağlıyor olmasıdır. Örneğin Facebook

zaman zaman arayüz tasarımında değişiklikler yaparak, kullanıcıların bu değişikliklere

verdiği tepkileri izleyip analiz ederek, kullanıcıların tepkilerine göre değişiklikleri

geliştirmekte ve bu değişimleri genişletmektedir (Kitchin, 2014, s. 78).

Mauro ve diğerleri (2014) yapmış oldukları çalışmada Büyük Veri’ye ait kelime

bulutu oluşturmuş ve Büyük Veri ile birlikte kullanılan kavramlardan öne çıkanlarını şöyle

sıralamışlardır; “hacim”, “hız”, “çeşitlilik”, “karmaşıklık”, “değişkenlik”, “depolama”,

“enformasyon”, “işlem”, “veritabanı”, “karar”, “değer”.

2.8. BÜYÜK VERİ’NİN İLİŞKİSİ OLDUĞU TEMALAR

Büyük Veri disiplinler arası bir kavram ve olgu olması sebebiyle de litaratürde tek

bir tanımla ve tek bir tema altında değerlendirilmemektedir. Ancak hem akademik anlamda

hem de iş dünyasında ortak temalarla ilişkilidir. Bu bölümde Büyük Veri ile ilişkisi bulunan

enformasyon, teknoloji, yöntem ve etki olmak üzere 4 ana temanın Büyük Veri ile ilişkisine

değinilecektir. Bu temalar Şekil 4’te gösterilmiştir.

37

Şekil 4: Büyük Veri Temaları

Kaynak: Mauro, A. D., Greco, M., & Grimaldi, M. (2014). What is Big Data? A Consensual

Definition and a Review of Key Research Topics. 4th International Conference on Integrated

Conference (s. 97-104). New York: AIP Conference Proceedings.

Büyük Veri ve Enformasyon İlişkisi

Büyük Veri’yi oluşturan, onun yakıtı niteliğinde olan ve onu tüm disiplinlerle

ilişkilendiren ortak temaların ilki enformasyondur. Enformasyonun dijitalleşmesi ve

verileştirilmesi, Büyük Veri’yle olan ilişkide temel niteliğindedir. Enformasyonun

dijitalleşmesi (sayısallaşması), enformasyonun iletilmesi, işlenmesi ve depolanması teknoloji

üzerinde çok büyük bir etkiye sahiptir. “Dijitalleşme, kâğıt belge, fotoğraf ya da grafik

malzemeler gibi fiziksel ya da analog materyallerin elektronik ortama ya da elektronik

ortamda depolanan görüntülere dönüştürülmesi ya da genel olarak, elektronik sistemlerce

algılanamayan yapılandırılmamış formdaki bilginin elektronik ortamca algılanabilecek

yapılandırılmış forma çevrilmesidir.” (Coyle, 2006). Bu anlamda en büyük projelerden biri

2004’te başlayan Google tarafından yapılmış olan kitap tarama projesi “Google Print Library

Project”tir. Bu projeyle birçok üniversitenin kütüphanesindeki eserler dijitalleştirilmiştir.

Dijitalleşmeden sonraki basamak ise verileştirilmesidir. Verileştirme “bir olayı

38

çizelgelenebileceği ve analiz edilebileceği şekilde nicel bir formata sokmaktır.”

Verileştirmenin temel unsurları ölçmek ve kaydetmektir. Verileştirme, dijitalleşmeden daha

eskiye dayanmakla birlikte dijitalleştirilmiş verilerin analiz edilmesine ve değerinin çıkmasına

imkân sağlamıştır. Dijitalleşme ile verileştirme kavramları karıştırılmaktadır. Bunu bir

örnekle açıklamak gerekirse, Google kütüphanelerdeki metinleri dijitalleştirdi, ama kişinin

istediği, aradığı bilginin hangi kitapta olacağını bulması ve arama yapabilmesi gerekmekteydi.

Buna da verileştirme imkan sağladı ve metni aranabilir ve endekslenebilir yaptı. Sosyal ağlar

da verileştirmede büyük bir rol oynamışlardır. Örneğin Facebook ilişkileri, Twitter duyguları,

LinkedIn mesleki becerilerimizi verileştirmiştir (Mayer-Schönberger & Cukier, 2013, s. 85-

91). Dijitalleşme ve verileştirmede en önemli etken dijital sensörlerin sayısıdır. Gartner

(2014)’e göre, 2020 yılında yeryüzünde 26 milyar aygıt ve kişilerin her birinin 3’ten fazla

aygıta sahip olacağı tahmin edilmektedir. Bu aygıtların ve sensörlerin çokluğu, internete bağlı

olması, sürekli veri üretir olmaları da Nesnelerin İnterneti “Internet of Things” kavramını

ortaya çıkarmıştır (Evans, 2011). Günümüzde üretilen enformasyonun diğer bir özelliği ise

çok çeşitli olmasıdır. Yapılandırılmış, yapılandırılmamış veya yarı-yapılandırılmış gibi

çeşitlilik göstermesi, bu enformasyonun yönetiminde de zorluğa sebep olmaktadır.

Büyük Veri ve Teknoloji İlişkisi

“İlk zamanlarda ağır yükleri öküzlerle çekerlerdi ve daha büyük bir kütük çekmek

istediklerinde, daha büyük bir öküz yetiştirmezlerdi. Daha büyük bilgisayarlar için değil,

daha fazla bilgisayar sistemi için gayret etmeliyiz.” Grace Hopper (Mauro ve diğerleri, 2014).

Teknolojinin gelişimiyle birlikte ortaya çıkan Büyük Veri’nin sahip olduğu

büyüklük, hız, karmaşıklık gibi özelliklerle depolanıp analiz edilebilmesi için teknolojiye

ihtiyaç duyulmaktadır. Büyük Veri’yle ilgili önde gelen teknolojik kavram “Hadoop”tur.

Hadoop, Java dilinde yazılmış açık kodlu bir veri platformudur. Hadoop Dağıtık Dosya

Sistemi “HDFS” ve Eşleİndirge “MapReduce” olmak üzere iki bileşene sahiptir. Bu

kavramları da ilk kez ortaya atan Google olmuştur ve Apache çerçevesinde geliştirilmiştir

(Ghemawat ve diğerleri, 2003). Dosya sistemi çok sayıda bilgisayarlardan oluşan büyük veri

kümelerini içermekte, Eşleİndirge “MapReduce” ise bu büyük miktarda veriyi alt kümelere

bölerek ve onları düğümlere dağıtarak, daha kolay analiz edilebilecek kümelere

dönüştürmektedir (Doug, 2011). MapReduce gibi aynı anda birden fazla işlemciye ayrıştırma

39

aslında paralel işleme tekniğiyle gelişmiştir. Büyük Veri analizinde MapReduce, Dryad ve

Message Passing Interface (MPI) en çok uygulanan paralel işleme modelleridir. Bu teknikler

daha detaylı olarak Büyük Veri analizi başlığında incelenmiştir.

Diğer teknolojik unsur ise devasa büyüklükteki verinin depolanabilmesi için gerekli

olan depolama aygıtlarıdır. Veri miktarındaki artışın üstel olduğunu vurgulayan ve bu artıştaki

veriyi depolamak için teknolojik gelişmelerinde süreklilik arz etmesi gerektiğini ifade eden

Hilbert ve Lopez (2011) özellikle fotoğraf, ses ve videoların hacmi genişlettiğini

söylemektedir. Bulut Bilişim (Cloud Computing) Büyük Veri bağlamında ortaya çıkan önemli

bir teknolojik gelişimdir. Bulut Bilişim’le sunucu sayısının çoklu olması ve birçok

kullanıcıların aynı anda işlem yapabilmesi veri miktarını artırmaktadır. Elde edilen verinin

depolanması aynı zamanda Büyük Veri’nin zorluklarındandır, çünkü geleneksel depolama

aygıtları Büyük Veri’nin sahip olduğu değişken için tasarlanmamışlardır. Onlar satır ve

sütunlardan oluşan yapısal veriler için tasarlanmıştır. Depolanan veri miktarı arttıkça sunucu

ihtiyacı artmakta ve doğrusal olarak maliyeti de artmaktadır. Bulut Bilişimde server sayısı çok

sayıda olmasına rağmen süreç tek mimari sistem üzerinden çalışmakta ve bu durum da

güvenlik açıklarına sebep olmaktadır. Bunun yanında depolama miktarına bağlı olarak

sistemin performansı da etkilenmektedir. Performansa bağlı olarak da anlık veri analizlerinin

sonuçlarının görselleştirilmesi ve karar verme süreçleri de etkilenmektedir.

Büyük Veri ve Yöntem İlişkisi

Çok büyük nicelik ve çeşitlilikteki Büyük Veri’nin sahip olduğu değeri çıkarmak,

veriden yeni değerler üretebilmek günümüzde zorunlu hale gelmiştir. Bunun için geleneksel

istatistik yöntemlerinin yanında çok yüksek veri hacmine sahip olan ve çeşitlilik gösteren

Büyük Veri’yi analiz edebilmek için yeni yöntemlere ihtiyaç duyulmaktadır. Bu yöntemler

günümüzde veri madenciliği bünyesinde ifade edilmektedir. Manyika vd. (2011) Büyük Veri

analizinde aşağıda yer alan farklı yöntemler önermişleridir. Bu yöntemlerden bir kısmı

sonraki bölümde incelenecektir.

A\B Testi “A/B testing”

İlişkilendirme Kuralları “Association rule learning”

Sınıflandırma “Classification”

40

Kümeleme “Cluster analysis”

Makine Öğrenmesi “Machine learning”

Veri Füzyonu ve Entegrasyonu

Ağ Analizi “Network analysis”

Örüntü Tanıma “Pattern recognition”

Yapay Zekâ Algoritmaları

Denetimli ve Denetimsiz öğrenme “Supervised and Unsupervised learning”

Regresyon “Regression”

Öngörüsel Modelleme “Predictive modelling”

İstatistik “Statistics”

Fikir Madenciliği “Sentiment Analysis”

Görselleştirme “Visualization”

Kurumların karar verme süreçlerinde bilimsel araştırmaları ve Büyük Veri Analitik

Yöntemlerini kullanmalarının günümüzde ihtiyaç haline geldiğini ifade eden Chen ve

diğerleri (2012), kurumların iş zekâsına ve analizlerine yatırım yapmaları gerektiğini ve

özellikle disiplinler arası çalışabilen, bilgi teknolojilerinde becerikli, iletişim becerileri yüksek

bireyler yetiştirmeleri gerektiğini tavsiye etmişlerdir. Veri bilimcisi denilen yeni meslek

grubu da istatistik, matematik, bilgisayar programlama ve iletişim alanlarında donanımlı ve

Büyük Veri’yi inceleyip, çeşitli yöntemlerle gelecekle ilgili çıkarımlar yapabilen, verideki

değeri ortaya çıkarabilen kişileri kapsamaktadır (Mayer-Schönberger & Cukier, 2013, s.

132). Veri bilimcileri Büyük Veri’yle ilişkili yöntemleri bilen ve Büyük Veri’nin gücünü ve

sınırlılıklarının farkında olarak hem kurumlar hem de toplumun karar verme süreçlerinde

veriye dayalı olarak karar vermelerini yaygınlaştıracak, hem de çıkarımlarında geçerlilik ve

doğruluk faktörlerini dikkate alacaklardır.

Büyük Veri’nin Yaşama Etkisi

Büyük Veri hakkında olumlu ve başarılı yöntemler, uygulamalar ve gelişme

hikâyeleri kurumların ve toplumun hem algısını hem de yapısını değiştirmektedir.

Günümüzde her alana yayılmış olan verinin üretimi ve ulaşılabilirliği birbirinden farklı

sektörlerde ve bilimsel alanlarda ortak olarak kullanılabilmektedir. Bazen de aynı yöntem ve

41

veri farklı alanlarda farklı problemleri çözmek için kullanılmaktadır. Örneğin Google arama

günlüklerinden faydalanılarak korelasyon analiziyle grip salgınının yanı sıra, Ginsberg ve

diğerleri (2009) işsizlik oranlarını, Askitas & Zimmermann (2009) ve Guzman (2011)

enflasyonu tahmin etmekte Büyük Veri’den faydalanmışlardır. Laney (2011, s. 22)’e göre,

Büyük Veri işletmelere 3 farklı yolla etki etmektedir. Bunlar; daha bilgili ve daha iyi kararlar

verme, gizli içgörüleri keşfetme ve iş süreçlerini otomatikleştirme olarak sıralanabilir.

Büyük Veri’nin yaşamımızdaki olumlu etkilerinin yanında olumsuz veya riskli

etkileri de mevcuttur. Bunların en başında mahremiyet ve etik (Boyd & Crawford, 2012),

eğilimlerin cezalandırılması ve verinin diktatörlüğü gibi sorunlar gelmektedir. (Manovich,

2011). Kişilerin özel hayatlarıyla alakalı fotoğraflardan alışveriş kayıtlarına, kredi kartı

numaralarından ev adreslerine, sağlık bilgilerinden mesaj ve e-postalarına kadar birçok kişisel

bilgi Büyük Veri kapsamındadır. Bunlar ve bunlar gibi internet ortamında bırakılan dijital

izler sebebiyle kişilere ulaşılabilir ve mahremiyet ve etik konusunda sıkıntılar yaşanabilir.

Kişisel bilgilerin veri setlerinden çıkarılarak “anonimleştirme” tekniği mahremiyeti korumada

kullanılmaktadır. Ancak anonimleştirme küçük veri setlerinde uygulanabilir olsa da Büyük

Veri’de uygulanması zordur (Narayanan & Shmatikov, 2006). Ayrıca Büyük Veri sayesinde

kişilerin eğilimleri sonucunda bir suç işlemesi sebebiyle “suç işleme olasılığı yüksek” diye

cezalandırma gibi uygulamalara da gidilebilir (Mayer-Schönberger & Cukier, 2013). Bu

durumu anlatan en güzel örneklerden biri, 2006 yapımı olan “Azınlık Raporu” adlı filmdir.

Bu filmde Büyük Veri’yle suç işlemeye yönelik eğilimler ve toplumda huzursuzluk

çıkarabilecek durumlar çıkarımsal olarak hesaplanıp müdahale edilmektedir. Günümüzde

Brian Lapping tarafından geliştirilen Pax sistemi, dünyanın farklı bölgelerinden yapılan

telefon aramaları, sosyal medya gönderileri yardımıyla çıkabilecek yasadışı olay, eylem,

katliam gibi olumsuz durumları kestirerek duruma dair bilgileri hükümetlere satmaktadır

(Krotoski, 2012). Bunun yanında, kullanıcıların bilgilerine en fazla sahip olan sosyal ağ

siteleri ve işletim sistemi sahipleri bu sosyal verilerle güçlenebilmekte ve bu da hem kurumlar

hem de kişiler üzerinde risk yaratabilmektedir. Bu durumu Manovich “verinin diktatörlüğü”

olarak ifade etmekte ve insanlar hakkında daha çok veriye sahip olanların hem daha güçlü

olduğunu, hem de onları daha hızlı etkileyebileceğini belirtmektedir. (Manovich, 2011).

42

Günümüzde akademik çalışmalarda kullanılmak üzere ihtiyaç duyulan Büyük

Veri’ye erişim hem teknik anlamda hem de Google ve Facebook gibi veri zenginlerinin

verilerini paylaşmaması nedeniyle kısıtlılıklara neden olmaktadır. 2014 yılı Şubat ayında

geliştirdiği Twitter Data Grants adlı projeyle Twitter sahip olduğu tüm veriyi akademi ve

araştırma merkezleriyle paylaşabileceklerini duyurmuşlardır. Günlük 500 milyondan fazla

tweet atıldığını ve eldeki Büyük Veri yardımıyla akademi ve araştırma merkezleri için sağlık,

ekonomi, spor gibi çeşitli konularda verinin analiz edilip, öngörüler oluşturulabileceği ve bu

sayede akademiye veri sağlanabileceği üzerinde durulmuştur. Twitter’ın bu pilot projesine 60

ülkeden 1300’den fazla proje başvurusu yapılmıştır. Aslında bu sayılar dünya genelinde

akademinin Büyük Veri’ye erişiminin ne kadar zor olduğunu da göstermektedir. Ancak

sadece 6 kurum Twitter’ın sahip olduğu Büyük Veri’den faydalanmaktadır. Bu projeler ve

sahibi olan ülkeler Twitter tarafından aşağıdaki gibi duyurulmuştur (Raffi, 2014);

Twitter Verilerini kullanarak Gıda Kaynaklı Hastalıkları Gözetleme- Harvard

Medical School / Boston Children’s Hospital (ABD)

Afet Bilgi Analizi Sistemi - NICT (Japonya)

Twitter'da Kanser Erken Teşhis Kampanyaları Difüzyonu ve Etkililiği- Twente

Üniversitesi (Hollanda)

Mutlu insanlar mı mutlu görseller yakalar? Kentlerin Mutluluğunu Ölçme-

UCSD (ABD)

Coğrafi Sosyal (GeoSocial) Kullanarak Endonezya’daki Selleri Modellemek-

Wollongong Üniversitesi (Avusturalya)

Tweetler ve Spor Takımları Performansı Arasındaki İlişkiyi Keşfetmek-Doğu

Londra Üniversitesi (İngiltere)

Bu projelerin konularına bakıldığında insan yaşamına dair birçok alanda Büyük

Veri’nin etkin kullanılabileceğini görmekteyiz. Spordan sağlığa, afetten duygularımızın

analizine kadar birçok alanda Büyük Veri kullanılabilmektedir. Bu gibi internet

araştırmalarının temelinde de Büyük Veri’ye erişmek ve onu analiz edebilmek yatmaktadır.

Büyük Veri’ye erişimde ve Büyük Veri’nin doğasından kaynaklanan çeşitli zorluklar ve

sınırlılıklar sonraki başlıkta ele alınmaktadır.

43

2.9. BÜYÜK VERİ’NİN SINIRLILIKLARI VE ZORLUKLARI

Büyük Veri’nin sahip olduğu değeri, bilgiyi ve veride yatan deseni ortaya çıkarma

sürecinde ve Büyük Veri’nin kendi doğasından kaynaklanan bazı zorlukları ve sınırlılıkları

vardır. Bunlar genel çerçevede incelendiğinde, ilki veri politikaları kapsamında

değerlendirilebilir. Veri miktarı arttıkça veri politikaları da artmaya başlamıştır. Çünkü veri

politikaları mahremiyet, güvenlik, telif hakkı gibi birçok unsuru ve bunlarla alakalı kanun,

yasa ve maddeleri bünyesinde barındırmaktadır. Sağlık bilgileri, finans kayıtları gibi bilgiler

kişiseldir ve bazen bu bilgiler kişiler için çok faydalı olarak kullanılabilecek pozisyonda

olmalarına rağmen, bazen olumsuz durumlar da yaşanabilmektedir. Bu verilerin paylaşımı -

kimisi yaşanmış ve yaşanabilecek olumsuz durumlardan dolayı- kanunlarca uygun değildir.

Çünkü kişilerin güvenliği ve mahremiyeti hem de devletlerin güvenliği söz konusudur. Veri

politikaları bir taraftan artarken diğer yandan Büyük Veri’den sağlanabilecek fayda ve

çıkarılacak değer ise yasalarca sınırlandırılmaktadır. Veri güvenliği, verinin ürün olduğu ve

rekabet ortamında onu öne geçirecek faktör olmasından dolayı hem özel sektör hem de kamu

sektörü için önemli bir konudur. Amerika Birleşik Devletleri’nde 2005-2009 yılları arasında

veri güvenliği ihlalleriyle ilgili olarak yıllık ortalamada %30 oranında artış gözlenmiştir

(Widup, 2010 ).

Büyük Veri’yi sınırlayan ve sahip olduğu değerin ortaya çıkarılmasına engel olan

diğer bir unsur ise teknoloji ve tekniklerdir. Veriyi elde etmekten temizlemeye, işlemeye

kadar her aşamada tekniklere ihtiyaç duyulmaktadır. Veri çeşitliliği, hacmi, hızı giderek

artmakta ve verinin elde edilmesi depolanması, işlenmesi ve analiz edilmesi için yeni yöntem

ve yazılımlara ihtiyaç duyulmaktadır. Farklı yapılardaki verilerin entegrasyonu daha zor olsa

da bu verilerin kullanılması fayda sağlamaktadır.

Büyük Veri’nin sınırlılık ve zorluklarından biri de veriye erişimdir. Veriye erişim ne

kadar kolay ve geniş ölçekli ise, Büyük Veri’den elde edilecek değere erişim de o denli kolay

olur. Kurumlar giderek üçüncü parti veri kaynaklarından daha çok faydalanmaktadırlar ve bu

verileri kendi verileriyle birleştirerek Büyük Veri’nin sahip olduğu potansiyeli çıkarmayı

hedeflemektedirler. Büyük Veri’ye sahip kurumlar veri paylaşımlarında cimri davranmakta ya

da veri karşılığı ciddi miktarlarda ücret talep etmektedir. Kullanıcıların şirketler

veritabanlarından depolanmış verileri alabilmeleri için geliştirilen Programlama Uygulama

44

Arayüzü (API) araçları bulunmaktadır. Sosyal medya şirketlerinin kullanıcılara sunduğu açık

API’ler bu şirketlerin tüm verilerini vermemektedir (Gürsakal, 2014, s. 16-17). Örneğin sağlık

sektöründe yer alan kurumlar ciddi yatırımlar yapmak istese de, kişilerin sağlık bilgileri sağlık

bakanlıklarınca dışarıya verilmemektedir.

Veriye erişim Büyük Veri’nin zorluklarından biri olsa da günümüz bilgi çağıdır ve

kurumlar için kendi müşterilerinin verilerine erişimi zor değildir. Burada önemli olan

kurumların sahip olduğu ya da internet ortamından elde ettiği verilerden yararlanabilme ve bu

verileri kullanabilme yeteneğidir. Bu anlamda kurumların veriye bakış açıları ve kurumların

Büyük Veri’yi işleme yetenekleri onlar için zorluk yaratabilmektedir. (Manyika ve diğerleri,

2011). Büyük Veri pazarı başlıca finans, telekomünikasyon, üretim, sağlık, bankacılık,

pazarlama, kamu, medya ve eğlence sektörleri tarafından beslenmektedir. Finans, sağlık ve

kamu sektörleri pazarın en büyük katılımcılarıdır ve 2012’de pazarın %55’inden fazlasını

oluşturmaktadırlar. Yapısal olmayan video, fotoğraf ve oyun gibi veri kaynakları da medya ve

eğlence sektörlerinin payını giderek artırmaktadır (Transparency Market Research, 2012).

Başarı eskiden veriyi bulmaktı, Büyük Veri çağında ise, devasa miktardaki yapılandırılmamış

veriyi analiz ederek en mantıklı kararlar alabilme yeteneğine sahip olmak başarı olmuştur

(VerisignInc, 2013). Bu analiz ve araştırmaların nasıl yapıldığı, hangi yöntem ve tekniklerin

kullanıldığı bu tez bağlamında ele alınmış, sosyal bilimlerde araştırma yöntemleriyle internet

araştırmaları bir sonraki bölümde karşılaştırılmıştır, daha sonra ise Büyük Veri analiz süreci

ve teknikleri irdelenmiş ve geleneksel sosyal bilimlerdeki araştırma yöntemleriyle Büyük Veri

analiz yöntemleri tartışılmıştır.

45

3. SOSYAL BİLİMLERDE GELENEKSEL SOSYAL BİLİMLER

ARAŞTIRMALARI İLE İNTERNET ARAŞTIRMALARININ

KARŞILAŞTIRILMASI

İnternetin yaşamın birçok alanını etkimeye başlamasıyla birlikte, sosyal bilimlerde

araştırma mecrası olarak kullanılmaya başlanmıştır. İnternetin sürekli gelişim halinde ve

dinamik olması, internet araştırmalarında uygulanacak yöntem ve tekniklerin de yeniliğe açık

bir yapıda olmasına neden olmuştur. Bu bölümde geleneksel sosyal bilimlerdeki araştırmalar

ile internet araştırmalarının karşılaştırılması hedeflenmektedir. Bu hedef doğrultusunda önce

araştırma ve araştırma süreci açıklanmış ve araştırmalarda kullanılan veri toplama araçları

hem geleneksel hem de internet bağlamında ele alınmıştır. Sosyal bilimlerde nicel ve nitel

araştırma yöntemleri incelenmiş ve internet ortamında bu yöntemlerin nasıl yapıldığı

aktarılmıştır. Sosyal bilimlerde yapılan araştırmalarda toplanan verilerin analizinde en yaygım

olan içerik analizi ve söylem analizi internet bağlamında incelenmiş ve özellikle internet

bağlamında yapılan araştırmalarda elde edilen verilerin Büyük Veri özelliklerini taşıdığı ve

analiz edilirken de kullanılan Nvivo gibi araçların Büyük Veri analiz araçları ile benzerlikleri

olduğu görülmüştür. Bu bölümde son olarak internet araştırmalarında Büyük Veri alt

başlığıyla araştırmalarda kullanılan istatistiksel analiz teknikleri ve Büyük Veri analiz yöntem

ve teknikleri açıklanarak Büyük Veri analiz yöntem ve teknikleriyle geleneksel araştırmalarda

ve internet araştırmalarında kullanılan yöntem ve teknikler arasındaki ilişki ortaya koyulmaya

çalışılmıştır.

3.1. SOSYAL BİLİMLERDE ARAŞTIRMANIN TEMELLERİ

Bir konu hakkında araştırma yaparken çeşitli yöntemler doğrultusunda istenilen

sonuca ulaşmak amaçlanır. Bilgiye ulaşmanın birçok yolu vardır ve her araştırılan konuya

uygun farklı metotlar bulunmaktadır. Fraenkel ve Wallen (2007, s. 4-5)’e göre, bilgiye

ulaşmanın yöntemleri deneyim, görüş birliği, uzman görüşü ve mantıktır. Bilgiyi çevredeki

insanlar ile görüş birliği yaparak elde etmek en çok kullanılan yöntemdir. Uzman görüşüne

başvurmak daha güvenilir görünse de, günlük hayatta birçok insan bilgiyi elde ederken

mantık ile hareket etmektedir. Bilgiye ulaşmak için izlenen yollar kişiyi yanıltabileceğinden

en güvenilir yöntem bilimsel araştırmadır.

46

Bilim, Türk Dil Kurumu tarafından “genel geçerlik ve kesinlik nitelikleri gösteren

yöntemli ve dizgesel bilgi” olarak tanımlanmıştır (TDK, 2006). Araştırma kavramının birçok

farklı tanımı bulunmaktadır. Mouly’e göre araştırma, problemlere güvenilir çözümler aramak

amacıyla planlı ve sistemli olarak, verilerin toplanması, analizi, yorumlanarak

değerlendirilmesi ve rapor edilmesi sürecidir (Karasar, 2011, s. 8). Webster (1984) ise

araştırmayı “Gerçek ve ilkeleri ortaya çıkarmak ya da koymak için bazı bilgi alanlarında

yapılan dikkatli, sistematik ve dayanıklı çalışma ve inceleme” olarak tanımlamaktadır

(Aktaran: Demirbaş, 2015, s. 9). Buna paralel olarak bilimsel araştırma, kesinlik ifade eden

araştırma yöntemi olarak anlaşılmaktadır. O nedenle bir konu hakkında araştırma yapılmak

isteniyor ise doğru sonuca ulaşabilmek adına bilimsel araştırma süreçleri kullanılmalıdır.

3.1.1. Araştırma Süreci Bağlamında Karşılaştırma

Bilimsel araştırmaların geçerlilik kazanabilmesi için belirli süreçlerden geçmesi

gerekmektedir. Bu süreçler; literatür taraması, problemi tanıma, soruları/hipotezi belirleme,

araştırma desenini oluşturma, örneklemi seçme, araçları belirleme, analiz yöntemini

belirleme, veri toplama/uygulama, verileri analiz etme, raporlaştırma olarak tanımlanmıştır

(Büyüköztürk ve diğerleri, 2014, s. 24). Bilimsel araştırmada kullanılan yöntem ne olursa

olsun, araştırmaların bu süreçler doğrultusunda ilerlemesi tavsiye edilmektedir. Her bir adım

çok kapsamlı olsa da bu tez çalışmasında bilimsel araştırma süreçleri özet olarak

anlatılacaktır. Hem internet araştırmalarında hem de geleneksel sosyal bilimler

araştırmalarında araştırma süreci benzer özelikler taşımaktadır. Bu süreçler aşağıda

verilmiştir.

Literatür Taraması: Araştırmaların başlangıç noktası literatür taramasıdır. Literatür

taraması, araştırılacak konu ile ilgili bilgi içeren tüm dokümanların sistematik bir düzende

betimlenmesi olarak ifade edilmektedir (Esgin, 2009, s. 1). Literatür taraması yapılırken amaç

doğru olarak belirlenmelidir. Aksi durumda konudan sapmalar olabilir ve ilişkisiz literatürler

taranarak vakit kaybına sebep olunabilir.

Problemi Tanımlama: Literatür taramasından sonra ikinci önemli adım problemin

belirlenmesidir. Çeşitli taramalar desteklenerek problem cümlesi oluşturulmalı, mantıksal

açıklamalar ve kaynakçalar ile birlikte sunulmalıdır.

47

Soruları / Hipotezleri Belirleme: Hipotez, bir araştırmacının ilgilendiği konu ile

ilgili gerçekliği ispatlanmamış bir önerme veya araştırmacının problemine ve değişkenine

ilişkin beklentileri ve tahminleri olarak tanımlanmaktadır (Yükselen, 2010). Tanımdan da

anlaşıldığı üzere hipotez bir tahmindir ve bu tahmin çeşitli literatür taramaları ile

desteklenerek problem doğrultusunda yapılmalıdır.

Araştırma Desenini Oluşturma: Araştırma ile ilgili hipotezler belirlendikten sonra,

araştırma sürecinde hangi yöntem ve metotların kullanılacağı belirlenmelidir.

Örneklemi Seçme: Örneklem, var olan bir evren üzerinden bir takım kurallar

doğrultusunda seçilmiş, yeterliliği kabul görmüş küçük bir küme olarak tanımlanmıştır

(Karasar, 2011, s. 110). Araştırmalar genellikle belirli örneklemler üzerinde yapılır ve bu

örneklemlerden alınan sonuçlar ile genelleme yapılır.

Araçları Belirleme: Örneklem grubu belirlendikten sonra bu grup üzerinde

yapılacak çeşitli testlerin ölçülmesi gerekmektedir. Bu doğrultuda Büyüköztürk ve diğerleri,

ölçme araçlarının her birinin detaylı bir şekilde tanımlanması ve neden kullanıldığına ilişkin

gerekçe belirtilmesi gerektiğini vurgulamıştır (Büyüköztürk ve diğerleri, 2014, s. 25).

Analiz Yöntemini Belirleme: Araçlar seçildikten sonra araştırma verilerinin hangi

yöntemler ile analiz edileceği belirlenmelidir.

Veri Toplama / Uygulama: Bir araştırmanın en önemli aşaması veri toplamadır.

Çeşitli veri toplama yöntemleri ile araştırma en iyi şekilde incelenmelidir. Güler’e göre, bir

araştırmanın var olabilmesi için ilk olarak elde edilmesi gereken şey o araştırmacının sahip

olduğu verilerdir (Güler, 2013, s. 102).

Verileri Analiz Etme: Veri toplama aşamasından sonra bu verileri en iyi şekilde

analiz etmek gerekmektedir. Büyüköztürk ve diğerleri (2014, s. 27), veri analizinde mümkün

olabilecek her türlü istatistiksel tekniğin kullanılması taraftarıdır.

Raporlaştırma: Veri analizinden elde edilen sonuçlar çeşitli yorumlar

doğrultusunda rapor haline getirilmelidir. Rapor içeriğinde araştırmanın tüm aşamaları

yorumlanmalıdır ve bu yorumlar sonuca ışık tutmalıdır.

48

3.1.2. Veri Toplama Araçları Bağlamında Karşılaştırma

Bilimsel bir araştırmanın önemli adımlarından biri olan veri toplama, araştırma

sonucunda doğru sonuca ulaşabilmek adına en tutarlı şekilde olmalıdır. Araştırmanın türüne

göre gözlem, anket, görüşme ve doküman tarama gibi çeşitli veri toplama araçları

bulunmaktadır. Fraenkel ve Wallen (2007) bu veri toplama araçlarını doğrudan, telefon, posta

ve internet yardımıyla uygulanabileceğini ve bu yöntemlere göre de farklı özelliklerde

olacağını belirtmiştir. Tablo 7’de veri toplama araçlarının farklı özellikleri gösterilmektedir.

Tablo 7: Veri Toplama Araçları ve Özellikleri

Nitelik Doğrudan

Uygulama

Telefon Posta Görüşme İnternet

Maliyet Az Orta Orta Yüksek Az

Uygulama Ortamı Gerekli mi? Evet Hayır Hayır Evet Hayır

Veri Toplayıcı Eğitimli Olmalı mı? Evet Evet Hayır Evet Hayır

Veri Toplama Süresi Kısa Kısa Uzun Uzun Orta

Yanıt oranı Yüksek İyi Zayıf Yüksek Orta

Aynı anda çok kişiye uygulanabilir mi? Evet Hayır Evet Hayır Evet

Seçkisiz örneklem almaya uygun mu? Evet Evet Evet Evet Evet

Yanıtlayanlar eğitimli olmalı mı? Evet Hayır Evet Hayır Evet

Yanıta göre ek soru sorulabilir mi? Hayır Evet Hayır Evet Hayır

Duyarlı konulara yanıt verilmesini

cesaretlendirilebilir mi?

Belki Belki Evet Zayıf Evet

Yanıtlar analiz için kolay kodlanabilir mi? Evet Kısmen Evet Hayır Evet

Kaynak: Fraenkel & Wallen (2007, s. 400)

Bu bölümde veri toplama araçlarının temel özelliklerine değinilecektir. Ayrıca veri

toplama araçlarının internet yoluyla uygulanmasıyla diğer yollarla uygulanması arasındaki

farklılıklar tartışılacaktır.

Gözlem

Gözlem, kişilerin günlük hayatında gözleyerek, gözlem sürecinde gerçekleşen

olaylar için fikir sahibi olma amacıyla yapılan bir araştırma tekniğidir (Güler, 2013, s. 102).

Gözlem araştırmacıya verileri doğal ortamında birinci elden ve derinlemesine veri toplama

imkânı sağlar. Araştırmacının rolüne göre katılımcı ve katılımcı olunmayan gözlem olarak iki

49

gruba ayrılır. Katılımcı gözlemde araştırmacı gruba dâhil olur, etkileşimde bulunur ve veri

toplama sürecinin parçası olur, öte yandan eğer hiçbir müdahalede bulunmadan, soru

sormadan onları gözlemlemek suretiyle veri sağlıyorsa katılımcı olunmayan gözlem söz

konusudur. (Aktaş, 2015, s. 357). Özellikle nitel araştırma veri araçlarından olan internet ve

sosyal medya alanlarında da aynı şekilde izlenen yöntemle uygulanan gözlem tekniğinde

araştırmacı, araştıracağı konu hakkındaki çevrimiçi gruplara üye olarak gözlem yapabilir,

etkileşimde bulunabilir. Birinci elden veri toplama, sözel olmayan davranışların da

gözlenmesi, gözlem süresinin araştırmacı tarafından ayarlanması ve örneklemin küçük olması

avantajlarını oluştururken, araştırmacının önyargıları ve bakışı, gözlenen kişilerin doğal

davranmama durumu ve gözlemcinin araştırmasını etkileyecek dış etkenleri kontrol altına

almasının mümkün olmaması gözlemin dezavantajlarındandır (Aktaş, 2015, s. 356).

Anket

Anket, kişilerin hayat koşullarını, alışkanlıklarını, yaşam tarzlarını ve inançlarını,

tercihlerini ve demografik özelliklerini belirlemek için ya da bir konu, olay ve durum

hakkında bireylerin görüşlerini belirlemeye yönelik çeşitli miktarlarda sorudan oluşan nicel

bir veri toplama aracıdır. Ankette toplanan veri numeriktir veya numerik değilse de analiz

edilmek üzere numerik formata çevrilmiştir (Lewin, 2009, s. 219). Anketler uygulama

şekillerine göre yüz yüze, telefonla, mektupla, faksla, e-postayla ve internet aracılığıyla

yapılabilmektedir. E-posta, Web ve çevrimiçi anketler diğer yöntemlere göre daha az

maliyetle daha çok kişiye ulaşma imkanı sağlar. Ayrıca internet üzerinden uygulanan

anketlerde araştırmacı istediği anda ankette değişiklik yapabilir ve anketten elde edilen

verileri otomatik olarak analiz araçlarına aktararak analiz edebilir. Web anketlerinin temel

ihtiyaçları çevrimiçi uzman anket hazırlama yazılımı (surveymonkey.com vb.), internet

tarayıcısı ve anketin çalışabilmesi için temel Java, HTML gibi yazılımlardır (Mert, 2014, s.

95). İnternet ve e-posta yoluyla yapılan anketlerin bazı sınırlılıkları ve dezavantajlarını

Neuman (2012, s. 437-438) söyle belirmiştir:

Kapsam sorunu; anketin sadece internet erişimi olan ve interneti kullanabilen

kişilere ulaşması,

Gizlilik ve doğrulama sorunu; her bir katılımcının sadece bir kez ankete

cevap vermesi,

50

Tasarım sorunu; anketlerin farklı işletim sistemlerini veya mobil

uygulamaları desteklemiyor olması,

Katılımcıları cevaplamaya güdülemenin zor olması ve geri dönme ya da

cevaplanma oranlarının düşük olması anketin temel sorunlarındandır.

Özellikle internet ve e-posta anketlerinde katılımı artırmak için çevrimiçi erişim

panelleri, müşteri veritabanları, pazarlama veritabanları, müşteri panelleri, web sitesi

ziyaretçileri ve gelişigüzel örnekleme gibi çeşitli yöntemler vardır (Poynter, 2012, s. 8).

İnternet, e-posta ve telefon anketlerinde dünyanın önde gelen kuruluşu olan Pew Research

Center’ın anketleri çok geniş bir yelpazededir. Anket sonuçlarını çevrimiçi ve telefonla olmak

üzere karşılaştırarak rapor eden Pew Research anketleri birçok bilimsel araştırmada

kullanılmaktadır.

Görüşme

Belirli bir konu hakkında ilgili kişi ya da kişilerden bilgi toplama aracı olarak ifade

edilen görüşme, araştırmacıya derinlemesine veri sağlamaktadır. Görüşme, araştırmanın

amaçlarına göre bireylerin neyi neden düşündüklerini, inanç ve tavırlarını, duygu ve

düşüncelerini etkileyen faktörlerin ortaya çıkarılmasını sağlamaktadır (Aktaş, 2015, s. 339).

Görüşmeler, anket ve gözlem gibi diğer yöntemlerle birleştirilerek de uygulanabilir. Görüşme

yöntemleri yapılandırılmış, yapılandırılmamış, yarı yapılandırılmış, etnografik ve odak grup

görüşmeleri olarak sınıflandırılabilir (Büyüköztürk ve diğerleri, 2014, s. 150-151). İnternet

ortamında yapılan görüşmeler eş zamansız ve eşzamanlı olarak iki gruba ayrılmaktadır. Eş

zamansız görüşmelerde katılımcı ve araştırmacı aynı zamanda görüşmek zorunda değildirler.

Eşzamanlı görüşmede ise katılımcı ve araştırmacı aynı zamanda etkileşim kurarlar, yüz yüze

görüşmelere benzerlik göstermektedir. Çevrimiçi görüşme yöntemlerinde Skype, Google

Hangouts, Facebook Messenger gibi araçlar olabileceği gibi, e-posta ile röportaj yöntemi de

kullanılabilir. Çevrimiçi görüşmede araştırmacı görüşülen katılımcıya araştırmanın amacını

ve içeriğini söylemelidir (Alyanak, 2013, s. 150). Görüşme yöntemlerinden biri olan odak

grup görüşmeleri çevrimiçi ortamlarda da uygulanmaktadır. Poynter, çevrimiçi odak grup

görüşmelerinin yüz yüze çalışan geleneksel odak grup görüşmeleriyle aynı özelliklerde

olduğunu belirtmektedir. Geleneksel odak grup görüşmelerinde olduğu gibi çevrimiçi odak

grup görüşmelerinde de bir moderatör tarafından yönetildiğini ve katılımcıların neler

51

dediklerinin, neler yazdıklarının takip edilip not edilmesi gerektiğini vurgular. Aynı zamanda,

odak grup görüşmelerinin dezavantajları ve sınırlılıklarını değerlendirirken maliyetin yüksek

olması, yüz yüze görüşmelerdeki kalitede olmaması, katılımcıların rolü ve teknolojiyi

hepsinin aynı rahatlıkta kullanamaması, internete erişim ve hız gibi unsurlardan bahsetmiştir

(Poynter, 2012, s. 156-162). Görüşmelerde daha derinlemesine bilgi elde etmek için

araştırmacı ek sorular sorabilir, sorular anlaşılmadığı zaman müdahale edebilir. Bizzat

kendisinin bulunmasından dolayı yanıt oranının tama yakın olması görüşme yönteminin

avantajlarındandır (Aktaş, 2015, s. 340).

3.2. SOSYAL BİLİNLERDE NİCEL VE NİTEL YÖNTEMLER

Araştırma, kişinin karşılaştığı problemlere çözüm bulmak üzere içinde bulunduğu

toplumu, çevresini tanımak amacıyla sistemli olarak attığı adımları kapsamaktadır. Bu yüzden

karşılaşılan sorunların çeşitliği, karmaşıklığı ve çok boyutlu olması gibi nedenler beraberinde

yeni araştırma yaklaşımlarına neden olmuştur. Araştırmalar literatürde dayandıkları görüşün

farklılığına göre farklı gruplara ayrılmaktadırlar. Örneğin; temel aldıkları felsefeye göre, veri

toplama tekniklerine göre, kullandıkları verinin özelliğine göre, veri toplama tekniklerine

göre, amacına göre ve verilerin toplanma zamanına göre farklı sınıflandırmalara sahiptir

(Büyüköztürk ve diğerleri, 2014, s. 12-13). Bu tez bağlamında bilimsel araştırmalar, temel

aldıkları felsefeye göre ortaya çıkan nicel ve nitel araştırmalar olmak üzere iki ana grupta ele

alınacaktır. Ayrıca nicel ve nitel araştırma yöntemlerinin geleneksel araştırmalarda ve

internet araştırmalarında kullanımı bu bölümde karşılaştırılacaktır.

3.2.1. Nicel Araştırma Yöntemler Bağlamında Karşılaştırma

Nicel araştırmanın temel mantığı elde edilen bilgilerin sayısal olarak ifade

edilmesidir. Sayısal olarak ifade edilen bilginin ölçülebilir olması sonucunda ortaya atılan

hipotezlerin test edilebilirliği ve kanıtlanabilirliği ortaya çıkmaktadır. Bu açıdan bakıldığında

kişinin yaşadığı toplumu anlamak, çevreyi tanımak, karşılaştığı sorunlara çözüm bulmak

amacıyla giriştiği sistematik çözüm üretme yolu nicel verileri kullanmaktan geçmektedir

(Demirbaş, 2015, s. 14).

Nicel araştırma, değişkenler arasındaki ilişkileri inceleme yoluyla objektif hipotezleri

test etmek için bir araçtır. Nicel araştırma, gerçekliği değişkenler ve değişkenler arasındaki

52

ilişkiler açısından kavramsallaştırır. Ölçmeye dayanır ve bu nedenle de veriler, genellikle

araştırma soruları, kavramsal çerçeve ve tasarım alanları önceden yapılandırılır. Örneklemler

nitel çalışmalarınkinden daha büyüktür ve buradan hareketle genelleme çoğu kere önemlidir

(Punch, 2011, s. 228). Nicel araştırma, olgu ve olayları nesnelleştirerek gözlemlenebilir,

ölçülebilir ve sayısal olarak ifade edilebilir bir şekilde ortaya koyan bir araştırma yöntemidir.

Amaç, bireylerin toplumsal davranışlarını gözlem, deney ve test yoluyla nesnel bir şekilde

ölçmek ve sayısal verilerle açıklamaktır. Hipotez kurmayı ve test etmeyi amaçlayan nicel

araştırma, araştırmacının sistematik yöntemlerle dışarıdan gözleyerek gerçeği ortaya

çıkarabileceği mantığına dayanır. Değişkenlerin ayrıntılı olarak tanımlanması ve birbirinden

bağımsız olması önemlidir. Aksi takdirde, nicel araştırmanın geçerliliği konusunda şüpheler

ortaya çıkacaktır (Yıldırım & Şimşek, 2011).

Kaptan ise nicel araştırma yöntemlerini basite indirgemiştir. Ona göre nicel araştırma

yöntemleri, ankete benzer şekilde kalem-kağıt yoluyla objenin, bireyin ya da grubun kendisi

hakkında bilgi vermesi şeklidir. Nicel araştırma yöntemleri sayısal verilerin toplanması ve

istatistiksel çözümlenmesine odaklanmıştır. Nicel araştırmalarda verilerin esas alınması,

araştırmaların veri toplamaya odaklanmasından kaynaklanır. Araştırma yöntemi denildiğinde

ise, araştırma amaçlarının belirginleştirilip verilerin elde edilmeye başlamasından itibaren

yapılan işlemler anlaşılmaktadır. Nicel araştırmalar, araştırma yoluyla ürettikleri bilginin

nesnel olduğu varsayımından yola çıkarak insan ve toplumla ilgili çeşitli genellemeler

yapmışlardır (Kaptan, 1998, s. 138). Bu bölümde nicel araştırma yöntemlerinden tarama, blog

tarama, korelasyonel araştırmalar, deneysel araştırmalar ve meta analiz hem geleneksel hem

de internet ve sosyal medya bağlamında incelenecektir.

Tarama Araştırmaları

Tarama araştırması, geçmişte veya halen var olan bir durumu var olduğu şekliyle

betimlemeyi amaçlayan araştırma yaklaşımıdır. Araştırmaya konu olan olay, birey ya da

nesne kendi koşulları içinde ve olduğu gibi tanımlanmaya çalışılır (Karasar, 2011). Tarama

yöntemi ile belli bir zamanda mevcut koşulların doğasını açıklamak amacıyla veri toplanır.

Araştırmaya konu olan olay, birey ya da nesne, kendi koşulları içinde ve olduğu gibi

tanımlanmaya çalışılır. Onları, herhangi bir şekilde değiştirme, etkileme çabası görülmez.

Bilinmek istenen şey, vardır ve oradadır. Önemli olan, onu uygun bir biçimde gözleyip

53

betimleyebilmektir. Nesnelerin, toplumların, kurumların yapısını ve olayların işleyişini

tanımlamak amacıyla kullanılır, bunun için de tarama yöntemi eğitimsel, psikolojik ve

sosyolojik değişkenler arasındaki ilişkiler, ayırımlar ve örneklerle ilgilenmektedir (Wiersma,

2000, s. 83).

Fraenkel ve Wallen (2007, s. 396)’e göre tarama araştırması, araştırmacı tarafından

seçilen bir gruptaki insanların belirlenen bir konuyla ilgili düşüncelerini açığa çıkarmak

amacıyla yapılan bir araştırma türüdür. Tarama tipi araştırmanın üç temel özelliği vardır.

Bunlar;

1. Bilgi bir popülasyonun belli bir konudaki düşüncelerini ya da özelliklerini

tanımlamak amacıyla bu popülasyonun parçası olan bir gruptan toplanır.

2. Bilgiyi toplamak amacıyla kullanılan temel yol soru sormadır, gruptaki insanların

bu sorulara verdikleri cevaplar çalışmanın verilerini oluşturur.

3. Bilgi genellikle popülasyonun tümünden değil bir örneklemden toplanır.

Tarama tipi araştırmaların temel amaçlarından birisi hedeflenen popülasyonun

özelliklerini açığa çıkarmaktır. Hedeflenen popülasyona ulaşmak genellikle zor olduğu için

popülasyonun bütün üyelerinden bilgi toplanamayabilir. Hedeflenen popülasyona ulaşılamasa

da onun yerine bu popülasyondan seçilen örneklemle çalışılır. Bu örneklemden elde edilen

sonuçlar ışığında popülasyon hakkında genel bir tanımlama çıkartılabilir yani genelleyicidir

(Özdemir, 2015, s. 79-80).

Tarama çalışmalarında veri toplama aracı olarak anket, başarı testi ve tutum ölçeği

kullanılmaktadır. Araştırmacılar veri toplama araçlarından hangilerini kullanırlarsa

kullansınlar, literatürde bulunan standartlaşmış aracı kullanmaları önerilir veya var olan

araçları uyarlamaları önerilir. Bunun yanında araştırmacıların kendileri bağımsız bir veri

toplama aracı da geliştirebilirler, ancak özellikle geçerlilik ve güvenilirliğini test etmelidirler

(Özdemir, 2015, s. 86).

Tarama araştırmaları Fraenkel ve Wallen (2007) kesitsel ve boylamsal olmak üzere

iki ana gruba ayrılmaktadır. Tablo 8’de tarama türlerinin özellikleri verilmiştir.

54

Tablo 8: Tarama Araştırması Türleri

Kaynak: Fraenkel & Wallen (2007, s. 399)

Tarama araştırmalarından özellikle boylamsal araştırma sosyal medyada daha etkili

kullanılabilir. Çünkü kullanıcıların sosyal medyadaki gönderileri üzerinden zaman içindeki

değişimleri izlenebilir. Araştırılan konu hakkında aynı kullanıcıların veya farklı kullanıcıların

bir süre önce neler düşündüğü, davranış ve eğilimleriyle belirli bir zaman dilimi ardından aynı

konudaki görüşleri kaydedilerek analizler yapılabilir.

Tarama araştırmaları internet ve sosyal medya araçlarının gelişmesiyle birlikte

gelişerek yeni kavramları ortaya çıkarmıştır. Bunlar; blog madenciliği (blog mining), içerik

süzgeci (web scraping) ve buzz (vızıltı, dedikodu) veri madenciliği ve metin madenciliği gibi

kavramlardır. Geleneksel araştırma yöntemlerinde tarama araştırmalarının internet ortamında

karşılık gelen veya benzerlik gösteren yöntem blog ve buzz veri madenciliğidir. Blog ve buzz

veri madenciliğinde web, bloglar, forumlar, Twitter, sosyal ağlar, yorumlar kısacası

kullanıcıların görüş ve yorumlarını yazdıkları her yer taranmaktadır. Bu tekniğin üstünlüğü

özellikle pazarlamada marka, hizmet ve ürünler hakkında konuşmaları fark etmektir. İzleme,

Kesitsel Tarama

Veri toplama sürecinin bir seferde

gerçekleşmesidir. Amaç taranan olgunun süreç

içindeki değişimini değil herhangi bir andaki durumunu betimlemektir. Örneğin sosyal

medyanın yemek tercihinde rolünü öğrenmek

isteyen araştırmacı örnekleme amaca yönelik tek

seferde bir anket uygulayarak kişilerin cevaplarını alır. Kişilerin yanıtları o andaki cevaplardır ve

yemek tercihlerinde sosyal medyanın rolünü o an

betimlemektedir.

Boylamsal Tarama

Bilimsel araştırmalarda incelenen konular genellikle zaman içinde değişebilmektedir. Bu

nedenle bilimsel araştırmalarda bir durumu anlık

olarak betimlemek yerine zaman içerisindeki değişimlere de odaklanmak gerekir. Kesitsel

taramanın aksine, boylamsal tarama veri toplama

sürecinin zaman içinde tekrarlanarak yapıldığı

tarama türüdür. Boylamsal taramanın kohort, panel ve trend olmak üzere üç alt türü

bulunmaktadır.

55

dinleme kavramlarına da karşılık gelen “monitoring” marka/ürün/kurum hakkında kimin neler

söylediğini elde etmeyi sağlar. Blog ve buzz veri madenciliği süreci üç temel aşamadan

oluşmaktadır (Poynter, 2012, s. 290-292). Bunlar;

1. Bulmak: Web’de bir şeyler bulmak için arama motoru gibi araçlar kullanmak

2. Çıkarmak: Web’de bulunan verileri erişilebilir şekilde depolamak

3. Analiz etmek: Farklı yazılımlar yardımıyla elde edilen çok miktarlardaki

metinleri analiz etmek ve içgörüler üretmek.

Blog ve buzz veri madenciliği sürecinde ilk adım kullanıcıların araştırılmak istenen

konu hakkında neler söylediğini dinlemektir. Ancak internet ortamı çok geniş olduğundan

bunun için özel araç ve yöntemlere ihtiyaç duyulmaktadır. Bu tez kapsamında blog tarama

üzerine durulacaktır.

Blog Tarama

İnternet araştırmalarında kullanılan önemli bir bilgi kaynağı olan bloglar, orijinalinde

“Web‟ ve “log” kelimeleri, web’in kaydının tutulduğu günlük anlamına gelecek şekilde

“weblog” olarak birleştirilmiş, daha sonra kısaltılarak “blog” olarak kullanılmaya

başlanmıştır. Walker bütün blogların ortak adına “blogosfer” ismini vermektedir (Alyanak,

2013). Bloglar, kullanıcı tarafından üretilen çeşitli içeriklerin anahtar sözcük arama üzerinden

yapılandırıldığı ve özellikle markaların kendileri hakkında ne konuşulduğunu öğrenmek

amacıyla kullandıkları bir araçtır. Sosyal bilimler araştırmalarında kullanılan bu yöntemde

araştırmacılar çeşitli yazılımlardan faydalanmaktadırlar. Bu yazılımların hepsinin ortak

özelliği blogları taramaları ve bunun neticesi olarak da hepsinin birer monitöring aracı

olmalarıdır. Bazıları monitöring özelliğinin yanında analiz de yaparak sosyal medyada

ölçümleme, analiz ve raporlama da yapmaktadır. Bilişim teknolojilerinin hızlı gelişimi ve

sürekli değişim halinde olması dolayısıyla bu alandaki araçlar sürekli değişmektedir. Blog

tarama yazılımlarından Technorati, BlogPulse, BlogScope (Sysmos) ve IceRoket bu tez

kapsamında incelenecektir. Bunlardan başka çok daha çeşitli araçlar da bulunmaktadır ve

birçoğunun farklı özellikleri mevcuttur. Bu blog tarama araçları ve özellikleri Tablo 9’da

gösterilmiştir.

56

Tablo 9: Blog Tarama Araçları ve Özellikleri

Tech

no

ra

ti

100 milyondan fazla blogu tarar.

“Authority” özelliği sayesinde her blogu

eşit değerlendirmez. Blogların reytingini,

başka kaç sitenin bloga bağlantı verdiğini

ölçer. Ne kadar çok bağlantı yapılırsa

blogun “authority” puanı daha yüksek

olur. Search menüsü sayesinde anahtar

kelime aratarak, kelimenin derecesini ve

tüm gönderileri vermektedir.

(http://technorati.com/)

Blo

gP

ulse

Nielsen şirketi tarafından geliştirilmiş

olan BlogPulse, 100 milyondan fazla

blogu tarar. Arama sonuçlarından RSS

beslemeler çıkartma özelliğini bulunan

arama motoruna sahiptir. Üç terime ait

görünme sıklığını gösteren trend şeması

gösterme özelliği vardır.

(https://en.wikipedia.org/wiki/BlogPulse)

Sysm

os

Toronto Üniversitesi tarafından

geliştirilen Sysmo bir blog arama

motorudur. Sysmo 40 milyon dolayında

blog taramaktadır. Diğer yazılımlardan

farklı olarak ek bilgiler de vermektedir.

Piyasa araştırmalarında en çok birlikte

kullanılan sözcükleri sıralayarak,

pazarlamacılara yön veren Sysmo ülke

bazında filtreleme ve diğer filtreleme

araçları sayesinde hangi terimin hangi

ülkelerde daha çok konuşulduğunu

göstermektedir. (http://sysomos.com/).

57

IceR

ok

et

Blog tarama araçlarından IceRoket

kullanıcı dostu arayüzü ile karşımıza

çıkmaktadır. Ayrıca ayrı ayrı bloglar,

Twitter, Facebook ve bunların hepsini

kapsayan arama seçenekleri mevcuttur.

Seçilen beş terimin son üç ay boyunca

görünme sıklığını grafik şeklinde

vermektedir.(http://www.icerocket.com/).

Yukarıda belirtilen blog tarama araçlarının yanında bilmediğimiz birçok araç

mevcuttur ancak burada popüler ve ücretsiz olan blog tarama araçları incelenmiştir. Bu

araçların geneline bakıldığında her birinin kullandığı veri sosyal veridir, yani sosyal medyada

kullanıcılar tarafından üretilen veridir. Ayrıca bu araçlardan bazıları monitöring yapmanın

yanında ölçümleme de yaparak araştırmacılara doğru karar almalarında yardımcı

olmaktadırlar. Birlikte kullanılan terimleri listelerken Büyük Veri analiz yöntemlerinden

birliktelik kuralına göre çalışan bu araçlar aynı zamanda trendleri kategorilere ayırırken

sınıflandırma tekniklerinden faydalanmaktadırlar.

Korelasyonel Araştırmaları

Korelasyonel araştırma veya ilişkisel araştırma yöntemi, iki ya da daha çok değişken

arasındaki ilişkinin herhangi bir şekilde bu değişkenlere müdahale edilmeden incelendiği,

ortaya çıkarılmaya çalışıldığı araştırmalardır. Değişkenlere müdahale edilmemesi nedeniyle

korelasyonel araştırmalarla nedensel karşılaştırma araştırmaları birbirine benzemektedir.

Ancak nedensel karşılaştırmalarda bağımlı değişkeni etkileyen bağımsız değişkenlerde neden-

sonuç ilişkisi belirlenmeye çalışılırken, korelasyonel araştırmalarda sadece değişkenlerin

birlikte değişimleri incelenir. Değişkenler arasında ilişkilerin tanımlanması nedeniyle

korelasyonel araştırmalar; betimsel araştırmaların bir türü olarak nitelendirilmektedir

(Fraenkel & Wallen, 2007, s. 340). Diğer yandan bir değişkenin bilinmeyeni, henüz

gözlenemeyen bir özelliğinin var olan değerlerden yola çıkılarak elde edilmeye çalışılması

nedeniyle de çıkarımsal istatistik yöntem ve teknikleri de kullanılmaktadır. Korelasyon

araştırması basamakları; problemin belirlenmesi, örneklemin seçilmesi, veri toplama

araçlarının geliştirilmesi, verilerin toplanması ve verilerin analiz edilip yorumlanmasıdır.

58

Korelasyonel araştırmalar, değişkenler arasındaki ilişkilerin açığa çıkarılması ve bu

ilişkilerin düzeylerinin belirlenmesinde etkilidir. Bu ilişkiyi gösteren korelasyon katsayısı

hesaplanır ve -1 ile +1 arasında olan bu katsayı ilişkinin yönünü ve düzeyini ifade eder. Eğer

negatif ise değişkenler arasında ilişki ters yönlüdür yani biri artarken diğeri azalmaktadır.

Korelasyonel araştırmalar betimsel ve çıkarımsal olmak üzere iki modele sahiptir.

Değişkenler arası ilişkilerin belirlenmeye çalışıldığı araştırmalara betimsel korelasyon

araştırmaları denmektedir. Çıkarımsal korelasyon araştırmalarında ise; değişkenler arası ilişki

belirlenerek bir değişkene ait bilinen bir değerden diğer değişkenin bilinmeyen bir değeri

tahmin edilmeye, çıkarım yapılmaya çalışılır (Fraenkel & Wallen, 2007). İnternet

araştırmalarında korelasyon analiz teknikleri kullanılmaktadır. Ancak internette birden fazla

değişken olduğu için tek başına korelasyon analizleri yeterli olmayabilmektedir. Bu yüzden

doğrusal regresyon veya çoklu regresyon tekniklerinden yararlanılmaktadır (Tekbıyık, 2015,

s. 103).

İnternet ve sosyal medya üzerinden yapılan “ilişkisel araştırma yöntemi”, geleneksel

yöntemle benzerlik göstermektedir. Her yöntemde de değişkenler arasındaki ilişki incelenir.

Birçok alanda kullanılan bu araştırma yöntemi, pazarlama alanında da müşterilerin satın alma

davranışları ile raf düzeni arasındaki ilişkide ya da bankacılık alanında bankalar müşterilerine

kredi skoru verirken korelasyon ve regresyon gibi daha üst tekniklerden de faydalanarak

kullanılmaktadır.

Deneysel Araştırmalar

Deneysel araştırmalar, değişkenler arasındaki neden-sonuç ilişkilerinin araştırıldığı

ve değişkenlerin gözlemlenerek istenilen verilerin üretildiği araştırmalardır. Deneysel

yöntem; etkisi ölçülecek etkenin belirli kurallar ve koşullar altında deneklere uygulanması,

deneklerin etkene verdikleri yanıtların ölçülmesi ve elde edilen sonuçların karşılaştırılarak

karara varılması işlemlerini içeren bir araştırma türü olarak tanımlanmaktadır (Çepni, 2007, s.

82).

Deneysel araştırmalar ayrıca doğaya ilişkin uygun, net soruların sorulması ve

cevapların kaydedilmesini tanımlar. Bu soruları cevaplayabilmek için süreç planlanmış olarak

ele alınır ve olası ilişkiler yoklanır. Ayrıca, fen olayları sürecini etkileyen bütün faktörler

59

kontrol edilir. En uygun faktörlerden biri değiştirilirken, diğerleri sabit kalır. Deneysel

araştırmaların iki temel özelliği bulunmaktadır. Birincisi, bağımsız değişkenin bağımlı

değişken üzerindeki etkisini doğrudan gösterebilmesidir. İkincisi de değişkenler arasındaki

ilişkiye yönelik olarak hipotezlerin test edilebilmesine olanak sağlamasıdır. Ayrıca deneysel

araştırmalarda araştırmacı bağımsız değişkeni kendisi kontrol edebilmektedir (Karakaya,

2009, s. 55). Tek denekli araştırmalar, sadece bir deneğe ait verilerin analiz edilip,

yorumlandığı yarı deneysel araştırmalardır. Tek denekli araştırmaların düzenlenmesinde farklı

desenler mevcuttur. Bu desenler, deneklerin değişimleri grafiklerle izlendiğinde, bir zaman

serisi çalışması olarak tanımlanabilmektedir. Bu yöntemler psikoloji, ilaç sanayi, eğitim, özel

eğitim, işletme, pazarlama ve sosyal hizmetler gibi alanlarda sıklıkla kullanılmaktadır

(Büyüköztürk ve diğerleri, 2014, s. 214-215). Şekil 5’te çevrimiçi deneylerin yapısı

gösterilmiştir. Bir grup deney grubu iken, diğer grup ise kontrol grubudur. Bu ayrışım

istatistiksel olarak, eşit olarak bölünmeye çalışılır ve araştırmacı tarafından karar verilir.

Kullanıcıların araca olan tepkileri ve etkileşimleri analiz edilerek ve karşılaştırılarak deneyin

sonuçları yorumlanır.

Şekil 5: Çevrimiçi Deneylerin Yapısı

Kaynak:http://statisticalconcepts.blogspot.com.tr/2010_03_01_archive.html

(Erişim:11 Mayıs 2015)

http://statisticalconcepts.blogspot.com.tr/2010_03_01_archive.html

60

İnternetin araştırma alanlarını etkilemesiyle birlikte 1990’ların sonuna doğru

çevrimiçi kontrollü deneyler yapılmaya başlanmıştır. Günümüzde Amazon, Facebook,

LinkedIn gibi birçok büyük siteler her yıl binlerce deney yapmaktadır. Bu deneyler; kullanıcı

arayüzü değişikliklerini test etme, arama, reklam, kişileştirme ve öneri sistemleri gibi

algoritmaların iyileştirilmesinde, uygulamaları ve içerik yönetimi değişikliklerini test etmede

kullanılır. Çevrimiçi deneyler günümüzde girişimci ve küçük web siteleri için vazgeçilmez

olarak görülmektedir. Diğer birçok veri madenciliği tekniğinin üzerinde durduğu ilişki

desenlerinin aksine, deneysel araştırmalarda neden sonuç ilişkisi belirlenmeye çalışılmaktadır

(Kohavi & Longbotham, 2015). Ayrıca internet ve sosyal medyada kontrol gruplarıyla

yapılan çalışmalarda web sitelerinde hangi metin özelliklerinin, hangi görselin, hangi

fotoğrafın ve renklerin uygulanması gerektiğine karar vermede ve özellikle e-ticaret ve sosyal

ağ sitelerinin trafiğini ve kullanıcı dostlu olma özelliğini artırmada bu tür testler

uygulanmaktadır.

Meta-Analiz

Günümüzde bilimsel araştırmaların sayısının artmasıyla, araştırma hedeflerinin

kitlelere aktarılması zorlaşmakta, okuyucunun istediği bilgiye kısa sürede ulaşması

güçleşmektedir. Birbirinden bağımsız ve belirli konularda yapılan çalışmalarda sıklıkla

birbirinden farklı sonuçlara ulaşılmakta ve her geçen gün aynı konu hakkındaki farklı

araştırmaların sayısı artmaktadır. Bu bilgi yığınını yorumlamak ve yeni çalışmalara yol açmak

için, kapsayıcı ve güvenilir nitelikte üst çalışmalara ihtiyaç vardır. Bu sebepler bilgilerin bir

çatı altında toplanıp yeniden analiz edilmesi ve yeni yargılara varılması ihtiyacını

doğurmuştur (Sağlam & Yüksel, 2007). Meta analiz, aynı ya da ilişkili amaca sahip araştırma

sonuçlarının bütünleştirilmesi ile daha da genellenebilir. Meta analiz araştırmalarında aynı

probleme yönelik farklı araştırmaların istatistiksel bulgularına yer verilmektedir (Büyüköztürk

ve diğerleri, 2014, s. 222-223).

İnternet ve sosyal medyanın hayatımızda ve bilim dünyasında aktif kullanımıyla

birlikte, aynı konu hakkında yapılan araştırmalar artmaktadır. Böylece akademik dergiler ve

akademik veri tabanları sayısı da aynı paralellikte hızla artmaktadır. Bu çok sayıdaki

araştırmanın bulgularından yola çıkılarak yapılan çeşitli istatistik hesaplamalarla daha genel

ve geçerli meta analiz araştırma sonuçlarına ulaşılmaktadır. En çok bilinen yazılımlar ise

61

“Comprehensive Meta-Analysis (CMA) 2.0”, “Revman 5.0”, “Stata Macros with Stata 10.0”,

”SPSS”, “SAS” ve “excel”dir (Borenstein ve diğerleri, 2011). Şekil 6’da meta analiz

araştırmalarında kullanılan yazılımlardan CMA’nın çalışma arayüzü gösterilmiştir. Arayüzü

satır ve sütunlardan oluşan CMA, Microsoft Excel’in arayüzüne benzemektedir.

Şekil 6: Comprehensive Meta-Analysis (CMA) 2.0 Arayüzü

Kaynak: http://www.meta-analysis.com/pages/features.php (Erişim:24 Mayıs 2015)

Excel arayüzüne benzer olan programda grafik ve tablo olarak çıktı alınabilmektedir.

Hesaplama adımları adım adım gösterilerek yanlış yapma durumunda kullanıcının bunu fark

etmesi sağlanmaktadır. Ayrıca araştırmalarda alt gruplar varsa alt grup analizleri yapılmakta,

regresyon ve çalışmaların etki büyüklüğü hesaplanmaktadır. Şekil 7’de aynı mortalite üzerine

yapılan tedavilerin etkisi çalışması gösterilmiştir. CMA ile bu farklı yıllarda yapılan

çalışmaların meta analiz diyagramı rahatlıkla oluşturulmaktadır.

http://www.meta-analysis.com/pages/features.php

62

Şekil 7: CMA 2.0 ile Yapılmış Örnek Bir Meta Analiz Diagramı

Kaynak: http://www.meta-analysis.com/pages/features.php (Erişim:24 Mayıs 2015)

Aynı tedaviyle ilgili olarak 1932 yılından 2000 yılına kadar yapılan ve aynı amacı

taşıyan araştırmaların sonuçları değerlendirilmiş ve tedaviyle ilgili bir genelleme yapılmıştır.

Her bir çalışmanın istatistiksel sonuçları girilerek toplam verilerden diyagramlar

oluşturulmuştur. Böylece farklı araştırmalar harmanlanarak ortak sonuçlara varılmıştır.

Sonuç olarak, nicel araştırmalar farklı gruplar arasında karşılaştırmalar yapılabilmesi,

kuramların doğruluk derecelerinin test edilmesi ve belirli bir yapı içerisindeki ilişkilerin

incelenmesi gibi uygulamalara imkân sağlamaktadır. Öte yandan nicel araştırmaların yetersiz

kalması, belirli olay ve durumlar hakkında derinlemesine bilgi sağlamaması, sonuçlarının

kuramlar üretmekte yetersiz olması ve süreç içinde esnek olamaması gibi bazı sebeplerden

dolayı nitel araştırma yöntemleri, nicel araştırma yöntemlerine göre daha etkilidir. Sıradaki

bölümde nitel araştırma yöntemleri bağlamında geleneksel araştırmalarla internet

araştırmaları ele alınacaktır.

3.2.2. Nitel Araştırma Yöntemler Bağlamında Karşılaştırma

Nitel araştırmalar ilişkilerin, etkinliklerin, durumların ya da materyallerin

niteliğinin incelendiği araştırmalardır. Dünyanın çeşitli gerçekliklerden oluştuğunu ve aynı

durumun farklı bireylerce farklı biçimlerde yorumlanabileceğinin üzerinde durulmaktadır.

Nitel araştırmacılar daha çok katılımcıların bakış açısından olay ve durumları anlamaya

çalışırlar. Bu yüzden nitel araştırmalarda katılımcılar genelde doğrudan ve aktif olarak

http://www.meta-analysis.com/pages/features.php

63

araştırma sürecinde yer alırlar (Fraenkel & Wallen, 2007, s. 15). Yıldırım ve Şimşek

(2000) ise nitel araştırmayı, gözlem görüşme ve doküman analizi gibi nitel veri toplama

yöntemlerinin kullanıldığı, algıların ve olayların doğal ortamda gerçekçi ve bütüncül bir

biçimde ortaya konmasına yönelik nitel bir sürecin izlendiği araştırma süreci olarak

tanımlar. Başka bir deyişle nitel araştırma, kuram oluşturmayı temel alan bir anlayışla

sosyal olguları bağlı bulundukları çevre içerisinde araştırmayı ve anlamayı ön plana alan

bir yaklaşımdır (Yıldırım & Şimşek, 2013, s. 19). Nitel araştırmalar psikolojik ve sosyal

olaylarla ilgili daha derinlemesine bilgi sağlarlar. Geleneksel araştırma yöntemleriyle ifade

edilmesi zor olan sorulara cevap bulmak için nitel araştırmalar gereklidir. Araştırmaların

doğal ortamlarda geçmesi ve katılımcılardan doğrudan veri toplanması nitel araştırmaların

temel özelliklerindendir. Tablo 10’da Fraenkel & Wallen (2007, s. 424)’a göre nitel

araştırmaların özellikleri verilmiştir.

Tablo 10: Nitel Araştırmaların Özellikleri

Özellikler Açıklamalar

Doğal ortam Olguların, olayların ya da davranışların

gerçekleştiği doğal ortamda çalışılır.

Doğrudan veri toplama Araştırmacı verilere doğrudan kaynağından

ulaşır.

Zengin betimlemelerin yapılması Bağlam ve olguların derinlemesine anlaşılmasını

sağlayacak detaylı betimlemeler yapılır.

Sürece yönelik Olgu ve davranışların nasıl ve neden

gerçekleştiğine odaklanır.

Tümevarımcı veri analizi Sentezlenerek elde edilen bilgilerden yola

çıkarak ikna edici genellemeler yapılır.

Araştırmacının katılımcı rolü Katılımcının anlamasına ve anlamlandırmasına

odaklanır.

Araştırma desenlerinde esneklik Araştırma deseni, çalışmanın gerçekleştiği

duruma göre gelişir ve değişir.

Kaynak: Fraenkel & Wallen (2007, s. 424).

Nitel yaklaşımda araştırmanın amacı elde edilen bulgulara dayalı olarak derinlemesine

açıklama yapmaktadır ve nitel araştırma yorumlayıcı nitelikte olduğu için bu yeni yaklaşımla

sosyal olgu ve olayın sayılamayan “Niçin?” ve “Nasıl?” sorularına cevap bulmak amaç

edinilmiştir. Bu sorulara alınacak cevapları yorumlayarak anlamlandırmak ve böylece insan

64

davranışlarını, sosyal olgu ve olayları daha iyi açıklanabilir hale getirmek yöntemin başlıca

amacıdır. Bu amaç doğrultusunda nitel araştırmalar etnografi, tarihi araştırma, eylem

araştırması, durum çalışması, anlatı araştırması, temellendirilmiş teori, olgubilim ve

gelişimsel araştırmalar gibi çeşitlere ayrılır (Büyüköztürk ve diğerleri, 2014, s. 18). Bu tez

bağlamında nitel araştırma yöntemlerinden olan etnografi, netnografi, durum çalışması ve

temellendirilmiş teori üzerinde durulacaktır. Diğer nitel araştırmalara yer verilmemesinin

nedeni, bahsedilen bu yöntemler dışındakilerin internet ve sosyal medya araştırmalarında

sonuç elde edilmesi açısından uygun olmamasıdır.

Etnografi ve Netrografi

Etnografi, “etno” (insan) ve “grafi” (tanımlama, tasvir etme) kelimelerinin bir araya

gelmesiyle oluşmuş bir kelimedir ve “bir topluluğun davranışını doğrudan gözlemlemek ve bu

gözleme dayanarak tanımlamalar yapmak” anlamına gelmektedir (Agafonoff, 2006, s. 117).

Diğer bir anlatımla, bir grubun davranışlarını ve o grubun insan ilişkilerini, doğal

ortamlarında gözleme, onlara ilişkin veri toplama ve yorum yapmadır (Akturan, 2007, s. 239).

Sosyal bilimlerde birçok alanda kullanılan etnografik araştırma yöntemlerinin özelliklerini

Goulding şu şekilde özetlemektedir (Goulding, 2005, s. 299).

Etnografik araştırmalar kültürel yapıları ve bu yapıları oluşturan bireylerin

davranış ve deneyimlerini açıklamayı hedeflemelidir.

Etnografik araştırma belirli bir kültür veya alt-kültürle belirli bir süreklilikteki

bir ilişkiyi kapsamaktadır.

Tüketici davranışına yönelik yürütülen etnografik araştırmalarda sonuçlar

genelleştirmekten çok daha cüzi ve o türün bir parçasıyla ilgilidir.

Etnografik araştırmada tek bir olgu için anket, gözlem, kayıt gibi birden fazla

yöntem kullanılabilmektedir.

Etnografik araştırmada araştırmacı incelenen kültürün, grubun bir parçasıdır

ve bu kültür tarafından etkilenmektedir.

Etnografik araştırmalarda iki ana veri kaynağı vardır. Bunlardan birincisi davranışa

yönelik gözlemler, ikincisi ise sözlü raporlardır. Araştırmacı gözlem yaptığı toplumda

gerçekleşen günlük olayları, gelişme ve konuşmaları gerçek zamanlı olarak kaydetmelidir.

65

Notlar, video, ses kaydı ve fotoğraf gibi farklı kaynaklardan olabilen bu veriler saha kayıtları

olarak analiz edilmelidir (Arnould & Wallendorf, 1994).

Etnografik araştırmada üç tür gözlem tekniği vardır. Bunlar Şekil 8’de belirtildiği

gibi katılımcı gözlem, katılımsız gözlem ve mekanik gözlemdir. Her üç yöntemin de birbirine

kıyasla üstünlükleri ve zayıflıkları bulunmaktadır. Etnografik araştırma sürecinde her üç veri

toplama tekniği de aynı anda kullanılabilmektedir. Bu özellik, etnografik araştırmayı diğer

araştırma yöntemlerinden ayıran önemli bir özelliktir (Akturan, 2007, s. 242).

Şekil 8: Etnogratik Araştırmanın Çok Boyutlu Çerçevesi

Kaynak: Agafonoff, N. (2006). Adapting ethnographic research methods to ad hoc

commercial market research. Qualitative Market Research: An International Journal,

115 - 125. http://www.emeraldinsight.com/doi/pdfplus/10.1108/13522750610658766

adresinden alınmıştır

Web 2.0 ve sosyal medyanın gelişmesiyle birlikte etnografik araştırmalar sanal

ortamlarda da kullanılmakta ve sanal toplulukların davranışlarını açıklamada önemli ipuçları

sağlamaktadır. Sanal ortamda uygulanan etnografik araştırma tekniği “netnografi” olarak

adlandırılmaktadır. Kozinets tarafından geliştirilen netrografi kendisi tarafından şöyle ifade

edilmektedir: “Netrografi, İnternet ve teknolojik ağ etnografisidir; teknoloji aracılığıyla

çağdaş sosyal dünyamızın karmaşıklığına uyarlanmış etnografidir” (Kozinets, 2010, s. 62).

The Sage Dictionary of Social Research Methods sözlüğündeki tanıma göre ise netnografi

66

“internet üzerinden yapılan etnografidir”. Yani antropolojinin yüz yüze yürüttüğü niteliksel ve

yorumlamalı araştırma yönteminin bilgisayar donanımlı iletişimlerle oluşturulmuş çevrimiçi

kültürlere ve topluluklara uyarlanmasıdır (Jupp, 2006, s. 193).

Netrografik araştırma süreci, etnografik araştırma süreciyle benzerdir. İlk aşamada,

çevrimiçi sahaların incelenmesi, veri toplama ve analizi, yorumlama, araştırma etiğinin

sağlanması ve kültürel ortamın üyelerinden geri bildirim alınması gibi adımlar gelir.

Araştırma planlamasında araştırma sorularının spesifik olması ve sorulara cevap alınacak

çevrimiçi ortamların belirlenmesi önemlidir. Netnografik araştırmaların uygulanabileceği

çevrimiçi ortamlar temel olarak 5 kategoride toplanabilir. Bunlar, haber grupları; web

sayfaları; sanat, iş, hobi gibi ortak ilgi alanlarına yönelik kurulmuş e-posta listeleri; çok

oyunculu zindanlar (MUD-Multi-User Dungeons) ve sohbet odalarıyla genel arama

motorlarıdır (Çomu & Halaiqa, 2014, s. 70).

Netnografi araştırmaları da, etnografi gibi, araştırılan topluluğa ilişkin farklı

formatlardaki verilerden oluşabilmektedir. Netnografide, araştırma verilerinin toplanıp analiz

edilmesi ve yorumlanmasında, araştırmacının öznel görüşleri de etkilidir. Bu yüzden

araştırmacı grup ve grubun kültürü hakkında ne kadar çok şey bilirse, yorum ve tespitleri de o

kadar güvenilir olacaktır. Araştırmanın yapılacağı çevrimiçi topluluklar hakkında veri elde

etmede sosyal medya araçları, siteler, bloglar, forumlar kısacası bütün siber dünya bir veri

bankası olarak araştırmacının önündedir. Ayrıca, internet üzerinden çeşitli uygulamalar

kullanılarak birebir görüşmeler ve odak grup görüşmeleri gerçekleştirilebilmekte, kamuoyu

yoklamaları yapılabilmektedir. Yine, sanal grupların kullandığı sosyal medya araçlarında

kullanıcı sayısı, kullanım sıklığı, mesaj gönderim sıklığı gibi sayısal verilere ulaşmak son

derece kolaylaşmaktadır (Özüdoğru, 2014, s. 268).

Nitel bir araştırma olan netrografide, kullanıcılar tarafından üretilen verilerin

incelenmesinden ziyade, bu veriler üzerinden kullanıcıların duygu ve düşünceleri, eğilimleri,

tutum ve davranışları nitel olarak betimlenir (Çomu & Halaiqa, 2014, s. 77). Bu

betimlemelerde, araştırmanın yapıldığı çevrimiçi ortamlara dair nicel verilerden ve veri analiz

sürecinde de bilgisayar yazılımlarından faydalanılabilir.

67

Türkiye’de Kaan Varnalı tarafından hazırlanan “Dijital Kabilelerin İzinde” isimli

kitapta netnografi yöntemiyle yapılmış olan farklı araştırmalar yer almaktadır. Kitapta yer

alan araştırmalar incelendiğinde, anahtar kelime üzerinden gidilerek onların en yoğun

kullanıldığı platformların belirlendiği ve o platformların incelendiği görülmektedir..

Araştırmalarda web siteleri (kadınlar kulübü vb.), forumlar (islamiforum vb.), bloglar, ekşi

sözlük, arama motorları, Facebook ve Twitter gibi platformlar -araştırmanın amacına göre-

belirlenmiştir. Platformların, ortamlardaki içeriklerin ve kullanıcıların belirlenmesinde,

yöntem olarak, genelde “anahtar kelimeler” kullanılmıştır. Yapılan netnografik

araştırmalarda, incelenen çevrimiçi ortamlardaki kullanıcıların davranışları, eğilimleri ve

ilgilendikleri ortak konular belirlenmiştir (Varnalı, 2013).

Durum Çalışması (Case Study)

Durum çalışması veya örnek olay incelemesi bilimsel sorulara cevap aramada

kullanılan ayırt edici bir yaklaşım olarak görülmektedir. Karmaşık bir durum hakkında bilgi

edinmek için kullanılan bir yöntemdir. Durumun bütün olarak incelenmesini ve kapsamlı bir

şekilde anlaşılmasını temel alır, bu yüzden de araştırmacının durumla ilgili çok iyi

önbilgisinin olması gerekir. Çünkü konuyla ilgili önbilgiler bilinmeden, içerik anlaşılmadan

hangi verilerin en iyi olduğunu ve en çok anlam ifade ettiğini anlamak güçtür. Bununla

birlikte bu yöntemde birden çok veri toplama aracının kullanılması gerekebilmektedir. Çünkü

bir durumun açıklanmasında tek bir veri kaynağı yeterli değildir (Yılmaz G. K., 2015, s. 264).

Hem nitel hem nicel verilerin kullanıldığı durum çalışmasının kaynaklarda nicel araştırmalar

içinde de yer aldığı görülmektedir. Ancak bu tez bağlamında çoğunlukla nitel araştırmalar

başlığı altında incelendiği için, nitel araştırma yöntemi olarak ele alınmıştır. Millan (2000)

durum çalışmasını bir ya da daha fazla olayın, ortamın, programın, sosyal grubun ya da diğer

birbirine bağlı sistemlerin derinlemesine incelendiği bir yöntem olarak ifade etmektedir

(Aktaran: Büyüköztürk, ve diğerleri, 2014, s. 249).

Durum çalışmaları bir olayı meydana getiren ayrıntıları tanımlamak ve görmek, bir

olaya ilişkin olası açıklamaları geliştirmek, bir olayı değerlendirmek amacıyla kullanılır.

Yılmaz’a göre, durum çalışması türlerinde kesin bir sınıflandırma yoktur. Bunun nedeni de

araştırmacıların aynı durumlara farklı bakış açıları olmasıdır. Yılmaz durum çalışmalarını

68

açıklayıcı, keşfetmeye dayalı, içsel, enstrümental ve kollektif durum çalışması olarak

sınıflandırmaktadır (Yılmaz G. K., 2015).

Açıklayıcı durum çalışması; çok bilinmeyen veya aşina olunmayan bir

durumu bilindik hale getirmede, gerçek hayatla ilişkilerini açıklamada

kullanılır.

Keşfetmeye yönelik durum çalışması; çıktısı açık ve tek olmayan durumlarda

ve büyük ölçekli araştırmalar yürütülmeden önce bu yöntem kullanılarak

durum hakkında genel bir bilgi sahibi olunur.

İçsel durum çalışması; belirli bir kişi, kurum, grup veya durum hakkında daha

detaylı bilgiye ihtiyaç duyulduğunda kullanılır. Genelleme yapmak yerine

durumu derinlemesine öğrenmek için uygulanır.

Enstrümental durum çalışması; belli bir durumdan ziyade bir sorunu

açıklamayı veya bir teoriyi geliştirmeyi amaçlayan araştırmalarda kullanılır.

Aynı zamanda geniş bir konu hakkında öngörü kazanmak için özel durumlar

incelenir.

Kollektif durum çalışması; karşılaştırmalı durum çalışması olarak da bilinir.

Bir sorunu anlamak için çoklu durumları karşılaştırır. Örneğin bir programın

izleyiciler üzerindeki etkisini incelemek için farklı sosyal medya

mecralarından programla alakalı veriler toplanır ve bunların karşılaştırması

yapılır.

Durum çalışması aşamaları genel olarak nitel çalışmalarla aynıdır. Bir durum

hakkında derinlemesine bilgi sağlaması, alışık olunmayan durumların açıklanması,

araştırmacının nitel araştırmalardaki gibi önceden belirlenen sorulara bağlı kalmak zorunda

olmaması durum çalışmasının başlıca avantajlarındandır. Diğer yandan, sonuçların

genellenebilirliğinin düşük olması, araştırmaya katılan, konu olan kurum ya da kişilerin

kimliklerinin gizlenmesinin zor olması ve raporlaştırma sürecinin geniş açıklama ve

betimlemelere ihtiyaç duyması ise durum çalışmalarının dezavantajlarındandır (Gall, Borg, &

Gall, 1996).

İnternet ve sosyal medyada ise durum çalışması gelenekselde olduğu gibi çok çeşitli

alanlarda yapılmaktadır ve geleneksel durum çalışmalarına benzerdir. Online odak gruplarıyla

69

eş zamanlı ya da eş zamansız yapılan görüşmeler, duyuru tahtası grupları veya e-posta

gruplarından incelenen durumla ilgili veriler toplanabilir. Çevrimiçi ortamlarda çok sayıda

derinlemesine görüşmeler birbirine paralel olarak ilerletilebilir. Özellikle online odak

gruplarının yüz yüze odak gruplarından daha az sayıda olması konunun derinlemesine

çalışılmasına olumlu etki etmektedir. Bunun yanında World of Warcraft gibi sanal

alemlerdeki aktif kullanıcı sayılarının 5 milyonu geçmesi ve bunun giderek artması da nitel

durum çalışmalarının sanal alemlerde daha da etkili olacağına işaret etmektedir (Poynter,

2012, s. 201).

Temellendirlmiş Kuram

Literatürde temellendirilmiş teori, kuram oluşturma, alt teori veya gömülü teori

olarak yer alan temellendirilmiş kuram, önceden bilinemeyen bir takım olguların, toplanan

verilere göre birbiriyle ilişkileri göz önüne alınarak açıklandığı bir modelleme çalışmasıdır.

Uygulamalı bir araştırma çeşidi olan temellendirilmiş kuramla varolan belli sorunları çözmek

ve bu sorunlar hakkında bilgiler geliştirerek ulaşılmak istenen yararın artırılması

hedeflenmektedir (Birgili, 2015, s. 105). Temellendirilmiş kuramın kesinlikle bir teori

olmadığını, onun tümavarım yoluyla teori üretme amacı taşıyan bir araştırma yöntemi

olduğunu ifade eden Punch (2005), temellendirilmiş kuramıın temel özelliklerinden birinin

veri toplama ve veri analizi arasındaki döngü olduğunu ifade etmektedir. Birkaç genel soruyla

alana giren araştırmacı elde ettiği veriyi hemen analiz ederek bu veri setinden elde ettiği

analizle diğerini karşılaştır. Kuram veri toplama, veri analizi süreçlerinin sürekli

paslaşmalarının bir ürünüdür. Veri analizi veri toplamanın ilk aşamalarında başlar ve sürekli

eş zamanlı olarak veri analizi yapılır. Verilerden elde edilen analizlere göre bir sonraki adım

atılır. Temellendirilmiş kuramın başka bir özelliğiyse teorik örneklem kullanmasıdır.

Araştırma devam ederken örneklemde değişiklikler yapılabilir, diğer araştırmalar gibi kesin

bir örneklemi yoktur. Bu yüzden örneklemin teorik olduğu ifade edilmektedir. Bunun yanında

temellendirilmiş kuram önceden belirlenmiş bir çerçevede çalışmaz, veri analiz edildikçe

verilerden elde edilen sonuçlara göre araştırma devam eder ve yeni çıkarımlar, yeni kavramlar

üretilir (Kaya, 2015, s. 243-244).

İnternet veya sosyal medya bağlamında temellendirilmiş kuram çalışmalarına

literatürde rastlanmamış olmasına rağmen bu tez bağlamında incelenmiş olmasının nedeni,

70

diğer araştırma yöntemlerinden farklı olarak Büyük Veri analizine benzer bir şekilde verilerin

toplanır toplanmaz eş zamanlı olarak analiz edilmesi ve verilerden elde edilen sonuçlara göre

araştırma sürecinin devam etmesidir. Sosyal bilimler araştırmalarında kullanılan başlıca analiz

yöntemleri ve teknikleri aşağıda açıklanmıştır. Analizlerde kullanılan yöntem ve teknikler çok

çeşitli olsa da, bu tez bağlamında temel olarak içerik analizi, söylem analizi ve bu analizlerin

yapılmasında yardımcı olan bilgisayar yazılımları olan Nvivo ile Atlas.ti ve ayrıca literatürde

en fazla yer verilen istatistiksel analiz teknikleri yer almıştır.

3.3. SOSYAL BİLİMLERDE ARAŞTIRMALARIN ANALİZLERİNDE

KULLANILAN TEKNİKLER

3.3.1. İçerik Analizi Bağlamında Karşılaştırma

İçerik analizi iletişim, sosyoloji, psikoloji, siyasal bilimler ve eğitim gibi farklı

alanlarda kullanılabilen bir analiz tekniğidir. İçerik analizi temelde tutum ve davranışları

doğrudan gözlemlemek, bireylere doğrudan sorular sormak yerine, kişilerin ortaya koydukları

iletişim materyallerinin ele alınıp incelenmesi ve analiz edilmesidir (Crano & Brewer, 2002).

Günümüzde bu iletişim materyalleri kitap, dergi, video, ses kaydı, e-mailler, mesajlar, sosyal

medya paylaşımlarından haber ve gazeteye kadar çok geniş bir yelpazededir. İçerik analizi

başka bir tanıma göre ise, nitel verilerin sistematik nicel veriye dönüştürülmesi ve istatistiksel

olarak betimlenmesidir (Öğülmüş, 1991, s. 214).

İçerik analizinin nesnellik, sistemlilik ve genellik olmak üzere üç temel özelliği

vardır. İçerik analizinin, aynı dokümanın analizinin farklı araştırmacılar tarafından yapılsa da

aynı sonucu vermesi için, nesnel olması gerekmektedir. Araştırmacının sadece kendi amacına

uygun olan verileri alarak analiz etmesi ve ortak özelliklerde verilerin analizinde aynı ölçeğin

kullanılması sistemlilik; bulguların kuramsal bir temele dayanması ise genellik özelliğidir.

İçerik analizinde aşağıdaki hipotezleri denemek amacıyla mesajlar analiz edilmektedir (Fiske

ve diğerleri, 2010).

İletişim metninin özellikleri hakkında çıkarsamalar yapmak (ne, nasıl, kime),

Mesajın nedenleri veya önceki koşullar hakkında çıkarsamalar yapmak (kim, niçin),

İletişimin etkisiyle ilgili çıkarsamalar yapmak (etkisi ne oldu?).

71

İçerik analizi genellikle diğer yöntemlerle birlikte kullanılır. Özellikle gözlem ve

görüşmelerden elde edilen verilerin analizinde kullanılmaktadır. İçerik analizinde takip

edilecek süreçler yapılacak analizin amacına göre ve analiz edilecek verinin türüne göre

farklılık göstermektedir. Ayrıca, içerik analizinde araştırmacı analize başlamadan önce

kategorileri belirler ama bu kategoriler toplanan verinin analizi süresince değişebilir.

Kategorilerin değiştirilebilmesi, nitel araştırmalar için daha kolayken, nicel araştırmalarda

içerik analizi yapılırken kategorileri değiştirmek daha zordur (Büyüköztürk ve diğerleri, 2014,

s. 241).

Teknolojik gelişmelerle birlikte, içerik analizi bilgisayar destekli yapılabilir

olmuştur. Özellikle Web 2.0 ile birlikte sosyal medya platformlarında kullanıcılar içerik üretir

olmuşlardır. Bu içeriklerin sistemli analizinde kullanılan içerik analizinde Geray, amacın

metinde geçen karakteristiklerin frekanslarını, nasıl sunulduklarını, içeriklerin biçimsel

özelliklerinin saptanması olduğunu ifade etmektedir (Geray, 2011, s. 136). Web içeriklerine

uygulanan içerik analiziyle geleneksel metinlere uygulanan içerik analizinin birbirine

benzediğini ifade eden Ackland (2013), örneklemlerin farklılığı üzerine durmaktadır.

Geleneksel çalışmalarda içerik analizi uygulanacak veriler akademik makaleler olabilirken,

web içerikli çalışmalarda örneklemler web siteleri, Facebook profilleri, gönderileri ya da

Twitter kullanıcıları, tweetleri yahut atılan ortak bir hashtag altındaki tüm tweetler olabilir.

İçerik analizinde açık içerik yazarın ne söylediği; örtülü içerik ise yazarın neyi kastettiği

üzerine yapılabilir. Açık içerik, metin içerisinde nesnel ve belirli olarak görülmektedir, ancak

örtülü içerik, net olarak görülememektedir. Açık içerik metin içerisinde nesnel ve belirli

olarak görülmektedir, ancak örtülü içerik ise net olarak görülememektedir. Niteliksel web

içerik analizi ise daha çok örtük içerik analizinde kullanılır. İnternet araştırmalarında açık

içerik daha çok web sitesinin ve yapının yapısıyla ilgilidir. İstatiksel analizler ve veri

madenciliği yöntemlerinde, kümeleme kullanılmaktadır (Ackland, 2013, s. 36-37).

Çeşitli istatistik tekniklerini de kullanan içerik analizlerinde bilgisayar yazılımlarını

kullanmak şart olmasa da araştırmacıya kolaylık sağlaması açısından günümüzde yapılan

birçok araştırmada çeşitli yazılımlar kullanılmaktadır. Özellikle sosyal bilimler dalında en çok

kullanılan yazılımların başında SPSS (Statistical Package for the Social Sciences)

gelmektedir. Çok geniş bir yelpazede istatistiksel analizler yapan SPSS betimsel ve çıkarımsal

72

istatistik testlerini ve veri indirgeme testlerini içermektedir. İstatistik analizlerin yanında,

tablo ve grafiklerle veriyi sunma, veri yönetimi, veri dökümantasyonu ve metin analizi gibi

çeşitli özellikler de SPSS’in önemli niteliklerindendir.

Araştırmalarda kullanılan yazılımların özellikleri, internetin gelişmesi ve

araştırmalarda ihtiyaç duyulan özelliklerin de eklenmesiyle sürekli olarak gelişmektedir. Bu

yüzden bazen yazılımlardan sadece biri yeterli olurken, bazen de birkaç yazılımı birlikte

kullanmak veya yazılımdaki sadece birkaç özellik araştırma için yeterli olabilmektedir. Hem

nicel hem nitel araştırmaların istatistiksel analizlerinde en çok tercih edilen program SPSS

iken, farklı yazılımlar da farklı amaçlar için kullanılabilmektedir. Nvivo ve Atlas.ti yazılımları

da özellikle nitel araştırmalar için geliştirilmiştir. Hem içerik, hem de söylem analizlerinde

kullanılan bu yazılımların özellikleri aşağıda belirtilmiştir.

Nvivo

Nicel araştırma yöntemleri için kullanılan SPSS programına benzer NVivo programı,

nitel araştırma yöntemlerini kullanan sosyal bilimciler için geliştirilmiş bir yazılımdır.

Yapılandırılmamış birçok veri formunu analiz etmeye yarayan bu paket program, güçlü

arama, sorgulama ve görselleştirme araçlarını kullanarak hızlı bir şekilde veri sorgulaması

yapar. Çakır’ın tanımına göre NVivo, bilgisayar teknolojileri aracılığıyla video, ses kaydı, e-

mail, fotoğraf, doküman gibi birçok veri ile çalışan kişilerin ihtiyaç duyduğu bir programdır.

NVivo sayesinde birbiri ile ilişkisi olan birçok veri analiz edilebilir, materyal daha kolay

anlaşılarak bilgiyi keşfetme, sınıflandırma ve arama sorguları yapılabilir (Çakır, s. 1-2).

NVivo ile bir fotoğraf detaylı bir şekilde incelenebilir, üstü örtülü bağlantılar açığa

çıkarılabilir, eldeki bulgular kesin bir şekilde doğrulanabilir ve kolay bir biçimde çalışmalar

paylaşılabilir. Veri düzenlemenin yanı sıra kategorilerin hiyerarşik organizasyonuna da olanak

sağlanmaktadır. NVivo ile Microsoft Ofis belgeleri, videolar, ses kayıtları, açılabilir,

düzenlenebilir ve bütün bir proje olarak kaydedilebilir. Küresel işbirliği imkânı sağlayan

NVivo farklı dillerde çalışma ve farklı insanlarla birlikte çalışabilmeyi kolaylaştırır

(QSRinternational, 2015).

Araştırmacılar, değerlendiriciler, politik danışmanlar, sosyal yardım uzmanları,

eğitimciler ve bunlar gibi yaklaşık 1,5 milyon civarında NVivo kullanıcısı bulunmaktadır.

73

NVivo röportajlardan, hedef grup mülakatlarından, anketlerden, ses kayıtlarından, sosyal

medyadan, video ve web sayfalarından içerik toplamaya, onları organize etmeye ve

çözümlemeye imkân tanır (QSRinterneational, 2015). Kolay bir arayüze sahip olan

Nvivo’nın arayüzü ve pencereleri Şekil 9’da gösterilmiştir.

Şekil 9: Nvivo Arayüzü

Kaynak:http://www.academia.edu/9092986/NVivo8_ile_Nitel_Ara%C5%9Ft%C4

%B1rma_Projeleri Saillard (2009)

Nitel veri analizi denildiğinde bu tür programlar araştırmacılar tarafından verileri

organize etmeye yarayan bir araç olarak algılanabiliyor. Fakat bu tür programlar kategorilerin

hiyerarşik düzenlenişinden daha fazlasına olanak tanımaktadır. Nvivo programının ara yüzü

şekilde görülmektedir. Program çalışma prensibi olarak Navigation View, List View ve Detail

View olmak üzere üç ayrı pencereden oluşmaktadır. Navigation View penceresinde

programın temel argümanları, yer almaktadır. Dosya içerikleri buradan takip edilebilir. List

View penceresinde belirli verilerin içeriklerine ulaşılabilir, öğe silme, çıkarma, ekleme gibi

işlemler yapılabilir. Detail View penceresi ile tüm verilere ulaşılabilir. Veri kaynağı

görüntülenebilir, kodlama yapılabilir (Saillard, 2009).

Detailed

View

Mönü

Çubuğu

List View

Navigation

View

74

Atlas.ti

Sosyal bilimlerde nitel araştırmalar yöntemlerinde yardımcı program olarak

kullanılan Atlas.ti, veri analizini ayrıntılı ve faydalı bir biçimde derlemeye yardımcı olur.

Programın çok yönlü araçları ile veriler sistematik bir şekilde düzenlenebilir, daha planlı

yönetilerek etkin sonuçlar elde edilebilir. Programın çalışma prensibi, PDF uzantılı dosya

türlerinin orijinal şekilde çalışmasına olanak sağlar. Çeşitli PDF dosyalarının temel verileri

hiç değişmeden saklanabileceği gibi, grafikler ve önemli içerikler muhafaza edilebilir. Ayrıca

Atlas.ti sayesinde çok fazla sayıda çevrimiçi kaynağa, elektronik kitaba ulaşılabilir. Master ve

doktora araştırma projelerinde, konu ile ilgili literatür doğrultusunda teoriler, araştırmalar,

sonuçlar ve kaynaklar Atlas.ti ile kodlanarak literatüre uygun olarak sonuçlandırılabilir.

Programla, yazılı metinler hareketli gifler ile birleştirilerek, yeni dosyalar üretilebilir (Anı

Yayıncılık Eğitim ve Danışmanlık, 2015). Örneğin araştırmada kullanılan bir video kaydı,

literatüre paralel derlenen bir metin ile birleştirilebilir. Atlas.ti’de deneme sürümünde süre

sınırlaması yoktur ancak yazılıma yüklenecek dosya sayısında ve kodlama gibi bazı

özelliklerde sınırlama mevcuttur. Şekil 10’da Atlas.ti’nin arayüzü ve proje yapılma esnasında

ekran görüntüleri gösterilmiştir.

75

Şekil 10: Atlas.ti Arayüzü ve Ekran Görüntüleri

Kaynak: http://i.ytimg.com/vi/TnIcCxAwqqg/maxresdefault.jpg (Erişim 11 Haziran

2015).

Sosyal bilimlerde nitel verileri raporlayabilmek için analitik bir program ile analiz

etmek gerekmektedir. Veri analizini verimli bir şekilde gerçekleştiren Atlas.ti, resim

anlamlandırma, istatistiksel çıkarımlar ve esnek çalışma mantığıyla işlevselliğini

korumaktadır. Veri analizinde çeşitlilik sağlayan yazılım Atlas.ti ile Şekil 6’da da görüldüğü

gibi metin, ses, resim, multimedya öğeleri çalışılabilmektedir. Bunun yanında kavram ve

ilişki haritaları çıkararak araştırmacılara kolaylıklar sunmaktadır (Atlasti, 2015).

3.3.2. Söylem Analizi Bağlamında Karşılaştırma

Söylem analizi, içerik içindeki söylemin niteliksel olarak ve kuramsal biçimlerde

analizidir. İçerik yazılı metin olabileceği gibi, görsel veya video gibi farklı formatlarda da

76

olabilir. En temel ifadeyle söylem analizi dilin incelenmesidir. Söylem analizinde dilin

incelenmesi, sadece sözcüklerin veya dilsel unsurların sıralanması değil; ifadelerin altında

yatan anlamların çıkarılması ve incelenmesidir. Van Dijk söylem analizinin, söylem ya da dil

kullanımının sadece biçimselliğiyle ilgilenmediğini, sosyal ve kültürel bağlam içinde iletişim

kuran dil kullanıcılarının oluşturduğu sosyal olayları da incelediğini ifade etmektedir (Çelik &

Ekşi, 2008, s. 105). İçeriğin anlamının ne olduğunun ortaya çıkarılması için anlambilimsel

(semantik), sözdizimsel (sentaks) ve simgebilimsel (semiyoji) analizin yapılması

gerekmektedir (Aziz, 2011, s. 137). Söylem analizinin temel kavramları Tablo 11’de

verilmiştir.

Tablo 11: Söylem Analizi Temel Kavramları

Anlambilimsel (Semantik)

Anlambilimsellik söylemleri, sözcük ve

cümlelerin dilbilimsel anlamlarıyla

ilişkilendirmek suretiyle açıklamayı içermektedir.

Anlambilim, metnin veya söylemin içinde ve

dışında yer alan bütün anlam ilişkilerini inceleyen

bir bilim dalıdır. Anlambilimde bu inceleme

yapılırken metin ile kullanıcısı arasındaki ilişkiler

de göz önünde tutulmaktadır.

Söz dizinsel (Sentaks)

Söz dizinsellik, sözcükleri gerek cümle içinde

gerekse ifadenin tamamında aldıkları yere göre

anlamlandırmayı hedeflemektedir. Bir sözcüğün

cümlenin başında veya sonunda yer alması veya

bir cümlenin ifadenin ortasında veya sonunda

bulunması o ifadenin anlamlandırılmasında

farklılıklar ortaya çıkarmaktadır.

Göstergebilim (Semiyoloji)

Göstergebilim, söylemin analiz edilmesinde

simgelerden yararlanmayı amaçlar. Göstergebilim

bir metni ya da söylemi çözümlerken, kendi

içerisinde tutarlı, metnin anlam evrenine, yüzeysel

ve derin düzeylerdeki yapısına açıklık getirmeye

yönelik bir sistematik izlemekte, kullandığı

çözümleme araçlarıyla belirlediklerini hep

denetlemektedir.

Kaynak: Çelik & Ekşi (2008, s. 107)

Van Dijk, söylem analizini daha çok haberler üzerine yapmaktadır. Bunun nedeni,

haberleri bir tür olarak değil, söylem olarak nitelendirmesi ve haberleri toplumdaki egemen

77

söylemlerin çıktısı olarak görmesidir. Bu nedenle söylem analizini makro ve mikro yapı

olmak üzere ikiye ayırmaktadır (Çomu & Halaiqa, 2014, s. 47-48).

Özer, Van Dijk’ın söylem analiz modelini tablolaştırarak aşağıdaki gibi

açıklamaktadır.

Şekil 11: Van Dijk’in Söylem Analizi

Kaynak: Özer, Ö. (2009, s. 92). Eleştirel Haber Çözümlemeler. Eskişehir: Anadolu

Üniversitesi İletişim Bilimleri Fakültesi Yayınları.

Web 2.0’nin sahip olduğu etkileşim özelliği sayesinde, çeşitli sosyal medya

araçlarında söylem analizleri yapılabilmektedir. Her bir sosyal medya aracının uygulaması ve

sistemi, kendine has özellikler sergiler. Örneğin video paylaşım ağı olan YouTube’da

kullanıcılar paylaşılan videolar sayesinde, Facebook gibi sosyal ağlarda ise daha çok

çevrimdışı tanıdıkları ile sahip oldukları ilişki sayesinde, LinkedIn gibi ağlarda ise

profesyonel iş yaşamı vasıtasıyla etkileşimler kurulmaktadır. Bu yüzden internet ve sosyal

medya üzerinde yapılacak araştırmaların söylem analizi yapılacak ağın mimarisinden ve

78

bağlamdan bağımsız tasarlanması eksikliklere yol açacaktır (Çomu & Halaiqa, 2014, s. 51-

52). Bu bağlamda araştırmacının, hızla gelişen Web 2.0 uygulamalarını ve arayüzlerde

yapılan değişikleri ve dönüşümleri hesaba katarak, söylem analizi şablonu oluşturmalıdır.

Örneğin Bayraktutan ve diğerleri (2013) tarafından Twitter için geliştirdikleri söylem analizi

şablonu Şekil 12’de gösterilmiştir.

Şekil 12: Twitter Söylem Analizi Çözümleme Şablonu

Kaynak: Bayraktutan, G., Binark, M., Aydemir, A. T., Doğu, B., Çomu, T., & İslamoğlu, G.

(2013, s. 183). Sosyal Medya Ortamlarının Siyasal İletişim Uygulamaları Açısından

İncelenmesi: Türkiye'de 2011 Genel Seçimlerinde Facebook ve Twitter'in Siyasi

Partiler ve Liderler Tarafından Kullanılması. Ankara: Tübitak.

Http://Uvt.Ulakbim.Gov.Tr/Uvt/İndex.Php?Cwid=3&Vtadi=TPRJ&S_F=_5&Detailed

=1&Keyword=159193 Adresinden Alınmıştır

Twitter’ın 140 karakterle sınırlı olması nedeniyle her bir tweet tam bir metin

olmayabilir. Bu yüzden Van Dijk’ın söylem analizine uyarlanırken bazı unsurlar çıkarılmıştır.

Tematik yapıda tweet atan kişinin hesap tanımı, varsa kendini tanımlamak için profilinde yer

alan tüm bilgiler ve internette kendi hesabında verdiği bağlantılardan oluşturmaktadır. Mikro

yapı analizi ise kullanıcının attığı tweetin bağlamından, cümle yapısına, içinde geçen ifadeyle

79

bağlam ilişkisine, kelimelerin anlamlarına, kullanıcının daha önce attığı tweetlerle olan

bağlantısına ve tweet içinde yer alan görsellere kadar çeşitli unsurları içermektedir. Büyük

Veri analiz yöntemlerinde doğal dil işleme, metin madenciliği ve fikir madenciliği yöntemleri

de söylem analiziyle ilişkilidir. Geleneksel analizde, araştırmacı daha önce belirlediği

kodlamalara göre veri girişini ve analizleri kendisi yaparken, internet ve sosyal medya

araştırmalarında bu analizler bilgisayarlar tarafından yapılmaktadır. Bu analizleri yapan

uygulamalar gelişim göstermektedir ve özellikle finans, pazarlama, politika gibi çeşitli

disiplinlerde bu uygulamaların kullanımı gelişmektedir.

3.3.3. İnternet Araştırmalarında Büyük Veri Analizi

3.3.3.1. İstatistiksel Analiz Teknikleri

İstatistik kavramı Oxford İstatistik Terimler Sözlüğüne göre belirli bir amaç için

verilerin toplanması, sınıflandırılması, çözümlenmesi ve sonuçlarının yorumlanması esasına

dayanan bir bilimdir (Dodge, 2006). TDK’a göre ise istatistik; ilkelerini olasılık

kuramlarından alarak eldeki verileri grafik ve sayı biçiminde değerlendirmeye dayandıran

matematiğin uygulamalı dalı, sayım bilimi olarak ifade edilmektedir. İstatistik bilim, sosyal

bilimlerden doğa bilimlerine kadar birçok alanda kullanılmaktadır. Bilimsel araştırmalarda

anket veya diğer veri toplama araçları yardımıyla toplanan verilerin analizinde, karar

vermede, kalite kontrolde ve geleceğe yönelik tahminlerde kullanılmaktadır (Bluman, 2009, s.

3). İstatistik disiplinler arası bir kavram olması nedeniyle farklı alanlarla birleşerek yeni

alanların ortaya çıkmasına neden olmuştur. Örneğin ekonomiyle birleşerek ekonometri, tıp ile

birleşerek biyoistatistik alanları oluşmuştur. Aynı zamanda istatistik verilerden bir sonuca

varılabilmesi ile ilgili olarak kullanılan bilimsel metotlar topluluğudur (Sütcü,

cemsutcu.wordpress.com, 2013).

İstatistik, verinin kullanımına göre betimsel istatistik ve çıkarımsal istatistik olarak

ikiye ayrılmaktadır. Betimsel istatistik verinin toplanması, özetlenmesi, tablo ve grafikler

yardımıyla gösterilmesi ve veriye ait özelliklerin ortaya koyulmasını içermektedir. Frekanslar,

merkezi eğilim ölçüleri, merkezi yayılım ölçüleri betimsel istatistiğin bileşenlerindendir.

Betimsel istatistikte mevcut durum grafikler, tablolar ve çeşitli istatistiksel yöntem ve

tekniklerle betimlenmeye çalışılır. Örneğin nüfus sayımlarıyla birlikte o nüfusa ait ortalama

yaş, ölüm yaş ortalaması, eğitim durumu gibi özellikler hakkında bilgiler verir. Çıkarımsal

80

istatistik ise örneklemden anakütle hakkında genellemeler yapmayı, değişkenler arasındaki

ilişkilerin belirlenmesini, varsayımlar yaparak onların doğruluğunu test etmeyi ve ileriye

dönük tahminler yapmayı kapsar. Olasılık hesaplamalarında kullanılan çıkarımsal istatistikte,

örneklemden anakütle hakkında çıkarımlar yapılmaya çalışılır (Bluman, 2009, s. 3-4).

Örnekleme yapılmasının nedenleri, temelde anakütlenin büyük olması ve dolayısıyla tüm

bireyleri incelemenin zor olmasıdır. Diğer nedenleri ise, tüm elemanları kontrol etmenin

fiziksel zorluğu, tüm anakütleye ulaşımın maliyeti ve zaman alması, bazı testlerin yok edici

özelliği olması ve çoğunlukla örnek sonuçlarının anakütleyi temsil edebilmesidir (Gamgam,

Ekni, & Esin, 2006, s. 9).

Anakütlenin temsil edilmesinde örneklemin sahip olduğu değişkenler önemlidir.

İstatistiksel analizlerde tek değişken olabileceği gibi iki ya da çok sayıda değişken de olabilir.

Özellikle, bilim ve teknolojinin gelişmesiyle birlikte problemlerin karmaşıklığı artmıştır ve bu

problemlerin çözümlerinde tek değişkenli analizler yeterli gelmemeye başlamıştır. Tek

değişkenli analizlerde genel olarak kabul edilen varsayım diğer değişkenlerin sabit kabul

edilerek tek bir faktörün analizin yapılmasıdır. Fakat yapılan araştırmalar ve incelemeler

doğrultusunda sadece tek bir faktörün etkisiyle değil, birçok faktörün etkisi ile bu karmaşıklık

oluşmakta ve dolayısıyla çözüm de karmaşık bir yapı göstermektedir. Ancak herhangi bir

araştırmada -değişken sayıların birden fazla olduğu durumlarda- tek değişkenli analizleri

kullanmak yeterli olmamakta; işlemlerin uzun sürmesine ve daha çok hatanın yapılmasına

sebep olmaktadır. Bundan dolayı tek değişkenli analiz yerine iki ya da çok değişkenli

analizlerin kullanılması daha etkili olmaktadır. Sheth (1971)’a göre çok değişkenli analiz,

örnek üzerinde ikiden fazla değişkeni eş zamanlı çözümleyen tüm istatistik teknikleridir

(Daşdemir & Güngör, 2002, s. 1-2).

Shaw (2009) tek değişkenli, iki değişkenli ve çok değişkenli analiz tekniklerini Tablo

12’deki gibi sınıflandırmaktadır.

81

Tablo 12:Tek Değişkenli, İki Değişkenli ve Çok Değişkenli Analiz Teknikleri

Tek Değişkenli Veri İki Değişkenli Veri

Çok Değişkenli

Veri

Değişken Sayısı Tek İki Üç ya da daha çok

Betimsel İstatistik

Ölçülmüş tek bir değişkenin değeri veya

dağılımına yönelik bilgi.

(merkezi eğilim ve merkezi dağılım

ölçüleri)

İki bağımsız değişken arasındaki ilişkiyi

tanımlayan sayısal bir

fonksiyon.

Birçok sayıda değişken arasındaki

ya da değişkenler

içerisindeki örnekleri tanımlayan

sayısal bir

fonksiyon.

Çıkarımsal İstatistik

Tek bir değişken için

bulunan gözlemlenmiş

örnekler temel alınarak elde edilmiş olasılık

hesaplamaları

(t testi, Mann-Whitney

U testi, varyans analizi).

İki değişken arasında

bulunan gözlemlenmiş

örnekler temel alınarak elde edilen olasılık

hesaplamaları

(Spearman ya da

Pearson’un iki değişkenli korelasyon

katsayısı).

Birçok sayıda

değişken arasında

bulunan örnekler temel alınarak elde

edilen olasılık

hesaplamaları

Kaynak: Peter J. A., (2009)

Literatürde yoğun olarak kullanılan istatistiksel yöntem ve teknikler şunlardır;

Aritmetik ortalama (Mean): Örneklemdeki verilerin aldıkları değerlerin toplanıp

denek sayısına bölünmesi ile elde edilir.

Ortanca (Median): Büyüklük sıralamasına göre dizilmiş bir ölçüm ya da veri setinin

orta noktasındaki değerdir. Veri setinin üst yarısını alt yarısından ayıran değer olarak

da ifade edilir. Ortanca ortalamaya göre uç değerlere karşı daha az duyarlıdır. Bu

yüzden çarpık dağılımlarda ortalamaya göre daha iyi bir merkezi eğilim ölçüsüdür.

Tepe Değeri (Mode): Veri setinde en çok tekrar eden ya da en büyük frekansa sahip

olan değerdir. Ortalama ve ortanca hesaplanamadığı durumlarda, yani kategorik

ölçekli verilerde kullanılır.

Değer Aralığı (Range): Veri setindeki en büyük değer ile en küçük değer arasındaki

açıklık, farktır.

Standart Sapma ve Varyans (Standard Deviation &Variance): En güvenilir

değişim ölçüsü olan standart sapma; verilerin veri seti ortalamasından ne kadar uzakta

82

olduğunu, ne kadar saptığını ifade eder. Varyans ise standart sapmanın karesidir. Bir

veri setinde standart sapma küçükse veri setindeki değerler ortalamaya yakındır, yani

sapmalar azdır.

Korelasyon (Correlation): İki değişken arasındaki ilişkinin kuvvetini ve ilişkinin

yönünü belirlemek için kullanılır. Korelasyon katsayısı (r) -1 ≤ r ≤ +1 arasında bir

değer alır ve mutlak olarak 1’e yaklaştıkça değişkenler arasındaki ilişkinin kuvvetinin

arttığı söylenir. Değerin işareti ilişkinin yönünü tayin eder. Nicel veriler için Pearson’s

r eğer değişkenler nitel ise Spearman rho değerleri kullanılır (Durucasu, 2013, s. 132)

z Skor Testi (z score): Z skore bir değerin ortalamadan kaç tane standart sapma kadar

saptığını belirtmektedir. Standart sapmada birbirinden farklı ölçü birimlerinin

karşılaştırılmasında kullanılan z skor, bütün veri setindeki birimlerin ortak bir birim

aralığında yayılmasını sağlar (Göçmen, 2012, s. 9).

t Testi (t-test): Bir grubun aritmetik ortalamasının belirli bir değerle karşılaştırılması

veya iki grubun ortalamalarının istatistiksel olarak birbirinden farklı olup olmadığının

analiz edilmesinde kullanılır. T testinin uygulanabilmesi için parametrik test

varsayımlarının normallik ve varyansların homojenliğinin sağlanması gerekmektedir.

Niceliksel değerleri karşılaştırılacak grupların bağımlı ve bağımsız olmaları

uygulanacak testin modelini değiştirir. Örneğin istatistik sınavı not ortalamaları ile

cinsiyetler arasında fark olup olmadığı test edilirken kullanılan model ile aynı gruba

farklı zamanlarda uygulanan testlerin sonuçlarını karşılaştırırken kullanılan modeller

farklıdır (Özmen, 2013, s. 85-86).

Varyans Analizi (ANOVA): Varyans Analizi (ANOVA) üç ya da daha fazla grubun

veya değişkenin ortalamalarının farklı olup olmadığını test etmek için kullanılan

çıkarımsal istatistiksel bir yöntemdir. T testinin çoklu gruplar için uygulanan

yöntemidir. Tek yönlü varyans analizinde bağımlı değişkenin “nicel” ve bağımsız

değişkenlerin “kategorik” olması şarttır. Örneğin üç farklı öğretim tekniğinin

uygulandığı bir okulda öğrencilerin final notlarının farklılık gösterip göstermediğini

araştırmak için uygulanır (Özmen, 2013, s. 93).

Mann–Whitney U ve Kruskal-Wallis Testleri: İki bağımsız örneklem T testinin ve

tek yönlü varyans analizinin alternatifi olan non parametrik testlerdir. Mann- Whitney

iki bağımsız grup arasında bir değişkenin farklılık gösterip göstermediğini, Kruskal-

83

Wallis ise üç ya da daha fazla gruba ait değişkenin gruplar arasında farklılık gösterip

göstermediğini test eder. Her ikisi de sıralı ölçekte girilen değişkenlerde kullanılır.

Ki Kare Test (Chi-square Test): Nitel değişkenler arasında herhangi bir bağımlılık

ve ilişki olup olmadığının test edilmesinde kullanılır. Ayrıca iki ya da daha fazla

örneklemin aynı anakütleden seçilip seçilmediğini ve herhangi bir örneklemin,

anakütlesini iyi temsil edip etmediğini belirlemek için Ki-Kare Testi uygulanır (Şıklar,

2013, s. 105).

Regresyon Analizi (Regression): İlişki içinde olan değişkenlerin ilişkilerini

belirlemek ve bu ilişkileri kullanarak konuyla ilgili tahminler ve geleceğe yönelik

çıkarımlar yapmak için kullanılan istatistiksel metotlardır. Bağımsız değişken sayısı

birse basit regresyon, birden fazla bağımsız değişken olması durumunda ise çoklu

regresyon analizi uygulanır (Durucasu, 2013, s. 117-118). Bağımsız değişkenlerden

birinin değişmesi durumunda bağımlı değişkenlerin nasıl etkilendiği üzerinde durulur

ve özellikle makine öğreniminde kullanılır (Bluman, 2009, s. 310). Genel olarak

regresyon analizinde neden-sonuç ilişkisi ve matematiksel bir formül yer aldığı için

bağımlı ve bağımsız değişkenlerin sayısal büyüklükte olması gerekmektedir.

Çok Değişkenli Varyans Analizi (MANOVA): Birden fazla sürekli bağımsız

değişkenin bağımlı değişken üzerindeki etkisini ölçmek için kullanılır. Tek değişkenli

varyans analizinde tek bir tane bağımlı değişken varken, MANOVA’da bir iki veya

daha fazla bağımlı değişken olabilir. Varyans analizinin yapılabilmesi için verilerin

dağılımının normal ve homojen olması gerekmektedir.

Faktör Analizi (Factor Analysis): Veri seti içerisindeki değişkenlerin karşılıklı

ilişkilerinin analizinde ve bu birbiriyle ilişkili çok sayıda değişkeni, daha az sayıda

anlamlı ve birbirinden bağımsız faktörlere indirgemede kullanılan çok değişkenli bir

analiz tekniğidir. Diğer yandan, analizde tanımlanan faktörler ile yüksek korelasyona

sahip ölçülebilir değişkenleri bulmak da amaçlanır (Tabachnick & Fidel, 1996).

Birbiriyle yüksek derecede ilişkisi olan değişkenleri belirleyen ve onları aynı faktör

altında toparlayan bir tekniktir.

Temel Bileşenler Analizi (Principal Components Analysis): Çok sayıda değişkenin

incelendiği çok değişkenli istatistiksel analizlerde, değişkenler arasındaki ilişkiler söz

konusu olabilmektedir. Bu durum bağımsızlık kuralını etkilemektedir. Çok sayıda

84

değişkenle çalışılmasından dolayı veri analizini zorlaşmaktadır. Temel bileşenler

analizi, değişkenler arasındaki bağımlılık ve ilişki yapısının yok edilmesini ve boyut

indirgemesini kapsayan tekniktir (Pektaş, 2013, s. 127).

Ayırma Analizi (Discriminant Analysis): Ayrıma analizi, veri setindeki gruplar

arasındaki farklıklara neden olan değişkenlerin belirlenmesini ve hangi gruptan geldiği

belli olmayan değerlerin hangi gruba ait olduğunu belirlenmesinde kullanılan

tekniktir. Bilgisayar desteği olmadan yapmanın imkansız olabileceği bu yöntem

bankalarda kredi skorlamada kullanılmaktadır. Kümeleme yöntemine çok benzeyen

ayırma analizinde, kümeleme analizinde önceden gruplar belirlenmemişken, ayırma

analizinde daha önceden ayrık gruplar belirlenmiştir (Weber, 2001, s. 62). Böylece

eldeki veri özelliğine göre daha önceden belirlenen hangi gruba yakınsa, o grubun

elemanı olarak atanır.

Kümeleme Analizi (Cluster Analysis): Yapısı hakkında kesin bilgilerin bulunmadığı

bir veri seti içindeki grupları ve/veya değişkenleri, birbirine benzer ve sayısı

belirlenmemiş alt kümelere ayırma yöntemidir. Aynı zamanda birbirine benzemeyen

değişkenler ayrıştırılmaktadır. Kümeleme Analizinde “benzerlik” ve “uzaklık”

kavramları önem kazanmaktadır. Kümeleme analizi, bir objeler kümesini, objeler arası

benzerlikleri temel alarak, daha homojen alt kümeleme, taksim etme işinde kullanılan

teknikler bütünüdür. Analiz birim ya da değişken gruplaşmalarının kesin olarak

bilinmediği durumlarda uygulanmakta ve analiz öncesinde tahmini bir sınıflama

yapılmamaktadır (Thiprungsri & Vasarhelyi, 2011, s. 69-70).

Zaman Serileri (Time Series): Zaman serisi herhangi bir olaya ilişkin elde edilen

değerlerin zamana göre sıralanmasıyla oluşturulan dizilerdir. Zaman serisi analizi

herhangi bir zaman serisinin yapısını modellemeyi, seride var olan düzensiz görünüm

veya dalgalanmaların nedenini belirlemeyi ve geçmiş dönemlere ilişkin değerleri

kullanarak geleceğe yönelik tahminler ve öngörüler oluşturmayı amaçlayan bir

metottur (Atlas, 2013, s. 139-140, Pektaş, 2013, s. 154). Zaman serisi analizleri

işletme, ekonomi, finans, doğa bilimleri ve pazarlama gibi birçok alanda geleceğe

dönük kararlar alımında kullanılmaktadır. Zaman serileri yıllık, aylık, günlük hatta

saatlik bile olabilmektedir. Burada önemli olan zaman değişkeninin aynı aralıklarda

olmasıdır, yani seri eğer aylık verilerden oluşuyorsa ardışık aylardan oluşmalıdır.

85

Zaman serisinin uzun bir dönemde belli bir yöne doğru gösterdiği eğilim; trend olarak

ifade edilmektedir. Trendler, özellikle zaman serisi grafiklerinde belli olmaktadır.

Trend denkleminin belirlenmesiyle, geleceğe dönük öngörüler oluşturma imkanı

sağlanır (Atlas, 2013, s. 159).

Tüm bu istatistiksel analizlerde veri kullanılmaktadır. Aşağıda Büyük Veri analiz

süreci ve teknikleri anlatılarak, istatistiksel analiz teknikleri ve sosyal bilimlerdeki araştırma

yöntemleriyle ilişkileri tartışılacaktır.

3.3.3.2. Büyük Veri Analiz Süreci

Bilişim teknolojilerinin gelişmesiyle birlikte üretilen veri miktarı hızla artmaktadır.

Ortaya çıkan devasa miktardaki ve birbirinden farklı yapılardaki verilerin analiz edilmesi de

teknolojik gelişmelerle sağlanmaktadır. Verinin analiz edilmesi tarih boyunca doğru karar

vermede etkili olmuştur. Verinin doğasında dağınıklık, karmaşıklık vardır, önemli olan bu

gibi zorlukları görerek veriye düzen vermek ve sahip olduğu değeri çıkarmaktır. Veri analizi;

verinin toplanmasından, düzenlenmesine, modellenmesinden sahip olduğu bilgiyi, değeri

ortaya çıkarmaya kadar olan bir dizi süreci ifade eder. Veri analizi de veri gibi disiplinler arası

bir kavram olduğu için farklı alanlarda farklı rollere sahiptir. Örneğin; iş zekası adı altında

işletme enformasyonlarıyla en doğru kararları vermede, yapay zeka ve makine öğreniminde

geleceği tahmin etmede, bazen veri madenciliği adı altında geleceğin tahmini için verideki

örüntüyü çıkarmada, bazen de istatistik alanında betimsel, çıkarımsal, doğrulayıcı olarak rol

oynamaktadır (Akpınar, 2014, s. 47).

Veri analizi farklı disiplinlerde farklı rollere sahip olsa da, işlevi temelde veriden

bilgiye ulaşmak, verinin sahip olduğu değer ve öngörüyü keşfetmek ve veride yatan deseni

çıkararak doğru kararlar vermek ve geleceği tahmin etmektir. Bunun için çeşitli istatistik ve

matematiksel yöntemler kullanılır. Ancak klasik anlamda istatistikte kullanılan veriler

yapılandırılmış ve satırlar-sütunlardan oluşmaktadır. Büyük Veri’de ise ham veri

yapılandırılmamış veya yarı yapılandırılmış yapıda olabilir. Yapılandırılmış veriler veri

tabanlarına kaydedilirken, Büyük Veri genellikle veri ambarlarında kaydedilmektedir. Veri

ambarları ise, veri madenciliği ve Büyük Veri analiz sürecinin gerçekleştirildiği veriyi tutan

özel veritabanlarıdır. Veri Ambarı, farklı kaynaklardan gelen ve genellikle de farklı

yapılardaki verinin depolandığı ve hepsinin aynı anda işlenebildiği veri tabanlarıdır (Fayyad

86

ve diğerleri, 1996). Veri ambarında saklanan veri, akan yani anlık veya gerçek zamana yakın

olarak üretilebilen bir özellikte olabilir. Veri ambarlarını analiz etmenin popüler

yöntemlerinden birisi Online Analytical Processing (OLAP)’dir. OLAP araçları, birçok

boyutta hesap özetleri ve tanımlamalarda SQL’den üstün olan çok boyutlu veri analizi sağlar.

OLAP araçları interaktif veri analizi sağlamayı hedeflediği halde, veritabanındaki araçların

hedefi süreci mümkün olduğunca otomatikleştirmektir (Cabena ve diğerleri, 1997, s. 195). Bu

yüzden de Büyük Veri’yi analiz etmek için daha teknolojik, daha özel analiz yöntemlerine,

algoritmalarına ihtiyaç duyulmaktadır. Bu özelliklere sahip olan Büyük Veri, veri biliminin de

ortaya çıkmasına sebep olmuştur (Gürsakal, 2014, s. 36-38). Büyük Veri analizi ile veri

madenciliği süreçleri aynı olup, tanımları arasında birçok ortaklıkları olsa da küçük

farklılıklar vardır. Bu farklılıklara veri madenciliği bölümünde değinilmiştir.

Veri analizi farklı görüşlere göre farklı süreçler içermektedir. Bu çalışmada Akpınar

(2014)’e göre olan veri analiz süreçleri baz alınmaktadır. Akpınar bu süreci, problemin

tanımlanması, verinin hazırlanması, modelin kurulması, yazılımın uygulanması ve yorumlama

olarak aşamalandırmıştır. Bu süreç incelenip, bu bağlamda sosyal bilimlerde araştırma

yöntemleri ve süreciyle de ortak noktalara değinilecektir. Daha sonra Büyük Veri analiz

yöntemleriyle sosyal bilimlerdeki analiz yöntemleri tartışılacaktır.

Problemi Belirlemek

Büyük Veri analizinin ilk şartı problemin belirlenmesidir. Problem belirlenmesi

araştırmanın ve araştırma analizinin gidişatını belirlemektedir. Hem sosyal bilimlerde hem de

Büyük Veri analiz süreçlerinde ortak olan problemin belirlenmesi aşamasında çözüme yönelik

amaç net bir şekilde ifade edilmelidir. Sosyal bilimlerde problem belirlendikten sonra

hipotezler kurulup, toplanan verilerle önceden belirlenen bu hipotezleri test etmek için

istatistiksel analizler yapılır. Ancak Büyük Veri analizinde problem ve amaç ortaya

konduktan sonra veriler toplanır ve toplanan verilerden ilişkiler, desenler, içgörüler

keşfedilebilmektedir (Oğuzlar, 2003).

87

Verinin Toplanması ve Ön İşleme Süreci

Problem belirlendikten sonra verinin elde edilmesi ve hazırlanması süreci başlar. Bu

süreç Büyük Veri analizlerinde toplam enerji ve zamanın %50 - %85’ini harcanmasına neden

olmaktadır (Akpınar, 2014, s. 77). Bu süreç Şekil 13’te gösterilmektedir.

Şekil 13: Veri Ön İşleme Aşamaları

Kaynak: Akpınar, H. (2014, s. 89). Data. İstanbul: Papatya Yayıncılık.

Veri ön işleme süreci veri entegrasyonu, veri temizleme, veri dönüştürme ve veri

indirgeme aşamalarını kapsamaktadır. Bu aşamalar aşağıda sırasıyla açıklanmaktadır.

Veri Entegrasyonu

Verinin birçok kaynaktan toplanması, seçilmesi ve bütünleştirilerek tek bir kaynakta

bir yerde bir araya getirilme adımıdır. Veri tabanları, veri ambarları, data mart ve bulut

bilişim gibi sistemlerde saklanmaktadır. Veri entegrasyonu farklı veri depolarında bulunan

verilerin bir araya getirilmesi ve tek kaynaktan kullanılması analiz sürecinde kolaylık

sağlamaktadır. Bilişim teknolojilerinin gelişmesiyle birlikte entegrasyon süreçleri ve

Veri Entegrasyo

nu

•Veri Konsolidasyonu

•Veri Yayınımı

•Veri Federasyonu

Veri Temizleme

•Veri Tutarsızlıklarının Saptanması

•Veride Parazit Azaltımı

•Eksik Verinin Tamamlanması

•Sıra Dışı Değer Analizi

Veri Dönüştürm

e

•Veri Normalleştirme

•Veri Standardizasyonu

•Sürekli Veri Dizisi Değerlerinin Kategorizasyonu

Veri İndirgeme

•Boyut Sayısının Azaltılması

•Öznitelik Alt Dizisinin Seçilmesi

•Faktör Analizi

•Örnekleme

İşleme

Hazır Veri

Gerçek

Dünya

Verisi

88

yöntemleri gelişmiştir. Veri entegrasyonu; veri konsolidasyonu(data consolidation), veri

yayınımı (data propagation) ve veri federasyonu (data federation) olmak üzere üç farklı

şekilde yapılmaktadır (Akpınar, 2014, s. 89-96).

Veri Konsolidasyonu faklı kaynaklarda yer alan verilerin tek bir fiziki kaynakta

birleştirilmesi

Veri Yayınımı farklı veri depolarında bulunan verilerin kopyalarının çıkartılması

ve kullanılmasını

Veri federasyonu ise farklı kaynaklarda bulunan verilerin sanal olarak

birleştirilmesidir. Bulut bilişim teknolojileridir.

Sosyal bilimlerdeki nicel, nitel veya karma araştırmalarda da toplanan verilerin bir

araya getirilmesi ve tek kaynaktan devam etmesi durumu mevcuttur. Örneğin bir nicel

araştırmada veri toplama araçlarından biri olan ankette, veriler yüz yüze, telefon yoluyla, e-

mail yoluyla ve internet üzerinden toplanabilir. Anket verilerinin toplama yöntemleri farklı

olsa da tek bir depoda toplanıp analiz edilmesi araştırmaya kolaylık sağlayacaktır.

Veri Temizleme

Analizin amacına uygun olarak verilerin istenen özellikleri dışında, verideki

parazitlerin temizlenmesi, eksik verilerin düzeltilmesi, verilerdeki tutarsızlıkların saptanıp

giderilmesi, tekrarlı kayıtlardaki verilerin temizlenmesi sürecidir. Bu süreçte izlenecek

yöntemler;

Hatalı değer içeren verilerin atılması ve ihmal edilmesi

Kayıp değerlerin yerine sabit bir değer kullanılması

Değişkenin ortalama değerinin eksik değerler yerine kullanımı

Mevcut verilerle regresyon veya karar ağacı gibi yöntemlerle tahminler yapılıp, eksik

verilerin yerine bu tahmin sonuçları kullanılabilir (Han ve diğerleri, 2012, s. 61-62)

Veri Dönüştürme

Veri dönüştürme, verilerden doğru sonuçlar elde etmek için uygulanacak analiz

yöntemine göre verilerin uygun formlara dönüştürülme sürecidir. Bu süreçte verinin farklı

89

yöntemler kullanılmaktadır ve en çok kullanılan yöntemler ise veri normalleştirmesi ve veri

standartlaştırması ve sürekli veri dizisi değerlerinin kategorileştirilmesidir.

Veri normalizasyonu ve standardizasyonu en sık kullanılan ve veri dizisinde bulunan

değerlerinin min-max normalleştirme yöntemiyle [0,+1] arasında değerlere

dönüştürülmesi veya değerlerin z-skorlarının hesaplanarak yapılan dönüştürme şekilde

dönüştür işlemidir.

Sürekli veri dizisi değerlerinin kategorilere ayırma işlemi ise verilerin aralık etiketleri

veya kavramsal etiketlerle dönüştürmektir. Örneğin yaş verilerinin 0-20, 20-40 ve 40-

60 gibi aralıklara veya genç/orta yaş/yaşlı gibi kavramlara dönüştürülmesidir.

Veri İndirgeme

Veri hacminin çok büyümesi ve verinin günümüzde sadece miktarı değil veri hızı,

veri çeşitliliği gibi farklı boyutlarıda olması verinin analizini güçlendirmektedir. Verinin sahip

olduğu değişkenlerin, boyutun farklı yöntemlerle azaltılmasına veri indirgemesi denmektedir.

Bunu yaparken aşağıdaki yöntemlerden faydalanılmaktadır (Özkan, 2013, s. 41-42).

Verilerin boyutlarını ve boyut sayısını indirgemek; kendi içinde yüksek

korelasyona sahip verilerin tekrar tekrar kullanılması yerine bu verilerin

temel özniteliklerine uygun temsil edilmesidir. Bu indirgemede analize dâhil

edilecek boyut sayısını belirlemek için makine öğrenimi ve istatistikte faktör

analiz yöntemleri uygundur.

Örnekleme; eldeki toplam verinin belirli bir kısmı çeşitli yöntemlerle

seçilerek ana kütleyi temsil etmesidir.

Veri sıkıştırma, veriyi genelleme gibi farklı yöntemlerde mevcuttur.

Gelişen teknolojiyle birlikte Google veri indirgemede Eşleİndirge (MapReduce)

adında modelini geliştirdi. Bu model Büyük Veri analizinde de en çok bilinen çerçevelerden

biri olan Hadoop’un iki bileşeninden biridir. Eşle (map), indirge (reduce) olan bu modelde

büyük ölçekli veriler analiz öncesinde parçalara ayırarak sunucululara dağıtılmaktadır. Bu

sunuculara düğüm adı verilmektedir. Daha sonra bu sistemler paralel olarak çalışırlar çünkü

paralel çalışmaları her hangi bir arızada sistem kendini tolere edebiliyor olmasını

90

sağlamaktadır. Sunuculardaki veriler, uygulanan eşle fonksiyon kodlarına göre <anahtar,

değer> çiftlerine dönüştürülür. Her bir eşle ile oluşan bütün çiftlerinde aynı anahtar değeri

eşlenip, oluşan çiftelerde indirgenir (Rajaraman ve diğerleri, 2014).

Model Uygulama ve Sonucun Değerlendirilmesi

Veri işleme hazır hale getirildikten sonra amaca ve verilere uygun analiz edecek

model belirlenir, sonra gereken teknik ve yöntem uygulanır. Bu yöntemler birbiriyle

ilişkilidirler ve veriye tek bir yöntem uygulanabildiği gibi birkaç yöntem birlikte

uygulanabilir. Sınıflandırma, kümeleme, regresyon gibi bazı yöntemler ve istatistikle

yakından ilişkilidir. Ayrıca Büyük Veri çağında makine öğrenmesi, yapay zeka algoritmaları,

ağ analizi gibi çeşitli yöntemlerde teknoloji sayesinde ortaya çıkmıştır. Yapılan analizler

ardından oluşan sonuçların yorumlanması ve sonuçların hedeflere uygun olup olmadığı, veri

içindeki desenlerin, çıkarımların keşfedilmesidir.

Veri ön işlemeden, verinin analizine kadar olan süreç, sosyal bilimlerdeki araştırma

süreçleriyle benzer özellik taşımaktadır. Özellikle nicel araştırmalarda anket yöntemi veya

internet, blog tarama gibi teknolojik gelişmelerin getirmiş olduğu yeni yöntemlerle elde edilen

verilerin geçirmiş olduğu aşamalarla, Büyük Veri analiz için toplanan verilerin aşamaları

örtüşmektedir. Her ikisinde de verilerin toplanması, temizlenmesi, analiz edecek platforma

göre dönüştürülmesi ve gerekirse verilerin indirgenmesi mevcuttur. Veri indirgeme

basamaklarında kullanılan örneklem mantığı da sosyal bilimlerdeki örneklem almakla ve

mevcut istatistiksek analiz tekniklerinden faktör analizi ve temel bileşenler analizi ve ayrıma

analizleriyle örtüşmektedir. Analiz aşamasında yer alan yöntem ve tekniklerinden regresyon,

kümeleme aslında istatistiksel analiz teknikleridir.

3.3.3.3. Büyük Veri Analiz Yöntem ve Teknikleri

Büyük Veri’nin depolanması, görselleştirilmesi, işlenmesi ve analizi için çeşitli

yöntem ve teknolojik yazılımlar geliştirilmekte ve geliştirilmeye devam edilmektedir. Bu

yöntem ve araçlar istatistik, bilgisayar, matematik ve ekonomi gibi çeşitli disiplinlerden

beslenmektedir. Farklı alanlardan beslenen Büyük Veri, sahip olduğu değer ve örüntülerin

ortaya çıkarılması, analiz edilebilmesi içinde multidisipliner yaklaşımlara ihtiyaç

duyulmaktadır ve bu yeni alanı da insanlar veri bilimi olarak adlandırmaktadır. Bu yöntem ve

91

tekniklerden bazıları daha küçük veri setlerinin analizi için geliştirilmiştir ancak süreç içinde

devasa veri setlerine de uygulanabilir özelliklerle donatılmış olsa da son zamanlarda bazı

teknikler Büyük Veri için geliştirilmiştir. Bu bölümde hem Büyük Veri öncesinde geliştirilen

hem de güncel yöntemlere değinilecektir. Fikir madenciliği ve görselleştirme gibi yeni

yöntem ve teknikler özelikle çevrimiçi iş modeller için geleceği tahmin etmede önemli

çıkarımlar sunmaktadır.

Bu bölümde Büyük Veri analizinde kullanılan yöntem ve teknikler açıklanacak ve bu

yöntemlerle sosyal bilimlerde kullanılan analiz yöntemleri arasındaki ilişki ve fark olup

olmadığı tartışılacaktır. Sosyal bilimlerde kullanılan analiz yöntemlerinin Büyük Veri

analizinde kullanılıp kullanılamayacağı üzerine durulacaktır. Büyük Veri analizinde

kullanılan bu yöntem ve tekniklerin tamamı Büyük Veri için tasarlanmamıştır. Kimisi Büyük

Veri öncesinde de istatiksel analiz tekniği olarak kullanılmaktaydı. Bu yöntem ve teknikleri

hepsi Büyük Veri’den değer, içgörü, örüntü ve geleceği tahmin etmek için kullanılmaktadır.

Bu tez çalışmasında Büyük Veri analizinde kullanılan yöntem ve teknikler, Manyika ve

diğerleri (2011, s.27)’nin ele aldığı konular çerçevesinde olacaktır.

Yeni çıkan yöntemler daha çok veri bilimi bünyesinde olup, Büyük Veri’yle birlikte

önemleri daha da artmıştır. Kimi kaynaklar Büyük Veri analizini veri madenciliği olarak

adlandırsa da Gürsakal (2014) veri bilimi ve veri madenciliğinin çeşitli noktalarda farklılıklar

belirttiğini ifade etmektedir. Veri bilimi, veri madenciliği ve istatistiğin farkları Tablo 13’de

gösterilmektedir.

Tablo 13:Veri Bilimi, İstatistik ve Veri Madenciliği Arasındaki Farklar

Özellik İstatistik Veri

Madenciliği

Veri

Bilimi

Varsayımlara dayanmak Var Yok Yok

Veri ürünleri üretmek Yok Yok Var

Yapılandırılmamış ve yarı yapılandırılmış

verilerle çalışmak Yok Yok/Var Var

Hız ve miktar anlamında Büyük Veri ile çalışmak Yok Yok/Var Var

Kaynak: Gürsakal (2014, s. 43)

Gürsakal (2014, s. 43) istatistiğin varsayımlara dayandığının, veri madenciliği ve

Büyük Veri’nin ise varsayımlara değil, veride mevcut duruma dayandığının altını

çizmektedir. Ayrıca, veri madenciliğinde yapılandırılmamış ve yarı yapılandırılmış verilerle

92

çalışmak ve hız ve miktar anlamında Büyük Veri’yle çalışmak durumlarında yer alan “var”

ifadelerinin çok yeni özelik olduğunu belirtmektedir. Bu yeniliklerle birlikte veri bilimi ile

veri madenciliği birlikte anılmaktadır. Büyük Veri analiz yöntemleriyle veri madenciliği

yöntemleri aynı amaca hizmet etmektedir; ikisinin de amacı veride bulunan değeri çıkarmak

ve geleceği tahmin etmektir. Her ikisi de birçok uygulamasında istatistiksel çıktılara göre

işlemektedir.

Veri Madenciliği (Data Mining)

Veri madenciliği, Büyük Veri analizlerinde kullanılan kümeleme, sınıflandırma,

birliktelik kuralı ve regresyon gibi çeşitli yöntem ve teknikleri bünyesinde bulundurmaktadır.

Veri madenciliğinin de Büyük Veri gibi tam ve tek bir tanımı bulunmamaktadır. Gelişmekte

olan ve disiplinlerarası bir kavram olduğu için farklı tanımlamaları mevcuttur. Veri

madenciliğinin en genel tanımı veri setlerinde bulunan değerli bilgiyi keşfetmektir (Sumathi

& Sivanandam, 2006, s. 9). Başka bir tanıma göre veri madenciliği; devasa miktardaki veri

içinden, geleceği tahmin etmemize ve öngörüde bulunmamıza neden olacak bağıntı ve

kuralların bilgisayar programları aracılığıyla keşfedilmesi ve verinin analizidir. Ayrıca, çok

büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya

yardımcı olan veri analizi tekniğidir (Alpaydın, 2000).

Veri madenciliği, büyük miktardaki verinin içinde gizli kalmış ilişkileri açığa

çıkararak müşterilerin mevcut veya ilerdeki davranışlarını tahmin etmek için kullanılan

modelleri içerir. Veri madenciliği, raporlama ve OLAP araçlarından farklı olarak boyutları

kullanıcının belirlediği bir ortam değil, bu boyutların ne olduğunun ortaya çıkarıldığı bir

ortamdır. Standart raporlama araçlarında cevap aranan örnek bir soru “şirketimizin

kampanyası sonucunda kredi kartı kullanmaya başlayan müşterilerin yaşa göre dağılımı

nedir?” gibi bir sorudur. Veri Madenciliği ile mevcut durumu sorgulamak yerine,

“yapacağımız kampanyada hedefleyeceğimiz müşteri kitlesi ne olmalıdır?” gibi geleceğe

dönük yönlendirici sorulara cevap aranmaktadır (Oracle, 2003, s. 118).

Veri madenciliğiyle gelen yenilikleri Saporta (2000) şöyle sıralamaktadır;

Çok büyük veri tabanlarına erişim imkanı

Otomatik olarak veri toplama

93

Bilgisayar bilimlerinden gelen yeni teknikler

Hedef kitlelerdeki kullanıcılara kişeye özel teklifler ve çözümler

Veri analisti olarak karar vericilere yönelik daha kullanıcı dostu, arayüzü

daha kolay ve yeni yazılım paketleri

Veri madenciliğini bünyesindeki tekniklerle çeşitlilik gösterse de en genel yaklaşım

Maiomon ve Rokach’a aittir. Veri madenciliği taksonomisi olarak adlandırdıkları çerçevede

yer alan yöntem ve teknikler Şekil 14’de gösterilmiştir (Maimon & Rokach, 2010).

Şekil 14: Veri Madenciliği Yöntemleri

Kaynak: Maimon, O., & Rokach, L. (2010, s. 6). Data Mining and Knowledge Discovery

Handbook. New York: Springer.

Keşifsel yöntemler verideki örüntüleri, veride görülmeyen değerleri bulmaya ve

veriyi anlamaya çalışır. Öte yandan doğrulayıcı yöntemler ise dışarıdan genelde uzmanlarca

önceden ortaya konan hipotezleri test etmeye odaklanmaktadır. Doğrulayıcı yöntemlerin çoğu

geleneksel istatistik yöntemleriyle alakalıdır ve veri sayısı azdır. Örneğin t-testi, varyans

analizi gibi testler doğrulayıcı yöntemlere girmektedir ve keşifsel yöntemlere göre veri

madenciliği ile daha az ilişkilidir çünkü veri madenciliği hipotezleri test etmekten daha çok

veride yatan hipotezleri keşfetmeyle ilgili problemlerdir (Maimon & Rokach, 2010, s. 6-7).

Sosyal bilimlerde geleneksel araştırmalarda çoğunlukla hipotez testleri yer almaktadır ve bu

testler araştırmayı yapanlar tarafından önceden oluşturulmakta ve daha veriler toplandıktan

Veri Madenciliği

Keşifsel

Betimsel Yöntemler

Kümeleme Birliktelik

Kuralı

Çıkarımsal Yöntemler

Sınıflandırma Regresyon

Doğrulayıcı

94

sonra, hipotezler test edilmektedir. Veri madenciliği çalışmasını esas olarak bir istatistik

uygulaması olarak ifade eden Pektaş; son elli yılda özellikle çok değişkenli istatistiksel analiz

tekniklerinin sayısının arttığını belirtmektedir. Bu teknikleri; hipotez testleri, varyans

analizleri, korelasyon, regresyon, kümeleme, sınıflandırma ve zaman serileri ve bunların alt

dalları olarak ifade etmektedir (Pektaş, 2013, s. 103). Veri madenciliğinin de temelini

oluşturan bu istatistiksel teknikler Büyük Veri’nin de analizinde kullanılarak, onun

anlamlandırılmasını sağlamaktadır.

Veri madenciliği yöntemleri daha detaylıdır ancak bu tez çerçevesinde veri

madenciliği yöntemlerinden kümeleme, birliktelik kuralı ve sınıflandırma yöntemleri üzerinde

durulacak ve sosyal bilimlerde araştırma yöntemleri ve mevcut istatistiksel yöntemlerle

ilişkileri tartışılacaktır. Veri madenciliği ve Büyük Veri analizinde literatürde bulunan çeşitli

teknik ve yöntemler aşağıda belirtilmektedir.

Kümeleme (Küme Analizi)

Veri tabanlarında yer alan nesneleri özelliklerine göre gruplara ayırmayı sağlayan

istatistiksel bir tekniktir. Kümeleme birbirine çok benzer özellikler taşıyan nesneleri bulup

aynı grup altına almak veya birbirinden çok farklı özellikler barındıran nesneleri ayrık

kümelere koymayı amaçlamaktadır (Two Crows Corporation, 1998). Kümeleme analizi birim

ya da değişken gruplaşmalarının kesin olarak bilinmediği durumlarda uygulanmakta ve analiz

öncesinde tahmini bir sınıflama yapılmamaktadır. Bu yüzden kümeleme analizi denetimsiz

öğrenmedir yani örneklere dayalı değil gözleme dayalı öğrenme şekillerinden biridir (Han, ve

diğerleri, 2012, s. 445). Kümeleme analizi de hemen hemen tüm bilim alanlarında kullanılan

bir yöntem olmakla beraber tıp, biyoloji, sosyoloji, psikoloji, arkeoloji ve ormancılık gibi

belirsizliklerin ve karmaşık yapıların fazla olduğu bilim alanlarında daha yoğun

kullanılmaktadır. Kümeleme analizinde nesnelerin özniteliklerine göre gruplandırma

yapılmaktadır. Bağımlı değişken y değerleri bulunmadığından dolayı değişkenler arasında bir

bağlantı kurulamadığı için kümeleme analizi makine öğrenme yaklaşımına göre denetimsiz

öğrenme olarak ifade edilmektedir. Nesneler öznitelik değerlerinin benzerliğine göre

kümelendiği için bu değerlerin yakınlıkları, uzaklıkları veya veri kümesinde yoğunluk

gösterdikleri bölgeler gibi çeşitli yöntemler kullanılır (Akpınar, 2014, s. 69-70). Kümeleme,

verileri sahip oldukları özelliklerinden, öz niteliklerinden dolayı yeni kategorilere

95

ayırdığından dolayı betimsel yöntemlerdendir. Çıkarım yapılmamakta sadece nesnelerin

özelliklerine göre ayrım yapılmaktadır (Rokach, 2010, s. 269). Şekil 19’da kümeleme örneği

verilmiştir.

Şekil 15: Kümeleme Örneği

Kaynak: Tang, Z., & MacLennan, J. (2005, s.7). Data Mining with SQL Server 2005.

Indiana: Wiley.

Temelleri antropoloji ve tipolojiye dayanan kümeleme yöntemleri 1990’lı yıllara

kadar sadece hiyerarşik küme analizi ile tek başlıktayken, internet verilerinin artmasıyla

birlikte yeni yöntemler gelişmiştir. Bunlar başlıca bölümleyici, yoğunluk temelli kümeleme

analizleri, ızgara temelli ve alt uzay arama algoritmaları gelişmiştir (Akpınar, 2014, s. 298,

Han ve diğerleri, 2001).

Kümeleme analiz yöntemleri antropoloji, telekomünikasyon, sosyoloji, jeoloji ve tıp

gibi birçok alanda kullanılmaktadır. Makine öğrenimi ile daha da önem kazanan kümeleme

algoritmaları örüntü tanıma, konuşma tanıma, görüntü ve ses işleme ve sosyal ağ analizlerinde

de etkilidir. Sosyal bilimlerde ise en yoğun olarak pazar araştırmalarında rol oynamaktadır.

Tüketicilerin tercihlerine, coğrafi durumlarına ve demografik yapılarına göre, satın alma

davranışları gibi çeşitli özelliklerine göre gruplara ayrılmasında ve bu gruplara ürünlerin

pazarlanmasında kolaylık sağlamaktadır (Sarstedt & Mooi, 2014, s. 276-277). Diğer bir etkin

kullanım alanı ise sosyal ağ analizi araştırmalarında benzer nitelikteki grupların ve alt

96

grupların belirlenmesinde veya farklılıklarının ortaya konmasında kullanılmaktadır

(Nussbaum ve diğerleri, 2010, s. 381). Bunların dışında kümeleme analizi internet üzerinden

Web sayfalarında (Wu ve diğerleri, 2004), DNA analizinde de (Ben-Dor ve diğerleri, 1999)

kullanılmaktadır.

Çeşitli disiplinlerde kullanılan kümeleme analizin temeli, istatistikteki kümeleme

tekniğine dayanmaktadır. Hem Büyük Veri analizi hem de betimsel istatistikte çok değişkenli

analiz tekniklerinden biridir. Yeni iletişim ortamlarında kullanılan araştırma yöntemlerinden

özellikle Web aramadaki birçok uygulamada görülmektedir. Anahtar kelime aramalarında,

blog madenciliğinde taranan anahtar kelimelerin ilişkili olduğu kavramlara göre

sıralanmasında, trend topiklerin ortaya çıkarılmasında kümeleme analizi kullanılmaktadır.

Birliktelik Kuralı Analizi (Association rules)

Veri madenciliğinde betimsel yöntemlerden diğeri ise birliktelik kuralı (association

rules) veya bağlantı analizi olarak adlandırılmaktadır. Belirli değişkenlerin birlikte olma

durumlarını ve birlikte bulunma kurallarını olasılıklarla ortaya koyan modeldir (Agrawal &

Srikant, 1994). Büyük Veri’deki birliktelik kurallarının ortaya çıkarılması için geliştirilen

çeşitli algoritmalar geliştirilmiştir. Bu algoritmaları, Silahtaroğlu (2013, s. 140) aşağıdaki gibi

sınıflandırmaktadır.

AIS Algoritması

SETM Algoritması

APRIORI Algoritması

AprioriTid Algoritması

Birliktelik kurallarının en çok kullanıldığı alan pazarlamadır. Parakende satışlarda

müşterilerin satın alma alışkanlıklarını ve eğilimleri saptamak amacıyla kullanılır.

Müşterilerin aldıkları ürünlerdeki birlikteliği ortaya çıkarmaya çalışan model Pazar Sepet

Analizi olarak adlandırılmaktadır ve en çok bilinen birliktelik kuralı modellerindendir.

Müşterilerin her seferinde aldıkları ürünler arasındaki birliktelik kurallarını ve olasılıklarını

keşfederek, hangi müşteri hangi ürünü diğer hangi ürünle birlikte aldığı belirlenir. Böylece

müşterilere bireysel olarak, kişiye özel teklifler ve pazarlama stratejileri geliştirilmesinde, en

önemli ürünlerin belirlenmesinde, mağaza içi stantların yerleştirilmesinde etkilidir (Han ve

97

diğerleri 2012, s. 45). Örneğin özellikle e-ticarette birçok şirketten ürün aldığınızda başka

ürünleri de size öneri olarak sunmaktadır. Bu öneri sistemlerinin gelişmesinde etkili olan

yöntem birliktelik analizidir. Mesela, Amazon kitap önerilerinde BookMatcher adlı programı

kullanarak müşterilerine kitap önermektedir.

Örneğin bira alan kişiler bir marketin %30’unu oluşturmaktadır. Bira alanların da

%2’si aynı zamanda çocuk bezi de satın almaktadır. Burada %30 güven seviyesini ve %2 ise

destek seviyesini göstermektedir. Veri tabanlarında birliktelik kurallarının etkili olabilmesi

için destek ve güven değerlerinin belirli bir eşiğin üzerinde olması gerekir. Destek seviyesi

ve güven değeri ne kadar yükseltilirse birliktelik kuralı değeri ve olasılığı da o kadar yüksek

olacaktır. Böylece veride bulunan değere ulaşma kolaylaşacak, daha doğru kararlar

verilmesine destek olunacaktır (KrishnaKumar ve diğerleri, 2013).

Destek seviyesi ve güven değerleri birliktelik analizi modellerinden Apriori

algoritmalarında daha çok kullanılmaktadır. Eşik değerlerini aşan büyüklüklerde veri

tabanları sürekli taranarak her ürün için tekrar sayıları yani destek sayıları hesaplanır ve eşik

destek değerinin altında olan değerler ihmal edilir. Daha sonra ürünler ikişerli gruplamalar

yapılarak aynı süreçten geçirilir ve yine eşik değerinin altında olan ihmal edilir ve bu kural

üçerli, dörderli devam eder. Ürün gruplarında yatan birliktelik kuralları böylece çıkartılır

(Özkan, 2013, s. 159).

Birliktelik kural analizi sosyal bilimlerde de kullanılan bir analizdir. Özellikle

pazarlama sektörü en çok kullanılan alanlardandır. İstatistikte korelasyon, sıklık analizi,

frekans analizi gibi betimsel istatistik yöntemlerinde ve çıkarımsal istatistikte

kullanılmaktadır. Bunun yanında yeni iletişim ortamlarından olan blogların taranmasında

kullanılan çeşitli yazılımların çalışmasında da birliktelik kuralından faydalanılmaktadır.

Örneğin bloglarda hangi kelimelerin birlikte yazıldığı veya birlikte arandığını bazı blog

tarama araçları tarafından araştırmacılara sunulmaktadırlar. Blog tarama araçlarında biri olan

Sysmos, piyasa araştırmalarında en çok birlikte kullanılan sözcükleri sıralayarak,

pazarlamacılara yön vermektedir.

98

Sınıflandırma (Classification)

Veri madenciliği tekniklerinden en çok bilinen yöntemlerden birisi olan

sınıflandırma; bir nesnenin özelliklerine göre hangi gruba ait olduğunu belirlemektir. Tahmin

edici yöntemlerden olan sınıflandırmada, var olan verilerden örüntü keşfedilir ve yeni

eklenecek nesnelerin hangi sınıfta yer alacağı tahmin edilir. Eldeki veriler eski bir

veritabanından da alınabilir veya bir deney sonucu ortay çıkmış veriler veya internetten elde

edilen verilerde olabilir, önemli olan eldeki verilerden örüntü çıkarıp, gelecek ögelerin hangi

sınıfa atanacağını makinelerin kestirmesidir (Two Crows Corporation, 1998, s. 10).

Sınıflandırma, eldeki bağımsız değişkenlerle, yeni gelecek bağımlı değişkenlerinin

gelecekteki değerlerinin belirlenmesi istatistik ve makine öğrenimi altındadır. Sınıflandırma

teknikleri de bu bağlamda istatistiğe dayalı algoritmalar ve makina öğrenimine dayalı olarak

birbirinden bağımsız ama aynı amaca hizmet eden çeşitli yöntemler geliştirilmiştir. Akpınar (

2014, s. 186-188) sınıflandırma işlemi gerçekleştiren bu yöntem ve teknikleri şöyle ifade

etmektedir.

Lineer diskriminant analizi

Karar ağaçları

Yapay sinir ağları

Karar ağaçları

K-en yakın komşu yöntemi

Destek Vektör Makineleri

Bu yöntem ve tekniklerin akademik çalışmalardaki kullanımın ne yoğunlukta

olduğuna dair araştırma diğer bölümde verilecektir. Sınıflandırma yöntemleri makine

öğrenimi literatürüne göre denetimli öğrenme (supervised learning) başlığı altındadır. Ayrıca

bu yöntemlerin geliştirilmesinde bulanık mantık (fuzzy logic) etki etmektedir (Akpınar, 2014,

s. 69). Makine öğrenimi de bulanık mantıkta temelde olasılık tekniklerinden

faydalanmaktadırlar.

99

Yapay Sinir Ağları (Artificial Neural Network)

Yapay sinir ağları (YSA) biyolojik sinir ağlarının çalışması ve yapısından

esinlenerek oluşturulmuş modeldir. Yapay sinir ağları verideki örüntüyü bulmak içindir.

Özellikle linear olmayan örüntülerin bulunması ve optimizasyonda kullanılmaktadır

(Zikopoulos, 2012). Yapay sinir ağlarını kullanan makine öğreniminin temel prensibi

canlıların öğrenme sürecine dayanmaktadır. Yani geçmiş deneyimlerin yardımıyla yeni şeyler

öğrenen canlıların öğrenme süreçlerini makinelere uygulamaktır (Sharma, 2014, s. 11). Yapay

sinir ağları bazı kaynaklarda paralel dağıtılmış işleme modeli olarak da anılmaktadır. YSA

modelleri Paralel Dağıtılmış İşleme Modelleri (parallel distributed processing) olarak da

adlandırılmaktadır ve yüksek hesaplama hızlarının gerekli olduğu, özellikle konuşma ve

görüntü algılama gibi çeşitli sahalarda etkin kullanılmaktadır (Akpınar, 2014, s. 239). Yapay

sinir ağları veri analiz yöntemlerinden hem tanımlayıcı hem de tahmin edici yöntemlerde

ortak olarak kullanılmaktadır.

Genel olarak yapay sinir ağları modellerini,

Ağın yapısına,

o İleri Beslemeli (feed forward)

o Geri Beslemeli (feed back)

Ağda yer alan düğümlerin özelliklerine,

Kullanılan eşik fonksiyonunun deterministik veya skolastik oluşuna,

Düğüme sadece analog/ikil veya sürekli değerlerin uygulanabilmesine,

Eğitim ve öğrenme kurallarına

göre sınıflandırmak mümkündür (Akpınar, 2014, s. 264).

Yapay sinir ağlarının geleneksel analiz yöntemlerinden farkı; aynı görev üzerine aynı

anda birbirinden bağımsız hesaplama kaynaklarının çalışmalarıdır. Bu durum paralel işlem

olarak da adlandırılır. Burada temel prensip, bir problemi veya veriyi bağımsız işlemcilere

ayırılması ve bağımsız çalışan bu işlemcilerdeki verilerin birleştirilip analiz edilmesidir.

Büyük Veri analizinde kullanılan paralel işleme modellerinden en yaygın olanları MPI

100

(Message Passing Interface), MapReduce ve Dryad modelleridir. Bu modellerin

karşılaştırılmaları Tablo 14’te gösterilmiştir.

Tablo 14: Paralel İşleme Modelleri ve Özellikleri

Kaynak: Chen ve diğerleri (2014, s. 54)

Sosyal bilimlerde kullanılan geleneksel araştırma yöntemlerinde veri bir bütün olarak

değerlendirip, analizler tek bir bütün üzerine yapılırken, yapay sinir ağ modelleri vasıtasıyla

veri birbirinden bağımsız işlemcilere ayrıştırılır ve her bir işlemci bağımsız çalışır.

Bu modellere dayandırılarak Büyük Veri analizinde ileri sistemler geliştirilmiştir. Bu

sistemlerden Pig ve Hive MapReduce, Scope ve DdryadLINQ ise Dryad modellerini

kullanmaktadır (Chen ve diğerleri, 2014, s. 53). Yapay sinir ağ uygulamaları yüz tanıma,

MPI MapReduce Dryad

Dağıtım

Hesaplama düğümü ve

veri depolaması ayrı

ayrı yapılır.

Hesaplama ve veri

depolama ve aynı

düğümde yapılır.

Hesaplama ve veri

depolama ve aynı

düğümde yapılır.

Kaynak

Yönetimi Yok

Workqueue(google)

HOD(Yahoo) Net değil

Düşük Seviye

Programlama MPI API MapReduce API Dryad API

Yüksek Seviye

Programlama Null Pig, Hive, Jaql... Scope, DryadLINQ

Veri Depolama Yerel Dosyalama

Sistemi, NFS...

GFS(Google),

HDFS(Hadoop),

Amazon S3

NTFS, Cosmos DFS

Görev Ayrımı Kullanıcı tarafından Otomatik Otomatik

Bağlantı Mesajlaşma, uzaktan

erişim Dosyalar

Dosyalar, TCP Pipes,

Paylaşılan FIFOlar

Arızaya

Dayanıklılık Kontrol Noktası Görevi tekrarlama Görevi tekrarlama

101

kredi kararlarının verilmesi, el yazısı tanıma, işletmelerin finansal durumlarının

derecelendirilmesi ve dolandırıcılık tespiti gibi farklı alanlarda etkin olarak kullanılmaktadır.

Geleneksel yöntemlerle karmaşık ve canlı sistemlerdeki algoritmaları tanımlamak ve

analiz etmek zordur. Yapan sinir ağları programlanması zor olan veya mümkün olmayan

sistemler için geliştirilmiş ve eş zamanlı bilgi işlemektedir. Çok miktarlardaki verilerin analiz

araçlarının birçoğunda kullanılmaktadır. Geleneksel araştırmalardaki önemli sorunlardan

biride verilerin toplandıktan bir süre sonra analiz edilmesidir. Ancak araştırma yöntemlerinde

sadece verinin toplanır toplanmaz eş zamanlı olarak analiz edilmesini savunan

temellendirilmiş kuram çalışmaları bu anlamda Büyük Veri’nin analiz felsefesine yakındır.

Ancak temellendirilmiş kuram çalışmalarının da internet üzerinden yapılış örneklerine

rastlanmamıştır. Büyük Veri analizinde kullanılan yöntem ve tekniklerden yapay sinir ağları

geleneksel yöntemlerden farklı çalışırken, diğerleri mevcut istatistiksel yöntemlerle ve

araştırma yöntemleriyle ilişkilendirilmektedir.

Metin Madenciliği (Text Mining)

Metin Madenciliği, serbest metin formatında bulunan verilerin yapılandırılmış hale

getirilerek analiz edilmesi ve değerli bilginin elde edilmesi esasına dayanmaktadır. Metin

madenciliği, çok büyük belgelerin analizi ve metin tabanlı verinin içerisindeki gizli

örüntülerin elde edilmesidir (Gharehchopogh & Khalifelu, 2011, s. 2). Metin madenciliğinin

en temel özelliği tamamen yapısal olmayan veriler üzerinde odaklanmış olmasıdır.

Metin madenciliği doğal yazı dilinde desenlere bakan bir teknolojidir (Prytherch,

2005, s. 688). Yapısal olmayan metinlerden bilgi keşfi yapılmasını sağlar. Yaygın olarak aynı

konuda yazılmış belgeleri bulmak, birbiriyle ilişkili belgeleri bulmak ve kavramlar arası

ilişkileri keşfetmek için kullanılır. Doğal Dil İşleme (Natural Language Processing), Bilişsel

Bilimler (Cognitive Sciences) ve Makine Öğrenmesi (Machine Learning) gibi bilimlerle ortak

çalışan bir araştırma alanıdır (Yıldırım ve diğerleri, 2008, s. 430).

Metin madenciliği konusundaki ilk seminerleri sırasıyla 1999 yılı Temmuz ve

Ağustos aylarında, “The International Machine Learning Conference” ve “The International

Joint Conference on Artificial Intelligence” sırasında gerçekleşmiştir. Metin madenciliği

konusundaki ilk çalışmalar basit metin sorguları ile başlamıştır. En başta bu yöntemle bilgi

102

getirme (information retrieval‐IR) mümkün olmuş, ancak bilgi çıkarımı (information

extraction) gerçekleştirilememiştir. Basit sorgularla başlayan sorgulama yöntemleri zaman

içinde iyileştirilmiş ve farklı tekniklerle geliştirilmiştir. Dolayısıyla metin madenciliğine

ilişkin yaklaşımların çoğu bu süreç doğrultusunda açıklanmıştır. Örneğin Han ve Kamber

(2006) tarafından oluşturulan metin madenciliğinin temel yaklaşımları Tablo 15’te

gösterilmiştir.

Tablo 15 : Metin Madenciliği Yaklaşımları

Anahtar kelime kökenli yaklaşımlar

Bu yaklaşımda girdi (veri) dokümanlardaki terim

veya anahtar kelimelerin bir setidir. Nispeten sığ

düzeyde sadece ilişki keşfi gerçekleşir. Örneğin

en az anlamla desenler meydana getirme (terörist

ve patlama gibi). Bu yaklaşım metne derin

anlama getirmez.

Etiket yaklaşımı

Bu yaklaşımda girdi (veri), veri etiketlerinin bir

setidir. Yaklaşım, manuel etiketleme ile sağlanan

etiketler temeline dayanır, ancak bu zordur ve

dokümanların büyük koleksiyonları için

uygulanamaz. Kategorileri önceden tanımlamak

şartıyla, etiketlerin nispeten küçük setini işleme

tabi tutan bazı sınıflama algoritmaları da bu

yaklaşım çerçevesinde değerlendirilir

Bilgi çıkarma yaklaşımı

Girdiler; olaylar, gerçekler, kişiler gibi anlamsal

enformasyonlardır. Bu yaklaşım daha gelişmiştir

ve derin bilginin keşfine yol gösterir ama doğal

dil anlama ve makine öğrenmesi metotlarıyla

metnin semantik analizine ihtiyaç duyar. Bu,

zorlu ve fırsatlarla dolu bir bilgi keşfi görevidir.

Kaynak: Han ve diğerleri (2012, s. 624)

Metin madenciliği anahtar kelimeler, etiketler ve semantik veriler üzerine uyguna

bilmektedir. Böylece metin madenciliğinin görevleri ortaya çıkmaktadır ama bu konuda

literatürde farklılıklar vardır. Feinerer metin madenciliğinin temel görevlerini; metin

sınıflama, metin kümeleme, ontoloji ve taksonomi yaratma, doküman özetleme ve gizli gövde

analizleri olarak sınıflandırmıştır (Feinerer, Hornik, & Meyer, 2008).

Metin madenciliğinde bu görevler yerine getirilirken çeşitli algoritmalar

kullanılmaktadır. Literatürde metin madenciliğinde en çok kullanılan algoritmalar:

103

Naive Bayes Algoritması

Rocchio Algoritması

Karar Ağaçları:

K En Yakın Komşu Algoritması

Destek Vektör Makinesi

K Ortalama Algoritması

Bu algoritmaların her biri aynı zamanda veri madenciliğinde kullanılan

algoritmalardır ve temelinde olasılık ve istatistiksel yöntemlere dayanır. Örneğin Naive Bayes

Algoritmaları istatistiksel sınıflandırma tekniklerine dayanmaktadır. Karar ağaçları da temelde

olasılığa dayanmaktadır. Olası durumlara göre göre dallanmalar olur ve uygulamalı istatistikte

makine öğrenmesi başlığı altında birçok karar ağacı algoritması bulunmaktadır (Özkan, 2013,

s. 53). Mevcut istatistiksek yöntemlerin yanında metin madenciliği, sosyal bilimlerde

kullanılan analiz tekniklerinden içerik ve söylem analizi ile ilişkilidir. İçerik analizi daha çok

metinlerdeki niceliksel özelliklerle ilgilenirken, söylem analizi anlamla ilgilenmektedir. Bu

bağlamda metin madenciliği bu iki analiz tekniğiyle de ilişkilendirilebilir.

Doğal Dil İşleme

Bilgisayar biliminde yapay zeka uygulamalarıyla, dilbilimin alt kategorisi olan doğal

dil işleme (DDİ) “naturel language processing” insan dillerinin analizi için bilgisayar

algoritmalarının kullanılmasıdır (Manyika ve diğerleri, 2011). Başka bir ifadeyle ise, DDİ;

Bilişsel Bilimler (Cognitive Sciences) ve Makine Öğrenmesi (Machine Learning) gibi

bilimlerle ortak çalışan bir araştırma alanıdır (Yıldırım ve diğerleri, 2008). DDI veri

analizinde çok geniş yelpazede problemlere hitap etmektedir. Konuşmaların

segmentasyonundan, sözdisimsel belirsizliğe, sözcük etiketlemeden, konuşmalardaki

belirsizliğin giderilmesine kadar birçok alanda uygulanmaktadır. Doğal dil işleme

uygulamalarının birçoğu makine öğrenme türlerinden oluşmaktadır. DDI yöntemlerinden en

bilinen uygulama ise fikir madenciliği “sentiment analysis-opinion mining” analizidir ve bir

sonraki başlıkta incelenecektir.

DDİ yapay zekâ (bilgi gösterimi, planlama, akıl yürütme vb.), biçimsel diller kuramı

(dil çözümleme), kuramsal dilbilim ve bilgisayar destekli dilbilim, bilişsel psikoloji gibi çok

104

değişik alanlarda geliştirilmiş kuram, yöntem ve teknolojileri bir araya getirir (Çakıroğlu &

Özyurt, 2006).

Chowhury’e göre her bir doğal dil işleme görevini doğal dili anlamaya göre

oluşturulmaktadır. Bilgisayar programlarının dili anlamasında üç temel problem

bulunmaktadır. Birincisi düşünme süreci hakkında, ikincisi dilsel girdinin anlamı ve temsili

hakkında ve üçüncü problem ise sözcük bilgisiyle alakalıdır. Başlangıçtan sonuna kadar her

bir DDİ sistemi önce kelime seviyesinde başlamalı, sonra cümle seviyesine sonra da tüm

bağlam seviyesine geçmelidir (Chowdhury, 2003).

DDI sistemlerinde aşağıdaki görevleri yapabilme amaçlanmaktadır (Liddy, 1999);

Metni başka şekilde ifade etmek

Metni başka bir dile çevirebilmek

Metnin içeriği hakkındaki sorulara cevap verebilmek

Metinden çıkarımlar yapmak

Doğal dil işlemi uygulamalarında günümüzde uygulamalarını görmekteyiz. Örneğin

Google, kullanıcılar arama yaparken hatalı yazmış olduğu sözcükleri bulmakta ve hatalı metni

düzelterek kullanıcıya doğrusunu önermektedir. Aynı zamanda Google Translate dilden dile

çeviri yaparak kullanıcılara sunmaktadır. Henüz gelişimi devam eden bu süreç, çevirilere

kullanıcıların da destek olmasını önererek çevirilerin bağlamsal anlamda daha doğru olmasını

sağlamaktadır. Kullanıcı hataları ve onların girmiş oldukları çevirilerle makine öğrenme

sağlanarak, sistem kendini geliştirmektedir.

Fikir Madenciliği

Metinlerin sahip olduğu öznel bilginin çıkarılması ve anlamlandırılması için doğal

dil işleme uygulamaları ve farklı analitikler geliştirilmiştir. Fikir Madenciliğini, Liu (2012, s.

7) kişilerin ürün, servis, kurum, olaylar ve başkaları hakkındaki duygularını, fikirlerini,

görüşlerini, değerlendirmelerini ve tutumlarını analiz eden yeni alan olarak ifade etmektedir.

Fikir madenciliği, literatürde duygu analizi, görüş madenciliği, görüş çıkarma, duygu

madenciliği ve öznellik analizi görevlerinde çok küçük farklar olan çeşitli kavramlarla ifade

edilse de bu tez bağlamında tüm kavramlar fikir madenciliği adı altında incelenecektir.

105

Özellikle pazarlama ve endüstride duygu (sentiment) analizi olarak kullanılırken, akademi de

ise fikir madenciliği ve duygu analizi kavramlarının ikisi de kullanılmaktadır.

Fikir madenciliği, yapılandırılmamış metinlerden otomatik olarak bilginin ve

içerdiği fikrin çıkarılma işlemidir. Bu işlemde metnin içerdiği yani yazarın dokümanda

vermek istediği duygu-fikir temel unsurdur. Son yıllarda giderek önem kazanmasının nedeni

internette yer alan yapılandırılmamış metin miktarı artmış olmasıdır. Bunun kaynağını

kullanıcılar tarafından üretilen içerikler oluşturmaktadır. Birçok internet kullanıcısı fikirlerini

yazılı olarak beyan etmeye başlamıştır. Ortaya çıkan bu devasa miktarlardaki metinleri

manuel olarak analiz etmek imkansıza yakınlaşmaya başladıkça metinlerden otomatik olarak

çıkarım tekniklerinde önemi artmıştır (Manyika ve diğerleri, 2011).

Sosyal medyada paylaşılan içeriklerde kullanıcıya ait içerik varsa ya da içerik fikir

olarak ifade ediliyorsa, bu içeriğin analizi fikir madenciliğinin görevleriyle ilişkilidir (Sütcü &

Çiğdem, 2013, s. 95-99). Fikir madenciliğinin görevleri literatürde farklı şekillerde ifade

edilmektedir. Farklı araştırmacıların tanımladığı fikir madenciliği görevlerini Sütcü ve

diğerleri (2014, s. 881) bir araya getirmişlerdir. Tablo 16’da bu görevler gösterilmiştir.

Tablo 16 : Fikir Madenciliği Görevleri

Esuli ve Sebastiani (2006)

Tarafından Tanımlanan

Görevler

Levene (2010) Tarafından

Tanımlanan Görevler

Liu (2007) Tarafından

Tanımlanan Görevler

Metnin SO (Subjective‐

Objective:Öznel‐Nesnel)

Kutbunu Belirleme

Duygu sınıflandırma Direkt Fikirler

Metnin PN (Pozitive‐

Negative:Pozitif‐Negatif)

Kutbunu Belirleme

Özellik tabanlı madencilik ve

özetleme Karşılaştırmalar

PN Kutup Metninin Şiddetini

Belirleme

Karşılaştırmalı cümle, ilişki

çıkarma ve sınıflandırma

problemi olarak sorun konu

etme

---

Kaynak: Sütcü ve diğerleri (2014, s. 881)

Özellikle pazarlama alanında etkinliği olan fikir madenciliğini, pazarlamacılar ürün

ve markaları ile ilgili kişilerden markaları hakkında bilgi toplamak üzere kullanmaktadırlar.

Hem kendi markalarını hem de rekabet halinde oldukları markaları izlemeye ihtiyaç

106

duymaktadırlar. Örneğin blog tarama araçlarından olan Technorati ve BlogPulse 1 milyondan

fazla blogu tarayarak pazarlamacılar için markaları hakkında tüketicilerin fikirlerini

sunmaktadırlar. Bu içeriklere fikir madenciliği teknikleriyle yaklaşan pazarlamacılar,

tüketicilerin olumlu ve olumsuz görüşlerine göre bir sonraki adımlarını atabilir ve rekabetçi

ortamda bir adım öne geçebilir.

Fikir madenciliği konusu Türkiye’de henüz üzerinde çok çalışılmamış bir konudur.

Fikir madenciliği konusunda YÖK’ün tez veritabanında bir yüksek lisans ve bir doktora tezi

bulunmaktadır. Bu alanda Türkiye’de ilk çalışma Çiğdem Aytekin (2011)’in doktora tezidir.

Çalışmada, işletme‐müşteri etkileşimini arttırmayı sağlayan araçlar kullanılabilir şekilde

ortaya konmuş ve blogların bu kullanılabilirliğe ne kadar uygun olduğu belirlenmeye

çalışılarak uygunluğu arttırmaya yönelik bir model önerisinde bulunulmuştur. Modelde Fikir

Madenciliği yöntemleri kullanılmış ve ürün/hizmetler hakkında genel bir görünüş elde etmek

amacıyla, bloglar üzerindeki metin tabanlı fikir verilerini pozitif ve negatif olarak kutuplara

atayacak bir metodoloji geliştirilmiştir. Kutuplara atama işlemini otomatik olarak sağlama

amacıyla da “Fikir Kutbu Belirleme” adlı bir program oluşturulmuştur. Program metin

verilerin sınıflandırılmasını, uygulaması basit ve çoğu durumda etkili sonuçlar veren Naive

Bayes Bit Ağırlıklandırma Algoritması kurallarına göre yapmaktadır. Modelin kutba atama

başarısı, Duyarlık Ölçüsü ile değerlendirilmiştir. Pozitif Duyarlık Ölçüsü %72,28 ve Negatif

Duyarlık Ölçüsü %73,14 olarak hesaplanmıştır (Aytekin, 2011).

Fikir madenciliği sosyal bilimlerde söylem analizi tekniklerinin daha sade hali

olarak otomatik olarak yapılması gibidir. Söylem analizinde daha az veri, araştırmacı

tarafından yorumlanıp, söyleyen kişinin görüşü ve içeriğin ne anlama geldiği, hangi duyguları

barındırdığını ifade etmektedir. Fikir madenciliğinde ise çok miktarda içeriğin olumlu-

olumsuz-nötr ve öznellik nesnellik ve bunların kutuplarını yazılımlar sayesinde otomatik

olarak ortaya çıkarmaktadır. Ayrıca çeşitli istatistiksel analiz teknikleri kullanılmaktadır.

Duygular olumlu olumsuz olarak gruplara ayrılır ve daha sonra içerikte yer alan sözcükler

önceden hazırlanmış olan gruplara otomatik olarak atanması sağlanmaktadır. Kümeleme,

olasılık hesaplamaları ve Naive Bayes gibi çeşitli istatistiksel sınıflandırma modelleri

kullanılmaktadır.

107

Büyük Veri analiz yöntem ve teknikleri açıklanıp, bunların sosyal bilimler araştırma

yöntemleri ve mevcut istatistiksel analizlerle ilişkisi incelendikten sonra, bir sonraki bölümde

Büyük Veri’nin ve analiz tekniklerin akademik çalışmalarda kullanımı üzerine yapılan

araştırma yer almaktadır.

108

4. BÜYÜK VERİ’NİN AKADEMİK ÇALIŞMALARDA KULLANIMI

ÜZERİNE ARAŞTIRMA

İnternetin gelişmesiyle birlikte ortaya çıkan Büyük Veri’nin her geçen gün önemi ve

etki alanı artmaktadır. Günümüzde Büyük Veri’yle ilgilenen şirketler, verideki gizli bilgiyi

keşfetmek, öngörüler çıkarmak ve daha doğru kararlar almak için analiz yöntem ve

tekniklerini geliştirmektedirler. Bunun için de büyük yatırımlar yapmaktadırlar. Twitter’ın

makine öğrenmesi ve yapay zeka firması olan Whetlab’ı satın alması, Büyük Veri’ye yapılan

yatırımlara bir örnektir. Gelişmekte olan bu alan akademik çalışmalar da yerini almaktadır.

Akademik çalışmalarda Büyük Veri’nin kullanımı üzerine odaklanan bu çalışmanın bu

bölümünde dünyanın en geniş akademik bilgi bankası EbscoHost tarafından tasarlanan

Academic Search™Complete (ASC) veritabanı taranmıştır.

Büyük Veri analiz yöntem ve tekniklerinden tez bağlamında incelen kavramlar,

EbscoHost ASC veritabanında aratılarak araştırmanın bulguları değerlendirilmiştir. Ayrıca bu

araştırmada EbschoHost veritabanına ek olarak Türkiye’de akademik çalışmalarda Büyük

Veri kavramını görmek adına YÖK’ün tez veritabanı taranarak, başlıklarda ve özetlerde

“Büyük Veri” veya “Big Data” kavramları geçen yüksek lisans ve doktora tezleri sayıları ve

yıllara göre dağılımları betimlenmiş ve yorumlanmıştır.

4.1. ARAŞTIRMANIN AMACI VE ÖNEMİ

Araştırmanın amacı, bu tez bağlamında yapılan literatür taraması sonucunda ele

alınan Büyük Veri’nin akademik çalışmalarda kullanımını incelemektir. Bu araştırmada

aşağıdaki sorulara cevap aranmaktadır. Akademik çalışmalarda;

Büyük Veri ne zamandan beri kullanılmaktadır?

Büyük Veri analizi hangi yöntemlerle yapılmaktadır?

Büyük Veri analiz yöntem ve tekniklerinden hangileri daha yaygın olarak

kullanılmaktadır?

Büyük Veri analiz yöntem ve tekniklerinde ortaya çıkan yeni gelişmeler

nelerdir?

Son yıllarda hangi teknikler daha da gelişmektedir?

109

Büyük Veri yılı olarak adlandırılan 2012 öncesinde ve sonrasında Büyük Veri

ve analiziyle ilgili akademik çalışmalarda bir gelişme olmuş mudur? Varsa

eğer, 2012 öncesi ve sonrası oluşan farklılıklar ve benzerlikler nelerdir?

Son yıllarda veri madenciliği tekniklerinde gözlemlenen spesifikleşme

eğilimleri nelerdir?

Web 3.0 gelişmesiyle Büyük Veri analiz yöntem ve tekniklerindeki

değişimlerle arasındaki ilişki nedir?

Büyük Veri’yle ilgili Türkiye’deki akademik çalışmaların durumu nedir ve

dünyadaki akademik çalışmalarla paralellik göstermekte midir?

Büyük Veri son zamanlarda çeşitli dergi, gazete ve sosyal medya platformlarında

popüler bir konu olmaya başlamıştır. Bu araştırmanın önemi, Büyük Veri’nin akademik

çalışmalarda kullanımını ele alması ve Büyük Veri yılı öncesiyle sonrasındaki durumunu

karşılaştırmasıdır.

4.2. ARAŞTIRMANIN METODOLOJİSİ VE MODELİ

Bu çalışmada, metodoloji olarak tarama araştırması kullanılmıştır. Yapılan tarama

araştırmasında önce incelenecek olan veritabanı seçilmiştir. Büyük Veri ve bu tez bağlamında

ele alınan Büyük Veri analiz yöntem ve teknikleri, Büyük Veri yılı olarak atfedilen 2012 yılı

baz alınarak 2012 öncesindeki ve sonrasındaki akademik çalışmaların

başlıklarında/özetlerinde/anahtar kelimelerinde/metin içinde aranarak, elde edilen sonuçlar

kaydedilmiştir. Arama sonuçları 2012 yılı öncesinde ve sonrasında olarak sınıflandırılıp,

değerlendirilmiştir. Bu araştırmanın modeli Akademik Çalışmalarda Tarama ismiyle Şekil

16’da gösterilmiştir ve araştırma bu modele göre devam etmiştir.

110

Şekil 16: Büyük Veri Analiz Tekniklerinin Akademik Çalışmalarda Kullanımına

İlişkin Tarama Modeli

Bu çalışmada EbscoHost ASC veritabanı taranmıştır. ASC 7700’den fazlası hakemli

olmak üzere, 9000’e yakın dergiyi tam metin olarak kullanıma sunmaktadır. Ayrıca, tüm

akademik disiplinlerden, 13000’den fazla dergide yayınlanan makalelerin indeks ve özetleri

yer almaktadır. ASC’de yer alan tam metin makaleler, 1887’ye kadar uzanmaktadır ve

veritabanı her gün güncellenmektedir. 1400’den fazla dergi için taranabilir atıf bilgileri yer

almaktadır. Bu bilgi bankasının seçilme nedeni, dünyanın en geniş bilgi bankası olan Ebsco

tarafından desteklenmesi, dünya üzerindeki en kapsamlı multi–disipliner tam metin bilgi

bankası olması ve Marmara Üniversitesi’nin hem kampüs içi hem de kampüs dışı erişimine

açık olmasıdır.

Veritabanı taraması yapılırken Büyük Veri’yle ilgili kavramlar İngilizce olarak

taranmıştır. Çünkü Türkçe dilinde yazılmış ve veritabanında yer alan çalışma sayısı yok

denecek kadar çok azdır. Tarama esnasında kullanılan 20 tane İngilizce terimlerin Türkçe

karşılığı aşağıdaki Tablo 17’de gösterilmiştir

1. Araştımanın yapılacağı veritabanına karar verilmesi

2. Büyük Veri'yle ilgili taranacak yöntem ve tekniklerin belirlenmesi

3. Hangi tarihler arasındaki çalışmaların ve referans noktası kabul

edilecek tarihin belirlenmesi

4. Belirlenen Büyük Veri analiz tekniklerini veritabanındaki akademik

çalışmaların başlık, özet, anahtar kelime ve metin içinde arama

5. Arama sonuçlarını referans tarihi 2012 öncesi ve 2012 sonrası olarak

sınıflandırma

6. Sınıflandırmaların karşılaştırılması

111

Tablo 17 : Araştırmada Taranan Kavramlar ve Türkçe Karşılıkları

Taranan İngilizce Kavramlar Türkçe Karşılığı

"Big Data" Büyük Veri Büyük Veri

"Data Mining" Veri Madenciliği Veri Madenciliği

"Linear Discriminant Analysis" Lineer Diskriminant Analizi

Sınıflandırma

"Decision Trees" Karar Ağaçları

"k-Nearest-Neighbor" k-En Yakın Komşu Algoritması

"Artificial Neural Networks" Yapay Sinir Ağları

"Support Vector Machine" Destek Vektör Makinesi

"Hierarchical Clustering" Hiyerarşik Kümeleme

"Partitioning Clustering" Bölümleyici Kümeleme

Kümeleme "Density-based Clustering" Yoğunluk Temelli Algoritma

"Grid-based Clustering" Izgara Temelli Algoritma

"Subspace Clustering" Alt Uzay Arama Algoritma

"Association Rules" Birliktelik Kuralı Birliktelik Kuralı

"Message Passing Interface(MPI)" MPI

Yapay Sinir Ağları "MapReduce" MapReduce

"Dryad" Dryad

"Text Mining" Metin Madenciliği Metin Madenciliği

"Natural Language Processing" Doğal Dil İşleme Doğal Dil İşleme

"Sentiment Analysis or Opinion Mining" Fikir Madenciliği Fikir Madenciliği

Araştırmada akademik çalışmaların başlıklarında, özetlerinde, anahtar kelimelerinde

ve tüm metin içinde bu kavramlar taranmıştır. Tarama sürecinde EbscoHost ASC

veritabanının gelişmiş arama seçeneği üzerinden gidilmiş ve taramalarda başlangıç noktası

olarak veritabanı otomatik ayarlarında kayıtlı olan 01.01.1963 yılı kabul edilmiştir. Ayrıca

arama sonuçlarının yer aldığı tablolarda akademik çalışmaların ilk olarak hangi tarihte

veritabanına girdikleri de belirtilmiştir.

Araştırma aşamasında 2012 yılı öncesi ve 2012 yılı sonrası olarak araştırma sonuçları

ayrı ayrı değerlendirilmiş ve iki ayrı sınıflandırma oluşturulmuştur. 2012 yılının referans

noktası olarak alınma nedeni; 2012 Şubat’ta New York Times’ta yayınlanan Büyük Veri Çağı

(The Age of Big Data) özel sayısı ve Dünya Ekonomik Forumu (World Economic Forum)

2012’de “Büyük Veri Büyük Etki” adında yayınlamış olduğu rapor gibi birçok çalışmanın

gerçekleşmesi ve 2012 yılının Büyük Veri yılı olarak adlandırılmasıdır. Tez bağlamında

yapılan araştırmalarda 2012 yılı sonrasındaki çalışmalar, 1 Ocak 2012 ile araştırmanın

yapıldığı 23-24 Haziran 2015 tarihlerini kapsamaktadır.

112

4.3. ARAŞTIRMANIN SINIRLILIKLARI

Bu araştırma için Google’da “çevrimiçi akademik veritabanı” olarak arama

yaptığımızda, ilk üç sıralamada EbschoHost, Jstore ve Oxford Journals veritabanları

çıkmaktadır. Araştırmaya Jstore ve Oxford Journal veritabanları da dâhil edilmek istenmiştir;

ancak Marmara Üniversitesi Kütüphane’sinin Jstore veritabanında sınırlı sayıda koleksiyona

abone olması, Oxford Journal veritabanının ise sınırlı sayıda Büyük Veri’yle ilgili akademik

çalışmaya sahip olması ve arama seçeneklerinde “sadece başlıklarda arama”, “sadece özette

arama” ve “sadece metinde arama” gibi özelliklere sahip olmaması gibi sınırlılıklar,

araştırmanın yalnızca EbscoHost ASC çevrimiçi veritabanında yapılmasını neden olmuştur.

Veri analiz tekniklerinden en çok kullanılanlar bu tez bağlamında ele alındığı için,

veritabanı araştırmasında da sadece bu kavramların kullanılması, tüm veri analiz tekniklerinin

dâhil edilememesi bu araştırmanın diğer sınırlılıklarındandır. Ayrıca, YÖK veritabanında

başlıklarda ve özette arama yapılabilirken, anahtar kelimelerde ve metin içinde arama

yapılamaması da bu araştırmanın diğer bir sınırlılığıdır. Türkiye’deki akademik çalışmaların

veritabanı niteliğinde olan DergiPark Ulakbim’de Büyük Veri’yle alakalı sadece bir tane

akademik çalışmaya rastlanmış olmasından dolayı bu araştırmaya dâhil edilmemiştir.

EbschoHost ASC ve YÖK tez veritabanlarında yapılan araştırmada ortaya çıkan

bulgular ve bu bulguların sonuçları aşağıda belirtilmiştir.

4.4. ARAŞTIRMANIN BULGULARI VE DEĞERLENDİRME

Akademik Çalışmaların Başlıklarında Tarama

Araştırmanın gerçekleştiği EbscoHost ASC veritabanında Büyük Veri kavramını

başlığına alan ilk akademik çalışmanın tarihi 1992’dir. Toplam akademik çalışma sayısı 1221

dir. Bu çalışmaların 1154 tanesi 2012 yılından sonra, 67 tanesi 2012 öncesi yazılmıştır.

Başlığında Büyük Veri geçen ifadelerin yıllara göre dağılımı Grafik 2’te gösterilmiştir.

113

Grafik 2: Başlığında “Büyük Veri” Geçen Akademik Çalışmaların Yıllara göre

Dağılımı

1992-2007 yılları arasında başlığında 12 tane akademik çalışma varken, 2008’de 13

olması dikkate değerdir. Bunun yanında 2011 yılında 36 olan akademik çalışma sayısı,

2012’deki gelişmelerle birlikte 112’ye yükselmiştir. 2012 yılı öncesi ve sonrası veritabanında

yer alan çalışmaların sayısını incelediğimizde 2012 yılından sonra yazılan 1154 çalışma

toplam çalışmaların %94,5’i etmektedir ki bu oran 2012 yılının Büyük Veri yılı için önemli

bir tarih olduğunu ifade etmektedir.

Türkiye’de ise Yüksek Öğrenim Kurumu (YÖK) tez veritabanında “Büyük Veri”

veya “Big Data” kavramı başlıklarda aratıldığında toplam tez 9 tane tezin başlığında Büyük

Veri kavramı yer almaktadır. Bunların biri doktora, 8’i ise yüksek lisans tezidir. Bu tezlerin

sekiz tanesi “Bilgisayar Mühendisliği Bilimleri” alanında sadece bir tanesi ise “Endüstri ve

Endüstri Mühendisliği” alanında yazılmışlardır. Tezlerin tür ve yazım dillerinin yıllara göre

dağılımları Tablo 18’de verilmiştir.

12 13 4 2

36

112

319

477

0

40

80

120

160

200

240

280

320

360

400

440

480

1992-2007

2008 2009 2010 2011 2012 2013 2014

Aka

de

mik

Çal

ışm

a Sa

yısı

Yıllar

Başlığında Büyük Veri Geçen Çalışmalar

114

Tablo 18 : YÖK Veritabanında Yer Alan Tezlerin Tür ve Yazım Dillerinin

Yıllara göre Dağılımı

Yazım Dili ve Durumu Toplam

İngilizce Türkçe

Yıl

2003 1 Yüksek Lisans 1 Yüksek Lisans 2

2004 1 Yüksek Lisans 0 1



2014 1 Doktora ve

1 Yüksek Lisans 1 Yüksek Lisans 3


Toplam 7 2 9

Başlığında “Büyük Veri” veya “Big Data” ifadeleri yer alan tezlerin %75’inden

fazlası İngilizce dilinde yazılmıştır. Arşivde yer alan ilk tez ise 2003 yılında yazılmış ve 2014

yılında bu sayı 3’e yükselmiştir. Henüz 2015 yılının başında ise bir tez arşivde yerini almışt ır

(Erişim 17.04.2015). Dergipark Ulakbim veritabanında ise başlığında “Büyük Veri” veya

“Big Data” kavramları yer alan sadece bir adet makale bulunmaktadır (Erişim 02.07.2015).

Bu tez bağlamında incelenen Büyük Veri analiz yöntem ve teknikleri, EbscoHost

ASC veritabanında bulunan akademik çalışmaların başlıklarında aratıldığında ortaya çıkan

akademik çalışmaların sayıları Tablo 19’da gösterilmiştir. Ayrıca 2012 yılı sonrasındaki

çalışmaların 2012 yılı öncesinde çalışmalara artış yüzdesi ve 2012 sonrasındaki akademik

çalışmaların toplam içindeki oranı yüzde olarak belirtilmiştir. Son olarak, bu kavramlara

başlığında yer veren ilk akademik çalışmanın veritabanına giriş yılı verilmiştir.

115

Tablo 19 : Akademik Çalışmaların Başlıklarında Yapılan Arama Sonuçları

Terimler 2012

Öncesi

2012

Sonrası Toplam

2012

Sonrası

nın

2012

Öncesin

e

Oranı

%

2012 Yılı

Sonrasının

Toplam

İçindeki

Oranı

%

Veri

Tabanın

a İlk

Giriş

Yılı

Büyük Veri 67 1154 1221 1722,4 94,5 1992

Veri Madenciliği 1568 774 2342 49,4 33,0 1994

Lineer Diskriminant Analizi 150 92 242 61,3 38,0 1983

Karar Ağaçları 252 102 354 40,5 28,8 1978

k-en yakın komşulu

algoritması 87 74 161 85,1 46,0 1997

Yapay Sinir Ağları 1774 1052 2826 59,3 37,2 1990

Destek Vektör Makinesi 913 362 1275 39,6 28,4 1997

Hiyerarşik Kümeleme 151 108 259 71,5 41,7 1979

Bölümleyici Kümeleme 1 1 2 100,0 50,0 2009

Yoğunluk Temelli Algoritma 10 10 20 100,0 50,0 1999

Izgara Temelli Algoritma 1 1 2 100,0 50,0 2010

Alt Uzay Arama Algoritma 15 25 40 166,7 62,5 2007

Birliktelik Kuralı 203 96 299 47,3 32,1 1996

Message Passing Interface

(MPI) 17 8 25 47,1 32,0 2001

MapReduce 26 115 141 442,3 81,6 2007

Dryad 8 3 11 37,5 27,3 2009

Metin Madenciliği 164 138 302 84,1 45,7 1999

Doğal Dil İşleme 95 65 160 68,4 40,6 1986

Fikir Madenciliği 20 73 93 365,0 78,5 2008

Toplam Akademik

Çalışma Sayısı 5522 4253 9775 77,0 43,5

Büyük Veri analiz tekniklerinin tamamı EbscoHost ASC veritabanında 9775 tane

akademik çalışmanın başlığında kullanılmıştır. Bu akademik çalışmaların 4253 tanesi 2012

yılından sonra yazılarak toplamın %43,5’ini oluşturmaktadır. 2012 yılı öncesi yapılan

akademik çalışmaların veritabanına ilk giriş yılının ağırlıklı ortalaması alınarak literatüre giriş

yılı 1992 olarak hesaplanmıştır. Bu bağlamda yaklaşık olarak son 3,5 yılda yapılan akademik

çalışmaların sayısı, 20 yılda yapılan akademik çalışmaların %77’sini oluşturmaktadır. Büyük

116

Veri’yle ilgili terimleri başlıklarında bulunduran akademik çalışmaların yarısından fazlasının

2012 yılından sonra yapıldığını göstermektedir. Eğer %43 oranı referans noktası olarak kabul

edilirse; MapReduce %81,6 oranına, fikir madenciliği %78,5 oranına ve alt uzay arama

algoritması %62,5 oranına sahip olarak 2012 yılından sonra daha fazla akademik çalışmanın

başlıklarında yer almışlardır. Bu tekniklerin artış oranları da %100’ün üzerindedir. Yani 2012

sonrasında daha çok sayıda akademik çalışmanın başlığında yer almışlardır. 2012 sonrasının

2012 öncesine göre oranları dikkate alınırsa, MapReduce %442, fikir madenciliği ise %365

olmuştur. Büyük Veri kavramı ise %1722 ile 17 kat kadar artarak akademik çalışmaların

başlıklarına 2012 sonrasında eklenmiştir.

Büyük Veri analiz tekniklerinden özellikle fikir madenciliği ve paralel işleme modeli

olan MapReduce kavramlarının 2012 sonrası ve öncesindeki akademik çalışmalarda başlık

olarak kullanılmasında ciddi bir fark vardır. Fikir madenciliği başlıklı akademik çalışma

sayısı 20’den 73’e, MapReduce sayısı da 26’dan 115’e yükselmiştir. MapReduce 2004’te

Google tarafından geliştirilerek, Büyük Veri analizinde en çok kullanılan açık kodlu yazılım

çerçevesi olan Hadoop’un temel bileşeni olmuştur. EbscoHost ASC veritabanında da ilk defa

2007’de akademik bir çalışmanın konu başlığında yer almıştır. İlk kez 2008’de akademik bir

çalışmanın başlığında yer alan fikir madenciliği de bu anlamda yeni olduğunu göstermektedir.

Araştırmanın yapıldığı EbscoHost ASC veritabanında, Büyük Veri analizinde

kullanılan yöntem ve tekniklerden karar ağaçları ve hiyerarşik kümeleme, ilk 1978 ve 1979

yıllarında akademik çalışmaların başlıklarında yer almışlardır. Teknik ve yöntemlerden en

eski olan bu kavramlar, Büyük Veri kavramından halen ve daha önce de özellikle istatistikte

kullanılmışlardır. Ayrıca veritabanında ilk 1992 yılında kullanılan Büyük Veri kavramından

önce de lineer diskriminant analizi 1983’te, doğal dil işleme 1986’da ve yapay sinir ağları

kavramı ise 1990’da ilk kez akademik çalışmaların başlıklarında yer almışlardır. Veri

madenciliği kavramı ilk kez 1994’te akademik çalışmaların başlıklarında yer almıştır ve

2012’den sonra Büyük Veri’yle alakalı en çok kullanılan kavram olmuştur. Veri madenciliği

2012 yılı öncesinde 1568, 2012 yılı sonrasında 1568 olmak üzere toplam 2342 akademik

çalışmanın başlığında yer almıştır. Oransal olarak incelediğimizde başlığında veri madenciliği

ifadesi geçen tezlerin %67’si 1994 ile 2012 arasında, %33’ü ise 2012 yılından sonra

gerçekleşmiştir.

117

1999 ile 2012 yılları arasında yani 13 yılda metin madenciliği ifadesine başlığında

yer veren akademik çalışmaların sayısı 164 iken 2012 yılı sonrasında yani 4,5 senede bu sayı

138’dir. 2012 öncesinde bir yılda ortalama 13 tane akademik çalışmanın başlığında yer alan

metin madenciliği, 2012 sonrasında bir yılda ortalama 31’e yükselmiştir.

Akademik Çalışmaların Özetlerinde Tarama

Büyük Veri analiz yöntem ve tekniklerini EbscoHost ASC veritabanında yer alan

akademik çalışmaların özetlerinde arattığımızda “Büyük Veri” kavramına özetinde yer veren

akademik çalışma sayısı 2012 yılı öncesinde 56 taneyken 2012 yılı sonrasında 1861 tane

olmak üzere toplamda 1917’dir. Buradaki artış oranı dikkate alınırsa yaklaşık %3323

olmuştur. Büyük Veri’yi özetine alan ilk çalışma 1996 yılındayken, bu araştırmada taranan

kavramlardan birliktelik kural analizi ilk kez 1963 yılındaki bir çalışmanın özetinde yer

almıştır.


ASC veritabanında bulunan akademik çalışmaların özetlerinde aratıldığında ortaya çıkan

akademik çalışmaların sayıları Tablo 20’de gösterilmiştir. Ayrıca 2012 yılı sonrasında ki




118

Tablo 20: Akademik Çalışmaların Özetlerinde Yapılan Arama Sonuçları

Terimler 2012

Öncesi

2012

Sonrası Toplam

2012

Sonrasının

2012

Öncesine

Oranı

%

2012 Yılı

Sonrasının

Toplam

İçindeki

Oranı

%

Veri

Tabanına

İlk

Giriş Yılı

Büyük Veri 56 1861 1917 3323,2 97,1 1996



Karar Ağaçları 879 451 1330 51,3 33,9 1978

k-En Yakın Komşu Algoritması 586 607 1193 103,6 50,9 1994









Message Passing Interface(MPI) 373 178 551 47,7 32,3 1993

MapReduce 50 229 279 458,0 82,1 2007

Dryad 14 18 32 128,6 56,3 2009


Doğal Dil İşleme 671 402 1073 59,9 37,5 1972


Toplam Akademik

Çalışma Sayısı 19615 14036 33651 71,6 41,7

2012 yılı öncesi ve sonrası bu tekniklerin artışlarına bakıldığında Büyük Veri’den

sonra en yüksek artış MapReduce, fikir madenciliği ve kümeleme analizi algoritmalarından

yoğunluk, ızgara ve alt uzay algoritmalarında olmuştur. İlk defa 2007 yılında veritabanında

bir çalışmanın özetine giren MapReduce 2012 yılına kadar 50 tane, 2012 yılından sonra ise

229 tane akademik çalışmanın özetinde yer almıştır. 2012 yılından sonraki çalışmalar toplam

çalışmaların %82’sini oluşturmaktadır. 2012 öncesi ve sonrasındaki sayılar oranlandığında

%458 elde edilir. Fikir madenciliği kavramına özetinde yer veren akademik çalışma sayısı

2003’ten 2012’ye kadar 55 taneyken, 2012 sonrası yaklaşık 4 katına çıkmış ve 203 olmuştur.

Kümeleme analizlerinden hiyerarşik kümeleme hariç, diğer tüm analiz tekniklerinin sayısı

119

artış göstermiştir çükü kümeleme analizinde 1990’lı yıllara kadar sadece hiyerarşik küme

analizi tek başına kullanılmaktadır. 2012 yılı öncesinde hiyerarşik kümeleme analizine

özetinde yer veren akademik çalışma sayısı 1579, sonrasında ise 1065 olmak üzere toplam

2644’tür. Özetlerinde sonradan geliştirilen küme analiz tekniklerine yer veren akademik

çalışmaların sayıları Grafik 3’te gösterilmiştir.

Grafik 3: Kümeleme Tekniklerinin Özetlerdeki Arama Sonuçları

1990 sonrası geliştirilen küme analiz tekniklerinden bölümleyici kümeleme ve ızgara

temelli algoritma diğerlerine göre daha az kullanılmıştır. EbscoHost ASC veritabanında 2012

yılı öncesinde özetinde bölümleyici kümeleme kavramı geçen çalışma sayısı 7 iken, 2012

sonrasında 9, ızgara temelli algoritma ise 2012 yılı öncesinde 3 iken sonrasında 5 tane olmak

üzere toplam 8 tane akademik çalışmanın özetinde yer almıştır. Alt uzay algoritma kavramına

2012 yılı öncesi yayınlanan akademik çalışmaların 29 tanesinin ve 2012 yılı sonrasında da 36

tanesinin özetine ulaşılmıştır. Yoğunluk temelli algoritmalara özetinde yer veren çalışma

sayısı 2012 öncesinde 26’dır. 2012 sonrasında ise yaklaşık iki katına çıkarak 49 tane

akademik çalışmanın özetinde yer almıştır.

7

26

3

29

9

49

5

36

0

5

10

15

20

25

30

35

40

45

50

Bölümleyici

Kümeleme

Yoğunluk Temelli

Algoritma

Izgara Temelli

Algoritma

Alt Uzay Arama

Algoritma

2012 Öncesi 2012 Sonrası

120

EbscoHost ASC veritabanı akademik çalışmaların özetlerinde Büyük Veri analiz

tekniklerinden veri madenciliği ve yapay sinir ağları toplamda en fazla ve toplamda birbirine

eşit akademik çalışmada yer almışlardır. 2012 yılı öncesinde veri madenciliği ifadesi 5217

tane iken, yapay sinir ağları ifadesini özetinde barındıran 5125 tanedir. 2012 yılı sonrasında

ise bu sayılar 2864’e 2886 olmuştur. Toplamda ise 7991’er tane akademik çalışmanın

özetinde veri madenciliği ve yapay sinir ağları kavramları yer almaktadır. Ancak ilk

yayınlanma yılları farklıdır. Yapay sinir ağları kavramını özetinde bulunduran akademik

çalışma ilk kez EbscoHost ASC veritabanında 1988’de, veritabanı ise 1990’da yer almıştır.

Ayrıca kavramlardan en eski tarihli olarak 1963’te birliktelik kuralı ve 1972 tarihinde doğal

dil işleme kavramları akademik çalışmaların özetlerinde yer almaktadır.

Türkiye’de YÖK tez veritabanında özetinde “Büyük Veri” kavramlarını kullanan tez

sayısı 150’dir. Bu tezlerin yıllara göre dağılımı Grafik 4’te verilmiştir.

Grafik 4 : Özetinde “Büyük Veri” Kavramı Geçen Tezlerin Yıllara göre Dağılımı

1 1 1

3

1 1 2

1

3

1 2

6 7

3

8

10

12

9 8

13

11

24

22

0

2

4

6

8

10

12

14

16

18

20

22

24

1990

1991

1994

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

Özetinde Büyük Veri Geçen Tezler

Yıllar

121

Özetinde ilk kez Büyük Veri kavramına yer veren tez 1990 yılında yazılmıştır.

Özellikle 2012 yılında Büyük Veri’nin daha bilinir olmaya başlaması, Türkiye’de akademik

çalışmalarda da etkisini göstermiştir. 2012 yılı içerinde özetinde Büyük Veri bulunan tez

sayısı 11 iken, 2012’nin hemen ardından 2013 yılında bu sayı 24’e yükselmiştir. 2014 yılında

da 22 tane tezin özetinde Büyük Veri kavramı kullanılmıştır.

Akademik Çalışmaların Anahtar Kelimelerinde Tarama


akademik çalışmalarda belirtilen anahtar kelimelerde arattığımızda “Büyük Veri” kavramına

yer veren akademik çalışma sayısı 2012 yılı öncesinde 2011 yılında yayınlanmış olan sadece

1 taneyken 2012 yılı sonrasında 520 tane olmak üzere toplamda 521’dir. Ayrıca Büyük Veri

analiz yöntem ve tekniklerinden doğal dil işleme kavramı akademik çalışmaların anahtar

kelimelerinde ilk kez 1969 yılında yer almış ve 2012 yılı öncesine kadar 301 tane, 2012 yılı

sonrasında ise 345 tane çalışmada kullanılmıştır. Türkiye’de YÖK tez veritabanında özetinde

“Büyük Veri” kavramlarını kullanan


ASC veritabanında bulunan akademik çalışmaların anahtar kelimelerinde aratıldığında ortaya

çıkan akademik çalışmaların sayıları Tablo 21’de gösterilmiştir. Ayrıca 2012 yılı sonrasında

ki çalışmaların 2012 yılı öncesinde çalışmalara artış yüzdesi ve 2012 sonrasındaki akademik



122

Tablo 21 : Akademik Çalışmaların Anahtar Kelimelerinde Yapılan Arama

Sonuçları

Terimler 2012

Öncesi

2012

Sonrası Toplam

2012

Sonrasının

2012

Öncesine

Oranı

%

2012 Yılı

Sonrasının

Toplam

İçindeki

Oranı

%

Veri

Tabanına

İlk

Giriş Yılı

Büyük Veri 1 520 521 52000,0 99,8 1969



Karar Ağaçları 354 220 574 62,1 38,3 1988

k-En Yakın komşu Algoritması 181 196 377 108,3 52,0 1995









Message Passing Interface (MPI) 83 31 114 37,3 27,2 2005

MapReduce 20 146 166 730,0 88,0 2006

Dryad 1 3 4 300,0 75,0 2007


Doğal Dil İşleme 301 345 646 114,6 53,4 2009


Toplam Akademik

Çalışma Sayısı 8665 7539 16204 87,0 46,5 2011

EbscoHost ASC veritabanında anahtar kelimelerin taratılmasıyla oluşan sonuçlar

incelendiğinde 2012 yılı öncesi ve sonrasında, MapReduce kavramını anahtar kelime olarak

kullanan akademik çalışmaların artış miktarı dikkate değerdir. 20 tane akademik çalışma

varken, 2012 sonrasında 146 tane akademik çalışmanın anahtar kelimeler listesine girmiştir.

İlk kez 2007 yılında yer alan MapReduce anahtar kelimeli çalışmaların sayısının %88’ini

2012 yılı sonrası oluşturmaktadır. MapReduce yanında fikir madenciliği anahtar

kelimelerinde kullanan toplam 201 tane akademik çalışmanın 160’ı yani %79,6 sı 2012

123

yılından sonra yazılmıştır. 2006 ile 2012 arasında ise sadece 41 tane akademik çalışmanın

özetinde kullanılmıştır.

Akademik çalışmaların anahtar kelimelerinde bu tez bağlamında en çok veri

madenciliği, yapay sinir ağları ve sınıflandırma tekniklerinden destek vektör analizi

kavramları yer almaktadır. Toplamda 4584 akademik çalışmanın anahtar kelimelerinde veri

madenciliği kavramı kullanılmıştır. Ayrıca 3834 tane yapay sinir ağları ve 2487 tane de

destek vektör analizi kavramlarını anahtar kelimelerinde kullanan akademik çalışma

bulunmaktadır.

EbscoHost ASC veritabanında anahtar kelimelerde küme analiz teknikleri

incelendiğinde 453 akademik çalışmada hiyerarşik kümeleme kullanılmıştır. Bu akademik

çalışmaların 258 tanesi 2012 yılı öncesinde, 195 tanesi de 2012 yılı sonrasında

gerçekleşmiştir. İnternetle birlikte geliştirilen modern kümeleme tekniklerini anahtar

kelimelerde kullanan çalışma sayısı 2012 yılından sonra artmıştır. Bölümleyici kümelemenin

yer aldığı akademik çalışma sayısı 2 taneyken 2012 sonrasında 6 tane, yoğunluk temelli

algoritmalar 16’dan 38’e, alt uzay algoritmaları 27’den 66’ya yükselmiştir.

Sınıflandırma analizlerinden k-en yakın komşu algoritması diğer sınıflandırma

tekniklerine göre 2012’den sonra daha çok sayıda akademik çalışmaların anahtar

kelimelerinde yer almıştır. İlk kez 2001’de EbscoHost ASC veritabanında anahtar kelimelere

giren e-en yakın komşu algoritması 2001-2012 yılları arasında 181 tane akademik çalışmada,

2012’den araştırmanın yapıldığı 23-24 Haziran 2015 tarihine kadar ise 196 tane olmak üzere

toplam 377 tane akademik çalışmanın anahtar kelimelerinde yer almıştır. k-en yakın komşu

algoritması 2012 yılı öncesinde yılda ortalama 16 akademik çalışmanın anahtar kelimeler

listesinde bulunurken, 2012 sonrasında yılda ortalama 44 tane akademik çalışmada yer

almıştır. 2012 sonrasında yaklaşık 3 kat daha yaygınlaşarak, akademik çalışmalarda yerini

almıştır.

Yapay sinir ağları paralel işleme modellerinden MapReduce ve Dryad 2007 ve 2009

yıllarında ilk kez anahtar kelimelere girmişken, Message Passing Interface (MPI) modeli

1998’de girmiştir. Daha eski olan bu model 2012 yılı öncesinde 83 tane akademik çalışmada

kullanılmışken, 2012 sonrası 31 tane akademik çalışmada kullanılmış. Dryad ise toplamda 4

124

tane akademik çalışmanın anahtar kelimelerinde yer almıştır. Doğal dil işleme, k-en yakın

komşu algoritması, metin madenciliği, alt uzay algoritması, bölümleyici kümeleme, yoğunluk

temelli algoritmalar, MapReduce, dryad ve Büyük Veri kavramları 2012 yılı sonrasında yer

aldıkları akademik çalışmaların sayısı artmıştır.

Akademik Çalışmaların Metin İçlerinde Tarama


akademik çalışmaların metinlerini arattığımızda “Büyük Veri” kavramına metin içinde yer

veren akademik çalışma sayısı 2012 yılı öncesinde 514’ken, 2012 yılı sonrasında bu sayı 7396

olarak, toplamda 7910 tanedir. 2012 yılı sonrasında Büyük Veri’yi metin içine alan akademik

çalışma sayısının, tüm veritabanında metin içinde Büyük Veri yazan çalışmaların sayısına

oranı ise %93,5’tir.


ASC veritabanında bulunan akademik çalışmaların metin içlerinde aratıldığında ortaya çıkan

akademik çalışmaların sayıları Tablo 22’de gösterilmiştir. Ayrıca 2012 yılı sonrasında ki


çalışmaların toplam içindeki oranı yüzde olarak belirtilmiştir.

125

Tablo 22: Akademik Çalışmaların Metin İçlerinde Yapılan Arama Sonuçları

Terimler 2012

Öncesi

2012

Sonrası Toplam

2012

Sonrasının

2012

Öncesine

Oranı

%

2012 Yılı

Sonrasının

Toplam

İçindeki

Oranı

%

Büyük Veri 514 7396 7910 1438,9 93,5

Veri Madenciliği 24462 13856 38318 56,6 36,2

Lineer Diskriminant Analizi 3623 2203 5826 60,8 37,8

Karar Ağaçları 5307 2743 8050 51,7 34,1

k-en yakın komşu algoritması 1772 1506 3278 85,0 45,9

Yapay Sinir Ağları 11067 6724 17791 60,8 37,8

Destek Vektör Makinesi 7971 6675 14646 83,7 45,6

Hiyerarşik Kümeleme 9203 5427 14630 59,0 37,1

Bölümleyici Kümeleme 91 41 132 45,1 31,1

Yoğunluk Temelli Algoritma 144 143 287 99,3 49,8

Izgara Temelli Algoritma 44 24 68 54,5 35,3

Alt Uzay Arama Algoritma 135 120 255 88,9 47,1

Birliktelik Kuralı 1713 808 2521 47,2 32,1

Message Passing Interface (MPI) 1555 654 2209 42,1 29,6

MapReduce 145 717 862 494,5 83,2

Dryad 638 2616 3254 410,0 80,4

Metin Madenciliği 2614 1761 4375 67,4 40,3

Doğal Dil İşleme 4176 2555 6731 61,2 38,0

Fikir Madenciliği 270 544 814 201,5 66,8

Toplam Akademik

Çalışma Sayısı 75444 57025 132469 75,6 43,0

Büyük Veri analiz tekniklerinin tamamı EbscoHost ASC veritabanında 132469 tane

çalışmanın metin içinde kullanılmıştır. Bu akademik çalışmaların 57025 tanesi 2012 yılından

sonra yazılarak toplamın %43’ünü oluşturmaktadır. Bu durum Büyük Veri’yle ilgili terimleri

metin içerisinde bulunduran akademik çalışmaların neredeyse yarısı 2012 yılından sonra

yapıldığını ifade etmektedir. Eğer %43 oranı referans noktası olarak kabul edilirse,

MapReduce, dryad, fikir madenciliği, yoğunluk temelli algoritma, alt uzay algoritması ve k-

en yakın komşu algoritması 2012 yılından sonra daha çok popüler olmuşlardır.

126

Büyük Veri’den sonra 2012 yılı sonrasında en büyük orana sahip olan MapReduce,

2012 yılı sonrasında 717 tane akademik çalışmanın metninde yer almış ve toplamda ise 862

tane olmak üzere, toplamın %83,2’si 2012 yılından sonra yayınlanmıştır. MapReduce’dan

sonra diğer bir paralel işleme modeli olan Dryad kavramı %80,4 oran ile 2012 yılından sonra

metinlerde daha çok kullanıştır. Dryad’a 2012 yılı öncesinde 638 tane, sonrasında 2616 tane

olmak üzere toplam 3254 tane akademik çalışmanın metninde yer almıştır. Oransal olarak

2012 yılı sonrasında ciddi bir artış gösteren diğer teknik ise fikir madenciliğidir. 2012 yılı

öncesinde 270 tane akademik çalışmanın içinde bulunurken, 2012 yılı sonrasında 544 tane

çalışmanın metninde bulunmuştur. Metninde fikir madenciliği bulunduran 2012 sonrası

akademik çalışmaların oranı %66’dır. Bu bize içinde fikir madenciliği geçen her üç akademik

çalışmanın ikisinin 2012 sonrasında yapıldığını göstermektedir.

Fikir madenciliğinin üst başlığı konumunda olan ve dilin bilgisayarlar tarafından

anlanabilmesine yönelik olan doğal dil işleme EbscoHost ASC veritabanında 2012 öncesinde

4176 tane, 2012 sonrasında 2555 tane olmak üzere toplamda 6731 akademik çalışmanın

metninde yer almıştır. 2012 sonrasında %38 oranıyla doğal dil işlemede gelişmekte olduğunu

ispatlamaktadır. Özellikle 2012 öncesinde 4176 tane akademik çalışma metninde yer alan

doğal dil işleme, fikir madenciliğini metninde bulunduran akademik çalışmalarının sayısının

yaklaşık 15 katıdır. 2012 sonrasında ise 2555 tanedir. Bu sayı da 2012 sonrasında fikir

madenciliğini metninde bulunduran akademik çalışmaların sayısının yaklaşık 5 katıdır. Bu

oranlar bize 2012 öncesinde dili anlamada daha çok doğal dil işleme kavramı kullanılırken,

daha sonra akademik çalışmaların spesifik olarak fikir madenciliğini kullanmaya başladığını

göstermektedir.

Araştırmanın yapıldığı tamamı EbscoHost ASC veritabanında Büyük Veri’yle ilgili

en fazla sayıda akademik çalışmanın içerisinde geçen terimler veri madenciliği ve yapay sinir

ağlarıdır. Veri madenciliği 2012 yılı öncesinde 24462 tane, sonrasında ise 13856 tane olmak

üzere toplamda 38 318 tane akademik çalışmanın metinlerinde kullanılmıştır. Yapay sinir

ağları da %38 oranında 2012 yılından sonra yazılmış olan akademik çalışmaların metinlerinde

rastlanmıştır. Toplam 17791 tane akademik çalışmanın metninde yer alan yapay sinir

ağlarının, 6724 tanesi 2012 yılı sonrasında, 11067 tanesi ise 2012 yılı öncesinde

yayınlanmıştır.

127

Kümeleme analiz tekniklerinden hiyerarşik kümeleme diğer kümeleme tekniklerine

nazaran çok fazla metin içinde kullanılmıştır. Bölümleyici kümeleme toplamda 132, yoğunluk

temelli algoritma 287, ızgara temelli algoritma 68 ve alt uzay algoritması toplamda 225 tane

akademik çalışmanın metinlerinde kullanılmışken, hiyerarşik kümeleme toplamda 14630 tane

kullanılmıştır.

Büyük Veri’nin akademik çalışmalarda kullanımı üzerine yapılan araştırmada,

dünyanın en geniş veritabanı olan EbscoHost ASC veritabanı incelenmiştir. Büyük Veri ve bu

tez bağlamında ele alınan yöntem ve teknikler akademik çalışmaların başlıklarında,

özetlerinde, anahtar sözcüklerinde ve metin içlerinde aranmıştır. Hem Türkiye’deki YÖK tez

veritabanında hem de araştırmanın yapıldığı veritabanındaki sonuçlardan, Büyük Veri yılı

olarak atfedilen 2012 yılı sonrasında Büyük Veri’yle ilgili akademik çalışmaların sayılarında

ciddi artışlar olduğu gözlemlenmiştir. Bu tez bağlamında yapılan araştırmanın benzerini

Halevi ve Maod (2012) Scopus veritabanında bulunan araştırmalar üzerinden yapmışlardır.

Grafik 5’te de görüldüğü gibi 2008’de başlayan artış devam etmekte ve 2012’de geçmiş

yıllara nazaran önemli bir artış görülmektedir. Ve bu artış her geçen sene devam etmektedir.

Grafik 5: Yıllara göre Büyük Veri Konusundaki Akademik Çalışmalar

Kaynak: Reseach Trends Special Issue on Big Data 30 Eylül 2012 s. 4

Son olarak, sadece Büyük Veri ifadesini başlıklarda, özetlerde, anahtar kelimelerde

ve metin içerinde aratılmasıyla ortaya çıkan sonuçlar Tablo 23’te gösterilmiştir.

128

Tablo 23: Büyük Veri Kavramının Akademik Çalışmalarda Arama Sonuçları

BÜYÜK VERİ 2012

Öncesi

2012

Sonrası Toplam

2012

Sonrasının

2012

Öncesine

Oranı

%

2012 Yılı

Sonrasının

Toplam

İçindeki

Oranı

%

Başlıklarda Arama 67 1154 1221 1722,4 94,5

Özetlerde Arama 56 1861 1917 3323,2 97,0

Anahtar Kelimelerde Arama 1 520 521 52000,0 99,8

Metin İçinde Arama 514 7396 7910 1438,9 93,5

Toplam 638 10931 11569 1713,3 94,4

EbscoHost ASC veritabanında “Büyük Veri” kavramına başlığında yer veren

akademik çalışma sayısı 2012 yılı öncesinde 67 iken 2012 yılı sonrasında 1154 olmak üzere

toplamda 1221’dir. 2012 yılı sonrasında başlığında Büyük Veri geçen çalışmalar toplam

çalışmaların %94,5’ini oluşturmaktadır. Özetinde Büyük Veri kavramına yer veren toplam

akademik çalışma sayısı 1917’dir ve 2012 yılı sonrasında yapılan çalışmalar toplam

çalışmaların %97’sini oluşturmaktadır. 2012 yılı öncesinde sadece bir tane akademik

çalışmanın anahtar kelimelerinde yer alan Büyük Veri, 2012 yılı sonrasında 520 tane

akademik çalışmanın anahtar kelimelerinde yer almıştır. Büyük Veri kavramı EbscoHost ASC

veritabanında toplam 7910 tane akademik çalışmanın metin içerisinde yer almıştır. 2012 yılı

öncesinde 514 tane akademik çalışma varken, 2012 sonrasında 7396 tane çalışmanın metin

içerisinde Büyük Veri ifadesine rastlanmıştır.

4.5. ARAŞTIRMANIN SONUCU

Araştırmanın gerçekleştiği tamamı EbscoHost ASC veritabanında 1992-2007 yılları

arasında başlığında 12 tane Büyük Veri ifadesini başlığında bulunduran akademik çalışma

varken, 2008’de 13 olması dikkate değerdir. Bunun olası nedenlerinden birisi 2008 yılında

Wired dergisinde yayınlanan Petabyte Çağı (The Petabyte Age) başlıklı yazısıdır. Bu yazıda

Büyük Veri kavramı “bilimi, tıbbı, işletme yönetimini ve teknolojiyi değişime uğratan devasa

miktarda veriyi tutma, depolama ve anlama kabiliyeti” olarak ifade edilmektedir (Wired,

129

2008). Bu ve bu yazı gibi çeşitli uluslararası yayın yapan yayınların Büyük Veri’ye yer

vermesi hemen ardından akademik çalışmalarda karşılığını bulmaktadır. Aynı şekilde 2012

Şubat’ta New York Times’ta yayınlanan Büyük Veri Çağı (The Age of Big Data) başlıklı

yazısı, Dünya Ekonomik Forumu (World Economic Forum) 2012’de yayınlamış olduğu

raporda “Büyük Veri Büyük Etki” (Big Data Big Impact) raporu ve 2012 Nisan ayını

“Matematik, İstatistik ve Veri Seli için Farkındalık Ayı” olarak ilan edilmesi 2012 yılındaki

Büyük Veri ve onunla alakalı tüm terimlerin akademik çalışmaların sayısında ani artışa neden

olmuştur.

2012 yılı öncesinde başlığında veri madenciliği bulunan akademik çalışma sayısının,

2012 yılı öncesindeki toplam akademik çalışma sayısına oranı %28’ken, 2012 yılından sonra

bu oran %18’e düşmüştür. Bu durum çatı bir konumda olan veri madenciliğinin konumunu

biraz değiştirmiştir. Yani 2012 sonrasında veri madenciliği altındaki metin madenciliği gibi

çeşitli tekniklerle ilgili yapılan akademik çalışmalarda, artık veri madenciliği ifadesini

başlıkta kullanmak yerine akademik çalışmadaki spesifik tekniğin adı başlıkta kullanılır

olmuştur. Veri madenciliği altındaki tekniklerle ilgili yapılan akademik çalışmaların

artmasıyla birlikte artık genel olarak “veri madenciliği” şemsiyesi değil kullanılan tekniklerin

her biri zamanla şemsiye konumuna geçmekte ve kendi alt dalları da akademik çalışmalarda

yer almaktadır. Bu durumu daha da derinleştirirsek, veri madenciliği kapsamında kümeleme

yöntemleri 1990’lı yıllara kadar sadece hiyerarşik kümeleme olarak tek başlıktayken, internet

verilerinin artmasıyla birlikte yeni teknikler geliştirilmiştir. Bu yeni teknikleri sıralayacak

olursak; bölümleyici, yoğunluk temelli kümeleme analizleri, ızgara temelli algoritmalar ve alt

uzay arama algoritmalarıdır. Bunlar gibi yeni teknikler veri madenciliği bünyesinde bulunsa

da giderek akademik çalışmalarda kendi özel isimleriyle anılmakta ve veri madenciliği

kavramını eskisi kadar çok kullanmamaktadırlar. Bu durum diğer yandan veriye ve veri

analizine bakışın da değiştiği ve veri analizinin daha özel ve daha spesifik olduğunu

göstermektedir.

Paralel işleme modellerinden MapReduce 2004’te Google tarafından geliştirilerek,

Büyük Veri analizinde en çok kullanılan açık kodlu yazılım çerçevesi olan Hadoop’un temel

bileşeni olmuştur. EbscoHost ASC veritabanında da MapReduce ilk defa 2007’de akademik

bir çalışmanın konu başlığında yer almıştır. Bununla birlikte 2012 yılına kadar paralel işleme

130

alanında en çok kullanılan model MPI iken, Google ve Hadoop’la birlikte MapReduce MPI’ın

önüne geçmeye başlamıştır. Her ne kadar mevcut durumda MPI daha çok akademik

çalışmalarda kullanılmış olsa da, MapReduce ivme kazanmış bir halde akademide yer

almaktadır ve gelecekte daha da çok çalışmanın içinde yer alacağı tahmin edilmektedir.

Burada teknolojinin, bilgisayarların işlem hızını artırması var olan imkanları daha da

artırmaktadır. MapReduce paralel işleme modeli olarak karşımıza çıkarken, amaç büyük

miktarlardaki veriyi anlık olarak eş işlemcilere ayırmak ve anında analiz etmektir Özellikle

pazarlamadaki rekabetçi ortam, verinin anlık olarak ölçülüp, analiz etmeyi ihtiyaç haline

getirmiştir. Burada devreye temelde yapay sinir ağları eseri olan MapReduce gibi teknolojik

teknikler girmektedir.

Dikkat çeken diğer bir durum ise 1972 tarihinde doğal dil işleme kavramının

akademik bir çalışmanın özetinde yer almasıdır. O çalışma incelendiğinde “MUSE: A Model

To Understand Simple English” başlıklı bir çalışma ve İngilizce’yi anlamak için geliştiren bir

modeli anlatmaktadır. Bu durum bilgisayarların insan dilini anlaması için yapılan çalışmaların

bilgisayarların icadından beri devam ettiğini göstermektedir. 2008’de ilk kez bir akademik

çalışmanın başlığında yer alan fikir madenciliği de doğal dil işleme uygulamalarından en çok

bilinen olarak özellikle 2012 sonrasında akademik çalışmalarda hızla artmaktadır. Web 2.0’ın

devamı niteliğinde olan yeni nesil web, akıllı web olarak ifade edilen Web 3.0’ün gelişimi de

bu anlamda etkilidir. Çünkü Web 3.0, semantik web, doğal dil işleme, veri madenciliği ve

yapay zeka gibi teknolojileri kullanarak makinelerin anlamasını sağlamaktadır. Daha üretken

ve sezgisel bir kullanıcı deneyimi sağlayan Web 3.0 kullanıcıya göre şekillenebilme

özelliklerine sahiptir. Web 3.0 teknolojilerini ilk kullanan şirketlerden biri olan Nova

Spivack’s Twine, 2010 ile 2020 arasında web’in semantik web olacağını ifade etmektedir.

(Cho, 2008). 2010 yılında Apple tarafından geliştirilen Siri, kişisel akıllı asistan olarak doğal

dil işlemeye ve semantik web’e verilebilecek en belirgin örnektir. Yeni nesil internet dönemi

2010’dan itibaren başlamıştır ve bu durum akademik çalışmalarda da doğal dil işleme ve fikir

madenciliği kavramlarının kullanımının artmasına neden olmuştur.

EbscoHost ASC veritabanında başlık, özet, anahtar kelime ve tüm metin içinde

yapılan aramalar sonucunda Büyük Veri, k-en yakın komşu algoritması, yoğunluk temelli

algoritma, ızgara temelli algoritma, MapReduce, metin madenciliği ve fikir madenciliği

131

teknikleri genel olarak akademik çalışmaların tüm bölümlerinde 2012 sonrasında dikkate

değer artışlar göstermişlerdir. Tüm teknikler içinde “algoritma” ifadesi geçen bu dört tekniğin

de 2012 sonrasında artması Büyük Veri analizinin bilgisayar ve matematik bilimlerinin

kesişiminde yer aldığını göstermektedir. Bilgisayar kısmını yazılım ve donanım oluştururken

matematik kısmını ise istatistik teknikleri ve mantık oluşturmaktadır.

Ayrıca Büyük Veri analizinde 2012 sonrasında özellikle dil ve anlam üzerine

çalışmalar önem kazanmış olduğunu metin madenciliği ve fikir madenciliği ifadelerinin

akademik çalışmalarda daha da fazla kullanılmasından anlamaktayız. Bu durumun iki temel

nedeninden biri Web 3.0’ın ortaya çıkması ve gelişmesidir. Diğer nedeni ise temelde

pazarlama merkezlidir çünkü günümüzdeki rekabet ortamında kurumlar markaları, ürünleri ve

kendileri hakkında internette neler konuşulduğunu takip etme ihtiyacı hissetmektedirler.

Şirketler, sosyal medya kullanıcılarının ve müşterilerinin fikirlerini öğrenmek ve onların

ihtiyaçları doğrultusunda doğru zamanda ve doğru ürünü onlara sunarak, onların satın

almalarını sağlamak ve kar etmek zorundalar. Bunun temel yolu da kişilerin ne dediklerini, ne

yediklerini, nerelere gittiklerini, ne giydiklerini, ne dinlediklerini vb. kısacası her şeylerini

takip etmek, ölçümlemek ve analiz etmektir. Bu yüzden kullanıcı içeriklerinin daha hızlı

analiz edilmesi, anlık olarak ölçümlenmesi pazarlama stratejileri açısından çok önemlidir.

Bunun yanında risk yönetiminde ve müşteri merkezli sonuçlar elde etme de Büyük Veri’den

öngörüler oluşturmak için dilbilim ve anlambilimle ilgili olan metin madenciliği ve fikir

madenciliği teknikleri son yıllarda akademik çalışmalarda da giderek önem kazanmıştır.

132

5. SONUÇ

Teknolojinin gelişmesiyle birlikte makineleşme ve internet teknolojileri baş

döndüren bir hızla büyümeye başlamıştır. Hem bireysel hem de toplumsal anlamda çeşitli

dönüşümler yaşanmaktadır, bu dönüşümler sosyal bilimlerden fen bilimlerine kadar birçok

alanı etkilemektedir. Bu etki alanının giderek artmasının nedeni ise teknolojik gelişmelerle

birlikte ortaya çıkan Büyük Veri kavramıdır. Büyük Veri’yle, farklı formatlardaki, sürekli

artış içinde olan devasa miktarlardaki veriyi ve bu verilerin analizi ifade edilmektedir. Sosyal

medyanın insanlar üzerinde etkisinin artmasıyla birlikte, sosyal medya platformlarında

üretilen verinin hem miktarının hem de değerinin artmış olması, aynı zamanda makineler

arasındaki iletişim sonucu ortaya çıkan verilerin insan yaşamını ve toplumu etkilemesi, Büyük

Veri’nin sosyal bilimler alanında da incelenmesini ihtiyaç haline getirmiştir. Bu tez

bağlamında Büyük Veri’nin sosyal bilimlerdeki araştırma yöntemlerle ve mevcut istatistiksel

yöntemlerle analiz edilip edilemediği tartışılmıştır. Yapılan literatür taraması sonucunda,

Büyük Veri analiz tekniklerinin birçoğunun temelinde, mevcut istatistiksel yöntemlerin yer

aldığı ve bu istatistiksel yöntemlerle Büyük Veri’nin analizinin mümkün olduğu sonucuna

varılmıştır. Geleneksel sosyal bilimlerdeki araştırmalarla Büyük Veri araştırmalarının

süreçlerinin ve özellikle internet araştırmalarında kullanılan analiz araçlarının Büyük Veri

analiz teknikleriyle örtüştüğü sonucuna ulaşılmıştır. Ayrıca Büyük Veri’nin akademik

çalışmalarda kullanımı üzerine nicel tarama araştırması yapılarak, Büyük Veri’nin akademik

çalışmalardaki durumu değerlendirilmiştir. Büyük Veri yılı olarak atfedilen 2012 yılının

Büyük Veri’yle ilgili akademik çalışmalar da önemli bir tarih olduğuna, 2012 yılı sonrasında

Büyük Veri’yi ve analiz tekniklerini konu alan akademik çalışmaların sayısının ciddi artış

gösterdiği sonucuna ulaşılmıştır.

Bu çalışma Büyük Veri’yi temel alarak yapılan Türkiye’deki ilk tez çalışmasıdır.

Ayrıca, Türkiye’de başlığında büyük veri ifadesi geçen 9 adet tez incelendiğinde, büyük veri

kavramının sadece çok miktardaki veri yerine kullanıldığı görülmüştür. Ayrıca bu tezlerin

sekiz tanesi “Bilgisayar Mühendisliği Bilimleri” alanında diğer bir tanesi ise “Endüstri ve

Endüstri Mühendisliği” alanında yazılmıştırlar. Bu bağlamda bu tez çalışması sosyal bilimler

alanında yazılmış olmasıyla da bir ilk olma özelliği taşımaktadır. Sosyal bilimlerdeki

araştırma yöntemlerine veya veri madenciliğine ve veri analiz yöntemlerine odaklanan tezler

133

olmasına rağmen, bu analiz yöntemleriyle sosyal bilimlerdeki araştırma yöntemlerinin örtüşüp

örtüşmediği ilk kez ele alınmıştır. Araştırmanın sahip olduğu kapsam ve sınırlılıklar da göz

önünde bulundurularak elde edilen bulguların değerlendirilmesi ve öneriler aşağıda

paylaşılmıştır.

Bilimin gelişmesiyle birlikte “veri”, disiplinler arası bir kavram olmaya başlamıştır.

Sanayi devri öncesinde sadece bir argümanda verilen şeyler olarak ifade edilirken, sonrasında

deney, gözlem, hesaplama ile elde edilen gerçekler olarak ifade edilmeye başlanmıştır.

Günümüzde ise her bir alan için farklı anlamlara sahip olan veriye; ham ve işlenmemiş

gerçekler, yorum katılmamış, içeriği olmayan semboller veya bilgisayar için işlenebilir

duruma getirilmiş sayısal ya da sayısal olmayan nicelikler gibi çeşitli tanımlamalar yapmak

mümkündür. Veriye bakış açılarının farklı olması beraberinde verinin farklı

sınıflandırılmalarına da neden olmuştur. Bu tez bağlamında veri sınıflandırmaları, nitel ve

nicel veri, birincil ve ikincil veri, yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış

veri, atıl veri ve sosyal veri olmak üzere dokuz alt başlıkta incelenmiştir. Farklı tanımlamaları

olsa da ortak görüş verinin enformasyonun alt basamağı olduğu ve bir anlam kazanabilmesi,

bilgi olabilmesi için çeşitli süreçlerden geçmesi gerektiğidir. Teknolojinin gelişmesiyle

birlikte veri kaynaklarının sayısı, çeşitliliği artmıştır. Veri miktarının artmasıyla birlikte,

verinin depolanması, işlenmesi ve analizi giderek zorlaşmış ve veriden bilgiye erişim süreci

daha da karmaşıklaşmıştır. İstenen veriye ulaşmayı kolaylaştırmak için çeşitli yollar

oluşturulmuştur. Bunlardan biri olarak ortaya çıkan “meta veri”; “veri hakkındaki veri” olarak

ifade edilmektedir. Meta veri sayesinde farklı kaynaklardan oluşturulan verilere standart

açıklamalar getirilmiştir. Yani meta veri, veriye ait formatı, üretim tarihi, boyutu, ismi gibi

çeşitli açıklamaları barındırmaktadır. Bilgisayarların veriyi analiz etmelerinde meta veri

etkilidir; çünkü bilgisayarın o veriyi tanıması meta veriye bağlıdır. Bilgi hiyerarşisinde

veriden enformasyona, enformasyondan bilgiye erişiminde verilerin bilgisayarlar tarafından

alınmasında, depolanmasında, işlenmesinde ve analizinde meta veri etkin rol oynar. Meta veri

miktarı ne kadar fazla ise geçiş süreci o kadar hızlı ve sistemde oluşabilecek belirsizlikte o

kadar az olacaktır.

Meta veri Büyük Veri’nin analizinde de etkilidir. Büyük Veri’nin sahip olduğu temel

özelliklerden biri olan “veri hacmi”, verinin miktarını; “veri hızı”, üretildiği anda

134

yayılabileceğini, “veri çeşitliliği”, yapısında farklı formatlarda verileri barındırıyor olması,

“veri doğruluğu”, Büyük verinin güvenilirliğini ve “veri değeri” ise Büyük Veri’nin

içerisinden çıkarılacak anlamı ifade etmektedir. Veri hacminden ve veri çeşitliliğinden dolayı

Büyük Veri analizinde meta veriye ihtiyaç duyulmaktadır. Büyük Veri’nin disiplinler arası bir

kavram olması nedeniyle kesin bir tanımı yapılamamaktadır. Büyük Veri’ye ait literatürde

bulunan farklı kavramlara da bu tez kapsamından değinilmiştir. Büyük Veri’nin farklı

tanımlamalarının bulunmasının ve disiplinler arası bir terim olmasının nedeni, yukarıda

bahsettiğimiz Büyük Veri’nin bu beş bileşeni ve çok boyutlu olmasıdır. Büyük Veri’deki

“Büyük” ifadesi aslında verinin hacminden gelmektedir. Web 2.0 ile veri miktarının %90’ını

son yıllarda üretilmiştir. Örneğin, New York Borsası’nın her gün yapılan hisse senedi

alışverişlerine ilişkin 1 terabyte’lık veri toplaması, bir jet uçağının uçtuğu her 30 dakikada 10

terabyte’lık algılayıcı verisi elde etmesi, Twitter’da günde ortalama 500 milyondan fazla

tweet atılması, Facebook üye sayısının 1,2 milyarı geçmiş olması ve paylaşılan içeriklerin

günlük 2,5 milyarı geçmesi ve Instagram’da günlük ortalama 40 milyondan fazla fotoğraf

yüklemesi gibi durumlar Büyük Veri’nin önemini yansıtmaktadır. Büyük Veri’nin sahip

olduğu diğer özellikler de ona artı değer katmaktadır. Veri kapsamlılığı ile örneklem yerine,

tüm veriyle çalışmayı, Büyük Veri dizinselliği ile her bir meta için özgün etiketlendirmeyi ve

kimliklendirmeyi mesela DOI numaraları veya RFID etiketlendirmelerini kapsamaktadır.

Esneklik özelliği sayesinde sistemlerin geliştirilebilirliği, Büyük Veri’nin ilişkisellik

özelliğiyle de farklı boyutlardaki veri setlerinin birleştirilerek, kendi aralarındaki ilişkilerle

yeni soruların cevaplandırılması ifade edilmektedir. Büyük Veri’nin sahip olduğu değeri

çıkarmak ve içgörüler oluşturmak için gerekli olan teknoloji aynı zamanda Büyük Veri’nin

sınırlılıklarındandır. Çünkü verinin toplanması, depolanması, işlenmesi ve analiz edilebilmesi

için hem güçlü analitiklere hem de bu analitikleri kullanmak için becerilere ihtiyaç vardır.

Yazılım, istatistik ve matematik bilgisine sahip veri bilimcilerine ihtiyaç duyulmaktadır.

Bunun yanında diğer bir zorluk ise veriye erişimdir. Büyük Veri şirketleri sahip oldukları

veriyi paylaşma konusunda cimri davranmaktadırlar. API’ler sayesinde sosyal ağlardaki

Büyük Veri’nin bir miktarı elde edilse de tamamı elde edilememektedir ve ayrıca kimi veriler

çeşitli nedenlerden dolayı dışarı verilememektedir. Bu nedenlerin başında mahremiyet ve

kişisel haklar yer almaktadır. Büyük Veri’nin sınırlılıklarından bir diğeri de veri

politikalarıdır. Veri politikaları mahremiyet, güvenlik, telif hakkı gibi birçok durumla alakalı

yasa ve kuralları içermektedir. Özellikle akademik çalışmalarda Büyük Veri’ye erişim daha

135

sınırlıdır. Çünkü özel sektörde veya kamuda kişilerin zaten çeşitli verileri mevcuttur ancak

akademide sınırlıdır. API’ler sayesinde veri alımı gerçekleşmekte ya da Twitter’ın ilk kez

2014 yılında yapmış olduğu Data Grants isimli projelerle Büyük Veri’ye erişim

sağlanmaktadır. Ancak bu durum çok kısıtlıdır çünkü böyle büyük projelerden de sadece

birkaç büyük araştırma merkezi faydalanmaktadır.

Büyük Veri kaynaklarını makine ve insan verileri olarak temelde ikiye ayırırsak,

insan verilerinin büyük bir kısmını aslında sosyal medyada üretilen veriler olarak

adlandırabiliriz. Sosyal medyanın insan hayatında etkin rol almasıyla birlikte sosyal

bilimlerde yapılan araştırmaların mecrası genişleyerek araştırmalara internet de katılmıştır. Bu

yüzden geleneksel araştırma yöntemlerinin, internet araştırmalarında uygulanması

incelenmiştir. Geleneksel araştırmalarda olsun, internet araştırmalarında olsun araştırma

süreçleri birbirine benzerlik göstermektedirler. Bir problemle başlayıp, veri toplama ve en

sonunda da analiz ve raporlaştırma süreci Büyük Veri analizinde de aynıdır. Veri toplama

araçları geleneksel sosyal bilimlerde dokümanlar, anket, gözlem ve görüşmeyken, internet

araştırmalarında bu araçlar internete uyarlanmıştır. Araştırmacı odak grup görüşmesini yüz

yüze yapmak yerine, katılımcılarla internet üzerinden yapmaktadır. İnternet üzerinden

uygulanan veri toplama araçları, diğer yöntemlere göre daha hızlı, daha az maliyetlidir. En

belirgin özelliği ise daha esnek ve anından analiz edilebilir olmasıdır. Geleneksel anketi

dağıttıktan sonra değişiklik yapmak çok zordur ama çevrimiçi anketlerde anında değişiklik

yapılabilmektedir. Toplanan veriler tekrardan kodlanıp bilgisayar ortamına girmek yerine,

yanıtlar direkt kodlanmış olarak elde edilmektedir. Diğer yandan internet araştırmalarındaki

veri toplama araçlarının geleneksel araçlara göre yanıtlama oranları daha düşüktür. Sosyal

bilimlerde araştırmalar nicel ve nitel yöntem olarak ikiye ayrılmaktadır. Nicel araştırmada

toplanan veriler sayısal olarak ifade edilerek analiz edilmektedir. Nicel araştırmalardan tarama

araştırmasında geleneksel sosyal bilimlerde literatür taraması yapılırken veya anket ile veri

toplanıp analiz edilirken, internet araştırmalarında tarama araştırmaları daha tekniktir. Blog

taraması, Twitter taraması ve web sitelerinin taranmasıyla araştırmalar gerçekleştirilir. Burada

da farklı tarama araçlarından faydalanılır. Blogları taramayla elde edilen veri miktarına bağlı

olarak Büyük Veri özellikleri taşıyabilir ve internet tarama araştırmaları Büyük Veri’nin

araştırılmasına benzemektedir. Ayrıca tarama araştırmaları katılımcıların ya anlık cevaplarını

ya da süreç içindeki cevaplarını toplamaktadır. Bu açıdan özellikle sosyal medya üzerinden

136

yapılan araştırmalarda kullanıcıların takip edilmesiyle toplanan veriler hem süreci hem de

kişilerin zaman içinde düşüncelerinde varsa değişiklikler bunları da tespit etmektedir.

Deneysel araştırmalarda neden sonuç ilişkisi ya da kontrol gruplar yer almaktadır. İnternet

üzerinde yapılan deney grup çalışmalarında ise kullanıcıların tepki ve eğilimleri ölçülmek

istenmektedir. Mesela Facebook yapmak istediği bir arayüz değişikliğinde, bir grup

kullanıcının arayüzünü değiştirerek tepkilerini ölçerek arayüz değişiklikleri gibi çeşitli

değişiklerde kullanıcıları denek olarak kullanır. Nitel araştırmada ise ilişkiler, durum veya

olay hakkında derinlemesine bilgi elde edilir ve “Neden?” ve “Niçin?” sorularının cevapları

aranır. Nitel yöntemlerden özellikle etnografi araştırmalarında araştırmacı aynı zamanda

katılımcı olarak bulunduğu gruptaki insanların davranışlarını gözlemleyerek, ilişkiler ve

kültür üzerinden grubu açıklamaya çalışmaktadır. İnternetin gelişmesiyle birlikte kullanıcılar

çeşitli özelliklerine göre çevrimiçi gruplar kurmaya başlamışlardır. Etnografik araştırmaların

internet ortamında yapılmasına netnografi denilmektedir ve çevrimiçi gruplar analiz

edilmektedir. Kullanıcılar tarafından üretilen içerikler Büyük Veri’de olduğu gibi metin,

fotoğraf veya video gibi farklı formatlarda bulunabilmektedir. Bu verilerin analizinde

araştırmacı ya bireysel olarak kendisi yapmaktadır ya da Nvivo, Atlas.ti gibi çeşitli analiz

araçları kullanmaktadır. Karmaşık bir durum hakkında bilgi edinmek için kullanılan durum

analizi yönteminde tek bir veri kaynağından toplanan veriler yetmemektedir. Bu yüzden

görüşme, anket veya gözlem gibi farklı veri toplama araçları uygulanmalıdır. Durum

çalışmaları bir olayı meydana getiren ayrıntıları tanımlamak ve görmek, bir olaya ilişkin olası

açıklamaları geliştirmek, bir olayı değerlendirmek amacıyla kullanılır. Sosyal medyanın ve

sanal ortamların artmasıyla birlikte internet üzerinden yapılan durum çalışmaları, geleneksel

yöntemlerle yapılan durum çalışmalarına benzerdir. Çevrimiçi odak gruplarıyla eş zamanlı ya

da eş zamansız yapılan görüşmelerle, duyuru tahtası grupları veya e-posta grupları aracılığıyla

incelenen durumla ilgili veriler toplanabilmektedir. Sonuç olarak baktığımızda nicel ve nitel

araştırmalar internet ve sosyal medya üzerinden gerçekleştirilebilmektedir. Her iki mecrada da

araştırma süreçleri benzerdir ancak araştırmalardaki maliyet, yanıt oranı, verilerin analizi,

modelin esnekliği ve araştırmacının rolü mecrasına göre değişiklik gösterebilmektedir. Hem

geleneksel sosyal bilimlerde hem de internet araştırmalarında verilerin analizinde en çok

kullanılan teknikleri içerik analiz, söylem analizi ya da istatistiksel analizdir. İçerik analizi

kullanıcıları doğrudan gözlemlemek yerine onların ortaya koydukları materyallerin incelenip,

analiz edilmesidir. Geleneksel yöntemlerde daha çok akademik çalışmalar içerik analizi

137

edilirken, internet ve sosyal medyayla birlikte web siteleri, sosyal medya paylaşımları,

profilleri analiz edilmektedir. İçerik analizinde temel istatistiksel teknikler kullanılır. İçerik

analizi için çeşitli yazılımlardan faydalanılmaktadır. Bunlardan en çok kullanılanları ise

SPSS, Nvivo ve Atlas.ti’dir. Yazılım kullanmak şart olmasa da elde edilen veriler bazen

Büyük Veri niteliğindedir ve analizi için bilgisayar desteğine ihtiyaç duyulmaktadır. Diğer

analiz tekniği ise söylem analizidir. Söylem analizi içeriğin anlamını çıkarmaya yöneliktir. Ve

sadece metin değil, görsel anlamlarının da analizini kapsamaktadır. Az miktarda veride yatan

anlamın çıkarılmasını; araştırmacı tek başına yapabilirken, çok miktarda verilerde kaynağın

ne demek istediği ya da o içeriğin bağlamıyla birlikte değerlendirilmesi zordur. Bu yüzden

farklı ortamlar için farklı söylem analizi modelleri geliştirilmiştir. Örneğin Twitter için ayrı,

Youtube için ayrı söylem analizi modelleri geliştirilmiştir. Büyük Veri analiz tekniklerinden

fikir madenciliğide aslında söylem analizinin bilgisayarlar tarafından yapılmasıdır. Özellikle

internet bağlamında yapılan araştırmalarda elde edilen veriler Büyük Veri özelliklerini

taşıdığı için analiz edilirken de kullanılan Nvivo gibi araçların Büyük Veri analizinde de

kullanıldığı ve Büyük Veri analiz araçlarıyla benzer özelliklere sahip olduğu görülmüştür. Bu

tez bağlamında yapılan veritabanı araştırmasında varılan en belirgin sonuçlardan birisi, 2012

sonrasında Büyük Veri analiz tekniklerinden fikir madenciliği en çok gelişim gösteren

alanlardandır. Özellikle pazarlama alanında kurumlar ürün ve markaları hakkında sosyal

medyada neler konuşulduğunu, kullanıcıların görüşlerini analiz etmek istemektedirler.

Kullanıcıların olumlu ya da olumsuz görüşleri de fikir madenciliği sayesinde elde

edilmektedir. Bu yüzden Büyük Veri analizlerinde son zamanlarda anlambilimsellik üzerine

durulmaktadır.

Büyük Veri analiz süreci sosyal bilimlerdeki araştırma süreçleriyle benzerdir.

Problemin belirlenmesi, verilerin toplanıp işlenmesi ve analiz edilerek değerlendirilmesi

süreçlerini kapsamaktadır. Büyük Veri analizinde özellikle veri ön işleme süreci en fazla

zaman ve emek almaktadır. Farklı kaynaklardan toplanan verilerin birliştirilmesi, Büyük

Veri’nin temizlenmesi ve indirgenerek analize hazır olması süreci ön işleme süreci olarak

adlandırılır. Veri analizindeki amaç, veride bulunan değeri ve örüntüyü keşfetmek, içgörüler

oluşturmak ve geleceği yönelik tahminler yapmaktır. Büyük Veri’nin analizinde en önde

gelen teknik Veri Madenciliği’dir. Temelini istatistikten alan veri madenciliği, Büyük

Veri’yle birlikte Veri Bilimi’nin gelişmesine de neden olmuştur. Veri Madenciliği olsun, veri

138

bilimi olsun ikisininde de amacı Büyük Veri’deki değeri ve gizli bilgiyi çıkarmaktır. Veri

madenciliği kendi içinde çeşitli yöntemlere ayrılmaktadır. Bu yöntemlerden bazıları

istatistiksel analizlerdendir. Kümeleme tekniği hem istatistikte hem de veri madenciliğinde

kullanılmaktadır. Kümeleme, veri setlerinde birbirine benzer özellikleri taşıyan nesneleri aynı

gruba, farklı özelliklerdekileri de farklı gruplara ayırmada kullanılır. Kümelemede verilerin

sahip olduğu özelliklerinden dolayı ayırım yapılması betimsel yöntemdir. Web 2.0 öncesine

kadar kümelemede sadece hiyerarşik kümeleme tekniği varken, internet verilerinin artmasıyla

birlikte kendi içinde çeşitli yöntemler gelişmiştir. Sosyal bilimlerde özellikle pazarlamada ve

internet araştırmalarında anahtar kelime aramalarda, blog taramalarda ve trend olan

kavramların belirlenmesinde etkilidir. Kümelemeye benzer özelliklerde olan bir diğer teknik

ise sınıflandırmadır. Sınıflandırma, bir nesnenin özelliklerine göre hangi gruna ait olduğunu

belirlemede kullanılır. Sınıflandırmayı kümelemeden ayıran en belirgin özellik, kümelemede

önceden veri gruplarının ve özelliklerinin belirli olmasıdır. Sınıflandırma da ise önceden

herhangi bir grup tanımlanmamıştır. Eldeki verinin özelliğine göre gruplar analiz aşamasında

ayrıştırılır. Eldeki verilerden oluşturulan fonksiyona göre gelecekteki verilerin sınıfları

belirlenir. Bu yüzden çıkarımsal bir yöntemdir. Temelinde istatistiksel yöntemler bulunan

sınıflandırma ise, diskriminant analizi ve regresyon analizleridir. Birliktelik kuralı veya

bağlantı analizi de Büyük Veri için kullanılan yöntemlerdendir. Belirli değişkenlerin birlikte

olma durumlarını ve birlikte olma kurallarını olasılıklar ortaya koymaktadır. Sosyal

bilimlerde Pazar Sepet Analizi olarak bilinen model, birliktelik kural analizine

dayanmaktadır. Müşteri merkezli pazarlama, öneri sistemlerindede ve internet

araştırmalarımda blog taramada kullanılmaktadır. Mevcut istatistiksel yöntemlerden

korelasyon, frekans tablosu ve olasılık hesaplamalarına dayanmaktadır. Yapay sinir ağları,

biyolojik sinir ağlarırından esinlenerek oluşturulmuştur. Verideki örüntüleri bulmak ve eski

verileri kullanarak onları deneyimleştirmek ve makine öğrenimini sağlamak için

kullanılmaktadır. Yapay sinir ağlarının geleneksel analiz yöntemlerinden temel farklarından

biri, verileri aynı anda birbirinden bağımsız işlemcileri bölmesi ve bağımsız çalışan bu

işlemcilerden elde edilen verilerin birleştirilmesidir. Paralel işlemi olarak bilinen bu modelde

teknolojinin gelişmesiyle birlikte MPI, MapReduce ve Dryad modelleri geliştirilmiştir. Büyük

Veri analizinde en çok kullanılan Hadoop, Spark, Pig gibi çeşitli sistemler bu modelleri

kullanmaktadır. Büyük Veri analiz yöntem ve tekniklerinden yapay sinir ağları sosyal bilimler

araştırma yöntemleriyle örtüşmemektedir. Çalışma mantığı farklıdır. Sosyal bilimlerde veri

139

toplanır ve sonra analiz edilirken, yapay sinir ağlarında veriler, birbirinden bağımsız paralel

işlemcilere ayrılmaktadır. Ayrıca yapay sinir ağları, programlanması zor olan veya mümkün

olmayan sistemler için geliştirilmiştir, eş zamanlı olarak bilgi işlenmektedir. Öte yandan

sosyal bilimlerde veri toplandıktan bir süre sonra analiz edilmektedir. Bu durum Büyük Veri

analizinde geleneksel analizlerin yetersiz kaldığı en önemli noktadır. Ancak internet

araştırmalarında, özellikle pazarlama temelli araştırmalarda anlık olarak verinin işlenmesi çok

önemli olduğu için geliştirilen sosyal medya izleme ve ölçümleme araçları veriyi anlık olarak

analiz edebilmektedir. Doğal dil işleme insan dillerinin analizi için bilgisayarların

kullanılmasına dayanmaktadır. Bilgisayarların metinleri farklı şekilde ifade etmesi, dilden dile

çevirmesi, metni anlaması ve çıkarımlar yapması gibi çeşitli görevlerin yapılabilmesini

amaçlanmaktadır. Bilgisayarların icat edildiğinden beri bilgisayarların dilleri anlaması üzerine

çalışmalar yapılmaya devam edilmektedir. Bu durum bu tez bağlamında yapılan araştırmada

doğal dil işleme üzerine yapılan ilk akademik çalışmalar incelendiğinde net olarak

anlaşılmaktadır. Doğal dil işlemenin en çok bilinen uygulamaları metin madenciliği ve fikir

madenciliğidir. Bu yöntemler yapısal olmayan verileri analiz ederek, bilgisayarların metni

veya veriyi anlaması, anlamlandırmasıyla ilişkilidir. Metin madenciliği içerik analiziyle, fikir

madenciliği de söylem analiziyle benzerdir ancak henüz çok yeni bir alandır. Fikir

madenciliği, bilgisayarların bağlam dahilinde metinlerin sahip olduğu öznel bilginin

çıkarması ve anlamlamdırmasıdır. Özellikle pazarlama alanında etkinliği olan fikir

madenciliğini, pazarlamacılar ürün ve markaları hakkında bilgi toplamak üzere

kullanmaktadırlar. Kurumlar hem kendi markalarını hem de rekabet halinde oldukları

markaları izlemeye ihtiyaç duymaktadırlar. Sosyal medyada markaları hakkında üretilen

içeriklere fikir madenciliği teknikleriyle yaklaşan pazarlamacılar, tüketicilerin olumlu,

olumsuz görüşlerine göre bir sonraki adımlarını belirleyebilmekte ve müşteri merkezli

pazarlama stratejileri geliştirebilmektedirler. Ancak çok yeni olan bu alan, henüz olgunluk

aşamasına gelmemiştir. Bilgisayarlar tarafından sadece sözcüklerin anlamları anlaşılabilir olsa

da bağlam içinde tam olarak metnin amacı kavranamamaktadır. Yapılan araştırmada da bu

alanın özellikle Büyük Veri’yle birlikte daha da popüler olmaya başladığı ve anlambilim ve

dilbilim üzerine yapılan çalışmaların hız kazandığı görülmektedir. Bu durum bir anlamda

Web 3.0’ün hayatımıza girmeye başlaması ve öneminin giderek artmasına da işarettir.

140

Ebschosct veritabanında yapılan taramada, Büyük Veri tekniklerinden veri

madenciliği 2012 öncesinde daha çatı bir konumdayken, 2012 yılı sonrasında her bir tekniğin

kendisinin akademik çalışmaların başlıklarında yer almaya başladığı gözlemlenmiştir.

Verilerin eş zamanlı işlenebilmesi için teknolojiler daha da geliştirilmiştir. Yapay sinir ağları

modellerinden olan MapReduce bu bağlamda akademik çalışmalarda en fazla artış gösteren

kavram olmuştur. En çok kullanılan Büyük Veri analiz teknolojisi olan Hadoop, Pig, Hive ve

Spark gibi çeşitli platformlar verinin anlık analizini sağlamaktadır ve yapılarında yapay sinir

ağları modeli olan MapReduce veya Dryad’ı bulundurmaktadırlar. Özellikle algoritma içeren

veri analiz tekniklerinin 2012 sonrasında akademik çalışmalarda artış göstermesi, matematik

ve bilgisayarların daha da iç içe olduğunu göstermektedir. Ayrıca bilgisayarların yaşamamıza

girdiği andan itibaren bilgisayarların insan dilini anlamasına yönelik çalışmalar devam

etmektedir ve Ebschosct veritabanındaki akademik çalışmalar incelendiğinde Büyük Veri’yle

birlikte son yıllara metin madenciliği ve fikir madenciliği konuları üzerine yapılan akademik

çalışmaların arttığı gözlemlenmiştir. Bunun temel nedenleri de sosyal medyanın yaşamımızda

öneminin artması, rekabetçi pazarlama ortamının kişileri sürekli olarak izleyip ölçümlemesi,

müşteri odaklı pazarlama stratejilerini geliştirmek ve daha çok kar etmek için yapılan

yatırımlardır.

Son olarak bu çalışmanın sınırlılıklarına ve beraberinde geleceğe yönelik önerilere

değinecek olursak; bu tez bağlamında yapılan araştırmada mevcut istatistiksel yöntemlerle

Büyük Veri’nin analizinin mümkün olup olmadığı sadece literatür taraması sonucunda

ulaşılmış olması, bu durumun test edilememiş olması çalışmanın sınırlılıklarındandır. Ayrıca

belirtmek gerekir ki bu tez çalışması biraz geniş yelpazededir. Daha derinlemesine ve sadece

sosyal bilimlerdeki araştırma yöntemleriyle ya da sadece mevcut istatistiksel yöntemlerle

Büyük Veri analizindeki yöntemlere odaklanılarak test edilebilmesi şeklinde geliştirilebilir.

Ya da akademik çalışmalarda kullanımının birkaç farklı veritabanı üzerinden yürütülerek

sonuçların değerlendirilmesi daha yararlı olacaktır.

141

KAYNAKÇA

Ackland, R. (2013). Web Social Science: Concepts, Data and Tools for Social Scientists in the

Digital Age. Londan: Sage.

Ackoff, R. L. (1999). On learning and the systems that facilitate it. Reflections: The SoL

Journal , 14-24.

Agafonoff, N. (2006). Adapting ethnographic research methods to ad hoc commercial market

research. Qualitative Market Research: An International Journal, 115 - 125.

http://www.emeraldinsight.com/doi/pdfplus/10.1108/13522750610658766 adresinden

alınmıştır

Agrawal, R., & Srikant, R. (1994). Fast algorithms for mining association rules. In Proc. 20th

int. conf. very large data bases (s. 487-499). CA: VLDB .

Akbaş, Y., & Takma, Ç. (2005). Canonical correlation analysis for studying the relationship

between egg production traits and body weight, egg weight and age at sexual maturity

in layers. Czech Journal Of Animal Science, 163-168.

Akgün, A., & Keskin, H. (2003). Sosyal Bir Etkileşim Süreci Olarak Bilgi Yönetimi ve Bilgi

Yönetimi Süreci. Gazi Üniversitesi İktisadive İdari Bilimler Fakültesi Dergisi, 1-17.

Akpınar, H. (2014). Data. İstanbul: Papatya Yayıncılık.

Aktaş, M. C. (2015). Nitel Veri Toplama Araçları. M. Metin içinde, Eğitimde Bilimsel

Araştırma Yöntemleri (s. 337-370). Ankara: Pegem.

Akturan, U. (2007). Tüketici Davranışlarına Araştırmalarda Alternatif Bir Teknik:Etnografik

Araştırma. İstanbul Ticaret Üniversitesi Sosyal Bilimler Dergisi , 237-252.

Alpaydın, E. (2000). Zeki Veri Madenciliği. Bilisim 2000 Egitim Semineri. İstanbul. Nisan 2,

2015 tarihinde http://www.cmpe.boun.edu.tr/~ethem/ adresinden alındı

142

Alyanak, Z. B. (2013). Etnografi ve Çevrimiçi Etnografi. M. Binark içinde, Yeni Medya

Çalışmalarında Araştırma Yöntem ve Teknikleri (s. 152). İstanbul: Ayrıntı.

Anı Yayıncılık Eğitim ve Danışmanlık. (2015). ATLAS.ti. 06 12, 2015 tarihinde Anı

Yayıncılık Eğitim ve Danışmanlık: http://www.aniegitim.com.tr/yazilimlar.php?p=17

adresinden alındı

Anthony, S. (2013, Ocak 28). DARPA shows off 1.8-gigapixel surveillance drone, can spot a

terrorist from 20,000 feet. Şubat 10, 2015 tarihinde extremetech:

http://www.extremetech.com/extreme/146909-darpa-shows-off-1-8-gigapixel-

surveillance-drone-can-spot-a-terrorist-from-20000-feet adresinden alındı

Arnould, E., & Wallendorf, M. (1994). Market-Oriented Ethnography:Interpretation Building

and Marketing Strategy Formulation. Journal of Marketing Research, 484-505.

Askitas, N., & Zimmermann, K. F. (2009). Google Econometrics and Unemployment

Forecasting. IZA Discussion Paper, 1-22.

Atlas, M. (2013). Zaman Serileri Analizi. E. Şıklar, & A. Özdemir içinde, İstatistik II (s. 138-

162). Eskişehir: Anadolu Üniversitesi Yayınları.

Atlasti. (2015). Why Atlas.ti? 06 18, 2015 tarihinde Atlasti: http://atlasti.com/ adresinden

alındı

AtWork. (2008). What Reseachers mean by Primary Data and Secondary Data. AtWork(54),

1-8.

Aytekin, Ç. (2011). Müşteri İlişkileri Yönetimi için Bloglar Üzerinde Fikir Madenciliği-

Doktora Tezi. İstanbul.

Aziz, A. (2011). Sosyal Bilimlerde Araştırma Yöntemleri ve Teknikleri. Ankara: Nobel Yayın

Dağıtım.

Bahar, E. (2003). Görüşme Yönteminin Avantajları ve Dezavantajları. 06 14, 2015 tarihinde

Görüşme Yönteminin Avantajları ve Dezavantajları:

143

http://emrebahar.blogspot.com.tr/2012/03/gorusme-yonteminin-avantajlari-ve.html

adresinden alındı

Bayraktutan, G., Binark, M., Aydemir, A. T., Doğu, B., Çomu, T., & İslamoğlu, G. (2013).

Sosyal medya ortamlarının siyasal iletişim uygulamaları açısından incelenmesi:

Türkiye'de 2011 genel seçimlerinde facebook ve twitter'in siyasi partiler ve liderler

tarafından kullanılması. Ankara: Tübitak.

http://uvt.ulakbim.gov.tr/uvt/index.php?cwid=3&vtadi=TPRJ&s_f=_5&detailed=1&k

eyword=159193 adresinden alınmıştır

Ben-Dor, A., Shamir, R., & Yakhini, Z. (1999). Clustering gene expression patterns. Journal

of computational biology, 281-297.

Bennet, R., & Helen, G. (1999). Organizational Factors and Knowledge Management within

Large Marketing Departments: An Empirical Study. Journal of Knowledge

Management,, 212-225.

Birgili, B. (2015). Temellendirilmiş Kuram (Grounded Theory). F. N. Seggie, & Y. Bayyurt

içinde, Nitel Araştırma Yöntem, Teknik, Analiz ve Yaklaşımları (s. 103-114). Ankara:

Anı Yayıncılık.

Bluman, A. (2009). Elementary Statistics. New York: McGraw-Hill.

Borenstein, M., Hedges, L. V., Higgins, J. P., & Rothstein, H. R. (2011). Introduction to

meta-analysis. John Wiley & Sons.

Boyd, d., & Crawford, K. (2011, September 21). Six Provocations for Big Data. A Decade in

Internet Time: Symposium on the Dynamics of the Internet and Society, 1-17.

http://ssrn.com/abstract=1926431 adresinden alınmıştır

Boyd, D., & Crawford, K. (2012). Critical questions for big data: Provocations for a cultural,

technological, and scholarly phenomenon. Information, communication & society,

662-679.

144

BThaber. (2012, Ocak 22). (BThaber) Aralık 11, 2014 tarihinde Yapılandırılmış verinin

önemi: http://www.bthaber.com/yapilandirilmis-verinin-onemi adresinden alındı

Büyüköztürk, Ş. (2008). Bilimsel Araştırma Yöntemleri. Ankara: Pegem Yayıncılık.

Büyüköztürk, Ş., Çakmak, E., Akgün, Ö., Karadeniz, Ş., & Demirel, F. (2014). Bilimsel

Araştırma Yöntemleri. Ankara: Pegem.

Cabena, P., Hadjinian, P., Stadler, R., Verhees, J., & Zanasi, A. (1997). Discovering Data

Mining: From Concept To Implementation. New Jersey: Prentice Hall PTR, Upper

Saddle River.

Celep, C., & Çetin, B. (2003). Bilgi Yönetimi. Ankara: Anı Yayıncılık.

Chen, H., Chiang, R. H., & Storey, V. C. (2012). Business Intelligence and Analytics:From

Big Data To Big Impact. MIS Quarterly, 4, 1-24.

Chen, M., ShiwenMao, Zhang, Y., & Leung, V. C. (2014). Big Data Related Technologies,

Challenges and Future Prospects. New York: Springer.

Cho, A. (2008, Temmuz 22). What is Web 3.0? suite.io: https://suite.io/allan-cho/wy92cm1


Chowdhury, G. G. ( 2003). Natural language processing. Annual review of information

science and technology, 51-89.

Cisco. (2013, Temmuz 29). Connections Counter: The Internet of Everything in Motion.

Şubat 7, 2015 tarihinde The Network Cisco's Techology News Site:

http://newsroom.cisco.com/feature-content?type=webcontent&articleId=1208342

adresinden alındı

Coyle, K. (2006). Managing technology: one world digita. Journal of Academic

Librarianship, 205-207.

Crano, W. D., & Brewer, M. B. (2002). Principles of research in social psychology. New

Jersey: McGraw-Hill.

145

Croll, A. (2012). Big data is our generation’s civil rights issue, and we don’t know it. Big data

now, 55-59.

Çakır, M. (tarih yok). Nvivo'ya Genel Bir Bakış. 06 18, 2015 tarihinde Nvivo'ya Genel Bir

Bakış: http://dosya.marmara.edu.tr/akademikgelisim/sunum/Nvivo.pdf adresinden

alındı

Çakıroğlu, Ü., & Özyurt, Ö. (2006). Türkçe Metinlerdeki Yazım Yanlışlarına Yönelik

Otomatik Düzeltme Modeli. Elektrik‐Elektronik‐Bilgisayar Mühendisliği Sempozyumu

ve Fuarı. Bursa: ELECO. http://www.emo.org.tr/ekler/6e07156db854ca7_ek.pdf


Çelik, H., & Ekşi, H. (2008). Söylem Analizi. Marmara Üniversitesi Eğitim Bilimleri Dergisi,

99-117.

Çelik, M. (2004). Bilgi ve Hikmet:Enformasyon Toplumu'nun Belleği. İstanbul: Kaknüs

Yayınlar.

Çepni, S. (2007). Araştırma ve Proje Çalışmalarına Giriş. Trabzon: Celepler Matbaacılık.

Çomu, T., & Halaiqa, İ. (2014). Web İçeriklerinin Metin Temelli Çözümlenmesi. M. Binark

içinde, Yeni Medya Çalışmalarında Araştırma yöntem ve teknikleri (s. 26-87).

İstanbul: Ayrınt.

Daşdemir, İ., & Güngör, E. (2002). Çok boyutlu karar verme metotları ve ormancılıkta

uygulama alanları. Uluslararası Bartın Orman Fakültesi Dergisi, 1-19.

Davenport, T. H., & Prusak, L. (1998). Working knowledge: How organizations manage what

they know. Harvard Business Press.

Davenport, T. H., & Prusak, L. (2001). İş Dünyasında Bilgi Yönetimi: Kuruluşlar Ellerindeki

Bilgiyi Nasıl Yönetirler. (G. Günay, Çev.) İstanbul: Rota Yayınları.

Davenport, T. H., Barth, P., & Bean, R. (2012). How 'Big Data' Is Different. MIT Sloan

Management Review, 21-24.

146

Demirbaş, M. (2015). Bilimsel Araştırma ve Özellikleri. M. Metin içinde, Eğitim Bilimsel

Araştırma Yöntemleri (s. 3-19). Ankara: Pegem.

Diebold, F. X. (2012, Ağustos). A Personal Perspective on the Origin(s) and Development of

“Big Data”:The Phenomenon, the Term, and the Discipline. Şubat 3, 2015 tarihinde

http://www.ssc.upenn.edu/~fdiebold/papers/paper112/Diebold_Big_Data.pdf

adresinden alındı

Dilmen, N. E., & Öğüt, S. (2006). Yeni İletişim Ortamları ve Etkileşime İletişimsel Bilişim

Yaklaşımı. Yeni İletişim Ortamları ve Etkileşim Uluslararası Konferansı. İstanbul.

Dodge, M., & Kitchin, R. (2003). Codes of life: identification codes and the machine-readable

world. Environment and Planning D. In Society and Space, 23(6), 851 – 881.

Dodge, Y. (2006). The Oxford Dictionary of Statistical Terms. Oxford University Press.

Dorinsgiht. (tarih yok). Online Etnografi. 06 14, 2015 tarihinde Online Etnografi:

http://www.dorinsight.com/arastirma-cozumlerimiz/online-etnografi adresinden alındı

Doug, H. (2011, 7 11). SOFTWARE // INFORMATION MANAGEMENT. 2 5, 2015 tarihinde

InformationWeek: http://www.informationweek.com/database/hadoop-spurs-big-data-

revolution/d/d-id/1101160?page_number=2 adresinden alındı

Dumbill, E. (2012, Ocak 11). What is big data? Ocak 29, 2015 tarihinde Oreilly Radar:

http://radar.oreilly.com/2012/01/what-is-big-data.html#velocity adresinden alındı

Dura, C., & Atik, H. (2002). Bilgi Toplumu, Bilgi Ekonomisi Ve Türkiye. İstanbul: Literatür

Yayıncılık.

Durna, U., & Demirel, Y. (2008). Bilgi Yönetiminde Bilgiyi Anlamak. Erciyes Üniversitesi

İktisadi ve İdari Bilimler Fakültesi Dergisi , 129-156.

Durucasu, H. (2013). Regresyon ve Korelasyon Analizi. A. Özdemir içinde, İstatistik II (s.

116-137). Eskişehir: Anadolu Üniversitesi.

147

Earl, M. J. (1994). Knowledge as strategy: reflections on Skandia International and Shorko

Films. In Strategic information systems. John Wiley & Sons, Inc., 53-69.

Esgin, E. (2009). Literatür Taraması Ana Hatlar. 2015 tarihinde Mimoza Marmara:

http://mimoza.marmara.edu.tr/~esad.esgin/BAY/documents/Literatur_Taramasi.pdf

adresinden alındı

Evans, D. (2011). The Internet of Things How the Next Evolution of the Internet Is Changing

Everything. CISCO white paper, 1-11.

Fayyad, U., Shapiro, G. P., & Symth, P. (1996). From Data Mining To Knowledge Discovery

in Databases,. AI Magazine,, 37-54.

Feinerer, I., Hornik, K., & Meyer, D. (2008). Text Mining Infrastructure in R. Journal Of

Statistical Software, 1-54.

Fiske, S. T., Gilbert, D. T., & Lindzey, G. (2010). Handbook of Social Psychology. Wiley.

Floridi, L. (2010). Information: A Very Short Guide. Oxford: Oxford University Press.

Ford, R., & Wiedemann, J. (2015). Internet Survey Case Studies. Taschen. Haziran 14, 2015

tarihinde

http://www.rand.org/content/dam/rand/pubs/monograph_reports/MR1480/MR1480.ch

6.pdf adresinden alındı

Fraenkel, J. R., & Wallen, N. E. (2007). How to Design and Evaluate Research in Education

(5th edn.). New York: MacGraw-Hill.

Gall, M. D., Borg, W. R., & Gall, J. P. (1996). Educational Research an Introduction. USA:

Longman Publisher.

Galli, T. (2012). Get more from RFID: Extract real value from big data. HP White Paper.

Gamgam, H., Ekni, M., & Esin, A. (2006). İstatistik. Ankara: Gazi Kitapevi.

148

Ganz, J., & Reinsel, D. (2011). Extracting Value from Chaos. IDC iView, 1-12.

https://www.emcgrandprix.com/collateral/analyst-reports/idc-extracting-value-from-

chaos-ar.pdf adresinden alınmıştır

Geray, H. (2011). Toplumsal Araştırmalarda Nicel ve Nitel Yöntemlere Giriş. Ankara:

GenesisKitap.

Gharehchopogh, F. S., & Khalifelu, Z. A. (2011). Analysis and Evaluation of Unstructured

Data:Text Mining versus Natural Language Processing. In Application of Information

and Communication Technologies (AICT), 2011 5th International Conference (s. 1-4).

IEEE.

Ghemawat, S., Gobioff, H., & Leung, S.-T. (2003). The Google File System. ACM SIGOPS

operating systems review , 29-43.

Gilliland Swetland, A. J. (2000). Setting the stage. Introduction to metadata: Pathways to

digital information, 1-12.

Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Mark S. Smolinski, & Brilliant, L.

(2009, Şubat 19). Detecting influenza epidemics using. Nature, s. 1012-1014.

Google Grip Trendleri. (2011). Google Grip Trendleri|Nasıl? Şubat 23, 2015 tarihinde

Google: http://www.google.org/flutrends/about/how.html adresinden alındı

Goulding, C. (2005). Grounded Theory, Ethnography and Phenomenology A Comparative

Analysis of Three Qualitative Strategies for Marketing Research. European Journal of

Marketing, 294-308.

Göçmen, M. ( 2012, Mart 21). Z score. slideshare.net:

http://www.slideshare.net/mgocmen37/z-skorzscore adresinden alınmıştır

Gökçe, O. ( 2006). İçerik Analizi. Ankara: Siyasal Kitabevi.

Gray, J., & Liu, T. D. (2005). Scientific Data Management in the Coming Decade. Redmond:

Microsoft Research Microsoft Corporation One Microsoft Way.

149

Greenberg, J. (2005). Understanding Metadata and Metadata Schemes. Cataloging &

classification quarterly, 17-36.

Guardian US Interactive Team. (2013, Haziran 12). A Guardian guide to yourmetadata |

technology | theguardian.com. 2 16, 2015 tarihinde The Guardian:

http://www.theguardian.com/technology/interactive/2013/jun/12/what-is-metadata-

nsa-surveillance#meta=0000000 adresinden alındı

Guzman, G. (2011). Internet search behavior as an economic forecasting tool: The case of

inflation expectations. Journal of Economic and Social Measurement, 119–167.

Güler, A. (2013). Sosyal Bilimlerde Nitel Araştırma Yöntemleri. Ankara: Seçkin.

Gürdal, O. (2000). Tekstil Endüstrisinde Enformasyon Olgusu. Ankara: Türk Kütüphaneciler

Derneği.

Gürsakal, N. (2014). Büyük Veri. Bursa: Dora.

Halevi, G., & Moed, H. (2012, Kasım 30). The Evolution of Big Data as a Research and

Scientific Topic: Overview of the Literature. Research Trends, s. 3-7.

Han, J., Kamber, M., & Pei, J. (2012). Data Mining: Concepts and Techniques. Waltham:

Morgan Kaufmann Publishers.

Han, J., Kamber, M., & Tung, A. (2001). Spatial clustering methods in data mining: A survey.

M. H., & H. J. içinde, Geographic Data Mining and Knowledge Discovery (s. 1-27).

Miller: Taylor and Francis.

Hangouts, G. (2015). Google Hangouts. 06 14, 2015 tarihinde Google Hangouts:

http://www.google.com/+/learnmore/hangouts/?hl=tr adresinden alındı

Hilbert, M., & López, P. (2012). How to measure the world’s technological capacity to

communicate, store and compute information? Part I: Results and scope. International

Journal of Communication 6, 956–979.

150

Hill, K. (2012, Temmuz 2). Max Schrems: The Austrian Thorn In Facebook's Side. Temmuz

2015, 11 tarihinde Forbes: http://www.forbes.com/sites/kashmirhill/2012/02/07/the-

austrian-thorn-in-facebooks-side/ adresinden alındı

Holmes, N. (2001). The great term robbery. Computer, 94–96.

IDC iView. (2010). A Digital Universe Decade – Are You Ready? IDC iView.

https://gigaom.files.wordpress.com/2010/05/2010-digital-universe-iview_5-4-10.pdf


Issenberg, S. (2012, December 16). How President Obama’s campaign used big data to rally

individual voters. Şubat 4, 2015 tarihinde MIT Technology Review:

http://www.technologyreview.com/featuredstory/508836/how-obama-used-big-data-

to-rally-voters-part-1/ adresinden alındı

Jacobs, A. (2009). The pathologies of big data. . Communications of the ACM, 52(8), 36-44.

Jupp, V. (2006). The Sage Dictionary of Social Research Methods. London: Sage

Publications.

Kaisler, S., Armour, F., Espinosa, J. A., & Money, W. (2013). Big data: Issues and challenges

moving forward. . 46th Hawaii International Conference on In System Sciences (s.

995-1004). Hawaai: IEEE.

Kalseth, K., & Cummings, S. (2001). Knowledge Management:Development Strategy or

Business Strategy? Information Development, 163-172.

Kaptan, S. (1998). Bilimsel Araştırma ve İstatistik Teknikleri. Ankara: Tek Işık Web Ofset

Tesisleri.

Karagöz, Y., & Ekici, S. (2004). Sosyal Bilimlerde Yapılan Uygulamalı Araştırmalarda

Kullanılan İstatistiksel Teknikler Ve Ölçekler. C.Ü. İktisadi ve İdari Bilimler Dergisi,

25-43.

Karakaya, İ. (2009). Bilimsel Araştırma Yöntemleri. A. Tanrıöğen içinde, Bilimsel Araştırma

Yöntemleri (s. 55- 84). Ankara: Anı Yayıncılık.

151

Karasar, N. (2011). Bilimsel Araştırma Yöntemi. Ankara: Nobel Yayınları.

Kaya, Ö. (2015). Temellendirilmiş Teori. M. Metin içinde, Eğitimde Bilimsel Araştırma

Yöntemleri (s. 239-260). Ankara: Pegem Yayıncılık.

Kitchin, R. (2014). The Data Revolution: Big Data, Open Data, Data Infrastructures and

Their Consequences. Londra: Sage.

Kohavi, R., & Longbotham, R. (2015). Online Controlled Experiments and AB Tests.

Encyclopedia of Machine Learning and Data Mining, 1-11. Mayıs 23, 2015 tarihinde

http://www.exp-

platform.com/Documents/2015%20Online%20Controlled%20Experiments_Encyclop

ediaOfMLDM.pdf adresinden alındı

Kozinets, R. (2010). Netnography: Doing Ethnographic Research Online. London: Sage

Publications.

KrishnaKumar, A., Amrita, D., & Priya, N. S. (2013, Nisan). Mining Association Rules

between Sets of Items in Large Databases. International Journal of Science and

Modern Engineering (IJISME), s. 24-27.

Krotoski, A. (2012, Nisan 22). The Guardian. 2 8, 2014 tarihinde Big Data age puts privacy

in question as information becomes currency:

http://www.theguardian.com/technology/2012/apr/22/big-data-privacy-information-

currency adresinden alındı

Laney, D. (2001). 3D data management: Controlling data volume, velocity and variety. META

Group Research Note, 6. http://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-

Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf adresinden

alınmıştır

Laney, D. (2011). Information Economics, Big Data and the Art of the Possible with

Analytics. Gartner. https://www-

950.ibm.com/events/wwe/grp/grp037.nsf/vLookupPDFs/Gartner_Doug-

%20Analytics/$file/Gartner_Doug-%20Analytics.pdf adresinden alınmıştır

152

Lewin, C. (2009). Elementary Quantitave Methods. B. Somekh, & C. Lewin içinde, Research

Medhods in the Social Sciences (s. 215-226). Los Angeles: Sage.

Liddy, E. D. (1999). Natural Language Processing. Encyclopedia of Library and Information

Science (s. 1-14). içinde Marcel Decker Inc. Nisan 24, 2015 tarihinde

https://datajobs.com/data-science-repo/NLP-Background-[SU].pdf adresinden alındı

Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.

Haziran 12, 2015 tarihinde http://www.cs.uic.edu/~liub/FBS/SentimentAnalysis-and-

OpinionMining.pdf adresinden alındı

Lohr, S. (2012, Şubat 11). The Sunday Review. Şubat 1, 2015 tarihinde The New York Times:

http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-

world.html?pagewanted=all adresinden alındı

Maimon, O., & Rokach, L. (2010). Data Mining and Knowledge Discovery Handbook. New

York: Springer.

Malone, R. (2007, 4 5). Structuring Unstructured Data. Forbes:

http://www.forbes.com/2007/04/04/teradata-solution-software-biz-logistics-

cx_rm_0405data.html adresinden alınmıştır

Manovich, L. (2011). Trending:The Promises and The Challenges of Big Social Data. G. K.

içinde, Debates in the Digital Humanities (s. 460-476). U of Minnesota Press.

Manyika, M. C., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., & Byers, A. H. (2011). Big

data: The next frontier for innovation, competition, and productivity.

Marr, B. (2014, Mart 6). Big Data: The 5 Vs Everyone Must Know. Temmuz 20, 2014

tarihinde Linkedin: https://www.linkedin.com/pulse/20140306073407-64875646-big-

data-the-5-vs-everyone-must-know adresinden alındı

Marz, N., & Warren, J. (2012). Big Data. Principles and best practices of scalable realtime

data systems. MEAP Edition, Manning Early Access Program.

153

Mathematical Association of America. (2012). Mathematics Awareness Month 2012 April is

Mathematics Awareness Month! Şubat 4, 2015 tarihinde Mathematical Association of

America: http://www.maa.org/mathematics-awareness-month-2012 adresinden alındı

Mauro, A. D., Greco, M., & Grimaldi, M. (2014). What is Big Data? A Consensual Definition

and a Review of Key Research Topics. 4th International Conference on Integrated

Conference (s. 97-104). New York: AIP Conference Proceedings.

Mayer-Schönberger, V., & Cukier, K. (2013). Büyük Veri. (B. Erol, Çev.) İstanbul: Palome

Yayıncılık.

Mert, E. (2014). Anket, Çevrimiçi Anket Tekniği ve Çevrimiçi'nde Anketin Uyguanması. M.

Binark içinde, Yeni Medya Çalışmalarında Araştırma Yöntem ve Teknikleri (s. 88-

117). İstanbul: Ayrıntı Yayınları.

Mertins, K., Heisig, P., & Vorbeck, J. (2003). Knowledge Management: Concepts and Best

Practices. Spinger.

Narayanan, A., & Shmatikov, V. (2006). How to break anonymity of the netflix prize dataset.

arXiv:cs/0610105v2. http://arxiv.org/pdf/cs/0610105v2.pdf adresinden alınmıştır

NASA Technology. (2015). Landsat Data Enriches Google Earth. Mart 1, 2015 tarihinde

NASA Spinnoff: http://spinoff.nasa.gov/Spinoff2015/ee_1.html adresinden alındı

National Information Standards Organization. (2004). Understanding Metadata. Bethesda:

NISO Press.

Neuman, L. W. (2012). Toplumsal Araştırma Yöntemleri:Nicel ve Nitel Yaklaşımlar. (S.

Özge, Çev.) İstanbul: Yayınodası Yayıncılık.

Nussbaum, R., Esfahanian, A.-H., & Tan, P.-N. (2010). Clustering Social Networks Using

Distance-preserving Subgraphs. International Conference on Advances in Social

Networks Analysis and Mining (s. 380-385). East Lansing: IEEE.

Oğuzlar, A. (2003, Temmuz-Aralık). Veri Ön İşleme. Erciyes Üniversitesi İktisadi ve İdari

Bilimler Fakültesi Dergisi, 67-76.

154

Open Data Center Alliance. (2012). Open Data Center Alliance: Big Data Consumer Guide.

Open Data Center Alliance. Mart 12, 2015 tarihinde

http://www.opendatacenteralliance.org/docs/Big_Data_Consumer_Guide_Rev1.0.pdf

adresinden alındı

Oracle. ( 2003). Oracle, E‐İşte Başarı Yöneticinin Yol Haritası, Türkiye, 3. Baskı,. İstanbul:

Oracle Press.

Orkan, A. L. (1992). Bilişim Teorisi: Temel Kavramlar. İstanbul: Marmara Üniversitesi

Teknik Eğitim Fakültesi Matbaa Birimi.

Öğülmüş, S. (1991). İçerik Çözümlemesi. Ankara Üniversitesi Eğitim Bilimleri Fakültesi

Dergisi, 213-228.

Özdemir, E. (2015). Tarama Yöntemi. M. Metin içinde, Eğitimde Bilimsel Araştırma

Yöntemleri (s. 77-97). Ankara: Pegem Yayıncılık.

Özer, Ö. (2009). Eleştirel Haber Çözümlemeler. Eskişehir: Anadolu Üniversitesi İletişim

Bilimleri Fakültesi Yayınları.

Özkan, Y. (2013). Veri Madenciliği Yöntemleri. İstanbul: Papatya Yayıncılık.

Özmen, A. (2013). İstatistiksel Karar Alma. E. Şıklar, & A. Özdemir içinde, İstatistik II (s.

66-103). Eskişehir: Anadolu Üniversitesi Yayınları.

Özüdoğru, Ş. (2014). Nitel Araştımanın İletişim Araştırmalarında Rol ve Önemi. Global

Media Journal: Turkish Edition , 260-275.

Pektaş, A. O. (2013). SPPS ile Veri Madenciliği. İstanbul: Dikeyeksen.

Peter J. A., S. (2009). Multivariate Statistics for the Environmental Sciences. New York:

Hodder Arnold.

Poynter, R. (2012). İnternet ve Sosyal Medya Araştırmaları El Kitabı. (Ü. Şensoy, Çev.)

İstanbul: Optimist.

Prytherch, R. J. (2005). Harrod's Librarians' Glossary And Reference Book. Gower.

155

Punch, K. F. (2011). Sosyal Araştırmalara Giriş Nicel ve Nitel Yaklaşımlar. (D. Bayrak, H. B.

Arslan, & Z. Akyüz, Çev.) Ankara: Siyasal Kitabevi.

QSRinternational. (2015). QSR International. Haziran 11, 2015 tarihinde Nvivo| Features and

benefits: http://www.qsrinternational.com/products_nvivo_features-and-benefits.aspx

adresinden alındı

QSRinterneational. (2015). Qualitative Data Analysis Software | Nvivo. Haziran 11, 2015

tarihinde QSR Interneational: http://www.qsrinternational.com/products_nvivo.aspx

adresinden alındı

Raffi, K. (2014, Nisan 17). Twitter Data Grants Selections. Twitter Blogs:

https://blog.twitter.com/2014/twitter-datagrants-selections adresinden alınmıştır

Rajaraman, A., Leskovec, J., & Ullman, J. D. (2014). Mining od Massive Datasets.

Cambridge University Press.

Rial, N. (2013, Mayıs 24). The power of big data in Europe. Şubat 7, 2015 tarihinde

NewEurope: http://www.neurope.eu/article/power-big-data-europe adresinden alındı

Rokach, L. (2010). A survey of Clustering Algorithms. O. Maimon, & L. Rokach içinde, Data

Mining and Knowledge Discovery Handbook (s. 269-299). London: Springer.

Rosenberg, D. (2013). Data Before the Fact. Oregon: Text for American Historical

Association.

Ruffatti, G. (2013, Mart 7). Value is the most meaningful V for Big Data. SpagoWorld:

http://blog.spagoworld.org/2013/03/value-is-the-most-meaningful-v-for-big-data/


Sağlam, M., & Yüksel, i. (2007). Program değerlendirmede meta-analiz ve meta

değerlendirme yöntemleri. Dumlupınar Üniversitesi Sosyal Bilimler Dergisi, (18),

175-189.

Sağsan, M. (2009). Knowledge Mangement Discipline; Test for Undergraduate Program in

Turkey. eJournal of Knowlege Management, 627-638.

156

Saillard, E. K. (2009). NVivo8 ile Nitel Araştırma Projeleri. NVivo8 ile Nitel Araştırma

Projeleri:

http://www.academia.edu/9092986/NVivo8_ile_Nitel_Ara%C5%9Ft%C4%B1rma_Pr

ojeleri adresinden alınmıştır

Sankur, B. (2004). Bilişim Sözlüğü. İstanbul : Pusula Yayıncılık.

Saporito, P. (2014, Ocak 24). 2 More Big Data V’s — Value And Veracity. Temmuz 17, 2015

tarihinde www.digitalistmag.com: http://www.digitalistmag.com/big-data/2-more-big-

data-vs-value-and-veracity-01242817 adresinden alındı

Saporta, G. (2000). Data Mining and Official Statistics. Quinta Conferenza Nationale di

Statistica (s. 1-4). Roma: ISTAT.

Sarstedt, M., & Mooi, E. (2014). Cluster Analysis. A Concise Guide to Market Research (s.

279-324). içinde Berlin: Springer .

Sencer, M. (1989). Toplum Bilimlerinde Yöntem. İstanbul: Beta Yayun Dağıtım.

Sharma, C. (2014, May). Big Data Analytics Using Neural networks.

http://scholarworks.sjsu.edu/cgi/viewcontent.cgi?article=1366&context=etd_projects


Short, J. E., Bohn, R. E., & Baru, C. (2011). How much information? 2010 report on

enterprise server information. UCSD Global Information Industry Center.

Siegel, S. (1956). Nonparametric Statistics For The Behavioral Sciences. Newyork: McGraw-

Hill Book Company .

Silahtaroğlu, G. (2013). Veri Madenciliği Kavram ve Algoritmaları. İstanbul: Papatya.

Strohm, C., & Timothy R., H. (2013, Haziran 25). NSA Spying Row in Congress Ushers in

Debate Over Big Data. Şubat 8, 2015 tarihinde http://www.bloomberg.com/:

http://www.bloomberg.com/news/articles/2013-07-25/nsa-spying-row-in-congress-

ushers-in-debate-over-big-data adresinden alındı

157

Sumathi, S., & Sivanandam, S. N. (2006). Introduction to data mining and its applications

(Vol. 29). . New York: Springer Science & Business Media.

Sun, H., & Heller, P. (2012, Ağustos). Oracle Information Architecture:An Architect’s Guide

to Big Data. şubat 3, 2015 tarihinde https://academy.oracle.com/oa-web-

overview.html: http://www.codecdss.ie/wp-content/uploads/2014/07/oea-big-data-

guide-1522052.pdf adresinden alındı

Sütcü, C. S. (2013). cemsutcu.wordpress.com. Haziran 13, 2015 tarihinde Bioistatistik:

https://cemsutcu.wordpress.com/lisans-ogrencileri-icin/bioistatistik/ adresinden alındı

Sütcü, C. S., & Çiğdem, A. (2013). Elektronik Ticaretten Sosyal Ticarete Dönüşüm Süresinde

Ölçümleme. İstanbul: Derin Yayınevi.

Sütcü, C. S., Çiğdem, A., Kara, T., Akyazı, E., Dilmen, N. E., & Değerli, B. (2014). Jetfighter

Down! Predicting Opinions with Twitter and the Role of Social Media in Turkey

Within Context of Attribute Agenda-Setting Theory. Uluslararası Sosyal Araştırmalar

Dergisi, 7(34), 875-889.

Swoyer, S. (2012, Temuz 24). Big Data -- Why the 3Vs Just Don't Make Sense--TDWI.

Temmuz 19, 2015 tarihinde tdwi.org: http://tdwi.org/Articles/2012/07/24/Big-Data-

4th-V.aspx?Page=1 adresinden alındı

Şıklar, E. (2013). Ki-Kare Testi. E. Şıklar, & A. Özdemir içinde, İstatistil-II (s. 104-115).

Eskişehir: Anadolu Üniversitesi .

Tabachnick, B., & Fidel, L. (1996). Using Multivariate Statistics. California: North Bridge.

Tang, Z., & MacLennan, J. (2005). Data Mining with SQL Server 2005. Indiana: Wiley.

Tavşancıl, E., & Aslan, E. (2001). İçerik Analizi Uygulama ve Örnekleri. İstanbul: Epsilon

Yayınevi.

TDK. (2006, 09 26). Türk Dil Kurumu. Haziran 09, 2015 tarihinde Türk Dil Kurumu:

http://www.tdk.gov.tr/index.php?option=com_gts&arama=gts&guid=TDK.GTS.5577

4d3a38ba93.44896020 adresinden alındı

158

TDK. (2006). Türk Dil Kurumu. Haziran 3, 2015 tarihinde Türk Dil Kurumu:

http://www.tdk.gov.tr/index.php?option=com_bts&arama=kelime&guid=TDK.GTS.5

57a03ec7aabb5.66386813 adresinden alındı

Tekbıyık, A. (2015). İlişkisel Araştırma Yöntemi. M. Metin içinde, Eğitimde Bilimsel

Araştırma Yöntemleri (s. 99-114). Ankara: Pegem Yayıncılık.

The Economist. (2010). Data, data everywhere A special report on managing information.

SAP.

Thiprungsri, S., & Vasarhelyi, M. A. (2011). Cluster Analysis for Anomaly Detection in

Accounting Data: An Audit Approach. The International Journal of Digital

Accounting Research, 69-84.

Törenli, N. (2004). Enformasyon Toplumu ve Küreselleşme Sürecinde Türkiye. İstanbul:

Bilim ve Sanat.

Transparency Market Research. (2012). Big Data Market - Global Scenario, Trends, Industry

Analysis, Size, Share and Forecast 2012-2018. Kanada: Transparency Market

Research. Şubat 27, 2015 tarihinde http://www.transparencymarketresearch.com/big-

data-market.html adresinden alındı

Tuomi, I. (2000). Data is More Than Knowledge: Implications of the Reversed Knowledge

Hierarchy for Knowledge. Journal of Management Information Systems, 107-121.

Turban, E., King, D., Lee, J., & Turban, D. C. (2012). Electronic commerce 2012:

Managerial and social networks perspectives. Boston: Pearson.

Türken, S. (2013). Anket ve Gözlem Teknikleri. 05 14, 2015 tarihinde Akademia:

http://www.academia.edu/5422060/Anket_ve_G%C3%B6zlem_Teknikleri adresinden

alındı

Two Crows Corporation. (1998). Edelstein, H. A. 1-36. Mart 12, 2015 tarihinde

http://www.twocrows.com/intro-dm.pdf adresinden alındı

159

Varnalı, K. (2013). Dijital Kabilelerin İzinde Sosyal Medyada Netnografik Araştırmalar.

İstanbul: MediaCat.

VerisignInc. (2013). Alan Adı Endüstrisi Özeti. VerisignInc.

http://www.verisigninc.com/assets/domain-name-brief-april2013-tr.pdf adresinden

alınmıştır

Vorhies, B. (2013, Ekim 31). How Many “V”s in Big Data – The Characteristics that Define

Big Data. Temmuz 18, 2015 tarihinde data-magnum.com: http://data-

magnum.com/how-many-vs-in-big-data-the-characteristics-that-define-big-data/

adresinden alındı

Wang, F. Y., Daniel, Z., Carley, K. M., & Mao, W. (2007). Social computing: From social

informatics to social intelligence. Intelligent Systems, IEEE, 22(2), 79-83.

Weber, R. (2001). Statistics. Haziran 12, 2015 tarihinde

http://www.statslab.cam.ac.uk/~rrw1/stats/ adresinden alındı

Widup, S. (2010 ). The Leaking Vault: Five Years of Data Breaches . Digital Forensics

Association.

Wiersma, W. (2000). Research Methods in Education: An Introduction. USA: Allyn and

Bacon.

Wired. (2008, Haziran 23). Wired. Şubat 2, 2015 tarihinde http://www.wired.com/:

http://archive.wired.com/science/discoveries/magazine/16-07/pb_intro adresinden

alındı

Wu, E., Ng, M., Yip, A., & Chan, T. (2004). A Clustering Model for Mining Evolving Web

User Patterns in Data Stream Environment. Wu, E. H., Ng, M. K., Yip, A. M., & Chan,

T. F. (2004). A clustering In Intelligent Data Engineering and Automated Learning–

IDEAL (s. 565-571). Berlin Heidelberg: Springer.

Yeung, R. (2001, mart 15). www.cityu.edu.hk. 2015 tarihinde

personal.cityu.edu.hk/~mepatri/knowledge_management.ppt adresinden alındı

160

Yıldırım, A., & Şimşek, H. (2013). Sosyal Bilimlerde Nitel Araştırma Yöntemleri. Ankara:

Seçkin Yayıncılık.

Yıldırım, P., Uludağ, M., & Görür, A. (2008). Hastane Bilgi Sistemlerinde Veri Madenciliği.

Akademik Bilişim (s. 429-434). Çanakkale: Çanakkale Onsekiz Mart Üniversitesi.

Yılmaz, G. K. (2015). Durum Çalışması. M. Metin içinde, Eğitimde Bilimsel Araştırma

Yöntemleri (s. 261-285). Ankara: Pegem.

Yılmaz, M. (2009). Enformasyon ve Bilgi Kavramları Bağlamında Enformasyon Yönetimi ve

Bilgi Yönetimi. Ankara Üniversitesi Dil ve Tarih-Coğrafya Fakültesi Dergisi, 95-118.

Yükselen, C. (2010). Hipotez Kurma. 2015 tarihinde Hipotez Kurma:

http://web.deu.edu.tr/upk15/docs/seminerSunumlari/HIPOTEZ%20KURMA-

PROF.%20DR.%20CEMAL%20YUKSELEN.pdf adresinden alındı

Zadrozny, P., & Kodali, R. (2013). Big Data Analytics Using Splunk: Deriving Operational

Intelligence from Social Media, Machine Data, Existing Data Warehouses, and Other

Real-Time Streaming Sources. Apress.

Zikopoulos, P. C. (2012). Understanding big data. New York et al: McGraw-Hill.

Zins, C. (2007). Conceptual Approaches for Defining Data, Information, and Knowledge.

Journal of The American Society for Information Science and Technology, 479-493.

T.C.tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi...

Documents

Transcript of T.C.tarih içindeki süreci araştırılmıştır. Bunun içinde dünyanın en geniş akademik bilgi...