1
Bölüm 3
Tanımlayıcı İstatistikler
2
Tanımlayıcı İstatistikler
• Bir veri setini tanımak veya birden fazla veri setinikarşılaştırmak için kullanılan ve ayrıca örnekverilerinden hareket ile frekans dağılışlarını sayısalolarak özetleyen değerlere tanımlayıcı istatistiklerdenir.
• Analizlerde kullanılan veri tiplerine (basit,gruplanmış, sınıflanmış) göre hesaplamalardakullanılacak formüller değişmektedir.
3
Tanımlayıcı İstatistikler
Yer Ölçüleri1)Aritmetik ort.2)Geometrik ort.3)Harmonik ort.4)Mod5)Medyan6)Kartiller
Değişkenlik Ölçüleri1) Range
(Değişim Aralığı)2) Ort. Mutlak sapma3) Varyans4) Standart Sapma5) Değişkenlik(Varyasyon)
Katsayısı
Çarpıklık Ölçüleri1)Pearson AsimetriÖlçüsü2)Bowley AsimetriÖlçüsü
BasıklıkÖlçüleri
4
Yer Ölçüleri
• Yer ölçüsünü belirlemek amacıyla verianalizini yapacak kişi, öncelikle veri setiiçin hangi ölçüyü kullanması gerektiğinekarar vermelidir.
5
Tanım
Merkezi Eğilim ÖlçüsüVeri setinin orta noktası veya merkezinin
değeridir.
6
1) Aritmetik Ortalama• Üzerinde inceleme yapılan veri setindeki elemanların
toplanıp incelenen eleman sayısına bölünmesiyle eldeedilen yer ölçüsüne aritmetik ortalama denir.
• Örnek:– Sınav notlarının ortalaması,– Yaz aylarında m2’ye düşen ortalama yağış miktarı
7
Örnek Ortalaması veAnakütle Ortalaması
µ , “mü” şeklinde telaffuz edilir ve anakütleortalamasıdır
x =n x
, x-bar şeklinde telaffuz edilir ve örneklemin ortalamasıdır.
x
Nµ =
x
8
Bir Denge Noktası OlarakOrtalama
• 1, 14, 19, 31, 50 sayılarının ortalaması =23 tür.Şekil sayıları bir çizgi üzerinde yerleştirilmiş eşitküçük ağırlıklar şeklinde gösterir.1,14,19,31,50
• Aritmetik ortalama denge noktasıdır.
1 14 19 31 50
9
E ğ e r ç iz g iy i ü z e r in d e a ğ ır l ık la r o la n b ir ta h tao la ra k d ü şü n ü rse k , ta h ta y ı d e n g e d e tu tm a k iç in ’n ü n b u lu n d u ğ u y e rd e n d e n g e n o k ta s ı
k o y m a lıy ız . B u a r i tm e tik d e n g e n o k ta s ın ın ö z e lliğ i ;h e r b ir s a y ı iç in x i- ‘y ü h e sa p la rs a k p o z it if v en e g a tif s a y ıla r d e n g e d e k a lır ç ü n k ü to p la m la rı 0o lu r .H e rh a n g i b ir v e ri se ti iç in ,
0)( ix
o lu r .
i
x u z a k lığ ı
ix
i
x
Örnek: İzmir ilinde ilköğretim ikinci sınıfta okuyanöğrenciler üzerinde yapılan bir araştırmada rasgele8 öğrenci seçilmiş ve ailenizde kaç çocuk vardırsorusuna aşağıdaki gibi cevap vermişlerdir. Ailelerinçocuk sayılarının ortalamasını hesaplayınız.
1,3,2,1,4,5,6,2
n = 8 i = 1,2,…,8
1 1 1 2 2 3 4 5 63
8
n
ii
x
xn
Basit Veriler için Aritmetik Ortalama Örneği
Gruplanmış Veriler İçinAritmetik Ortalama
nfk
ii
1
k
ii
k
iii
f
fxx
1
1
f : frekans
k: grup sayısı
i = 1,2,3,……….,k
Örnek: Bir otomobilbayisinde 80 gün boyuncayapılan inceleme sonucundasatılan arabaların adetlerinegöre dağılımı yandaki tablodaverilmiştir. Buna göre bir güniçinde satılan ortalama arabasayısını hesaplayınız.
1
1
0 12 70 42 32 30 1862,33
80 80
k
i ii
k
ii
x f
x
f
Araba(xi)
Gün (fi) xi.fi
0 5 01 12 122 35 703 14 424 8 325 6 30
∑fi=80
13
Sınıflanmış Veriler İçin AritmetikOrtalama
nfk
ii
1
k
ii
k
iii
f
fmx
1
1
f : frekans
k : sınıf sayısı
i = 1,2,3,……….,k
m : sınıf orta noktası
• Sınıflanmış verilerde her bir sınıf içindeki değerlerin nelerolduğu bilinmediğinden dolayı ve yalnızca her bir sınıfınfrekans değerleri bilindiğinden dolayı sınıfı temsil etmeküzere sınıf orta noktaları hesaplamada kullanılır.
• Kullanılan formül gruplanmış veriler için kullanılanformüle benzerdir.
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırmayapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerekkaydedilmiştir.Öğrencilerin boylarının aritmetik ortalamasınıhesaplayınız.
Sınıflar fi mi mifi 150-157’den az 5 153,5 767,5 157-164’den az 7 160,5 1123,5
164-171’den az 14 167,5 2345 171-178’den az 9 174,5 1570,5 178-185’den az 8 181,5 1452 185-192’den az 4 188,5 754 192-199’dan az 3 195,5 586,5
Toplam 50 8599
1
1
153,5(5) 160,5(7) ... 195,5(3) 8599171,98 .
50 50
k
i ii
k
ii
m f
x cm
f
15
Ağırlıklı Ortalama
Veri setindeki gözlemlerin belirli bir kritere göreağırlıklandırılması durumunda veri setinin ortalamasınınhesaplanması için kullanılan ortalamadır.
i iw
i
w xx
w
16
Örnek: Aşağıdaki tabloda şipariş büyüklüklerine göre elde edilen karmiktarları ve sipariş sayıları verilmiştir. Buna göre bir siparişden eldeedilecek ortalama kar miktarı kaç $’dır?
Siparişbüyüklüğü
Sipariş başınakar xi
Siparişsayısı wi
xiwi
Küçük $1 120 $120Orta $3 60 $180Büyük $6 20 $120
Σwi=200 Σ xiwi=$420
420$2,1
200i i
wi
w xx
w
17
2) Geometrik Ortalama
• Bir veri setinde bulunan n adet elemanın çarpımınınn nci dereceden kökünün alınmasıyla elde edilen yerölçüsüdür.
nnxxxG ....21
• Geometrik ortalamanın formülüne bakıldığındahesaplama zorluğu olduğundan dolayı logaritmaifadesi kullanılır. Genellikle basit veriler için kullanışlıolup negatif sayılar için kullanışlı değildir.
n
xGLog
n
ii
1
log
n
iix
nantiG
1
log1
log
Geometrik Ortalama’nınKullanım Alanları
• Ortalama oranları,
• Değişim Oranları,
• Logaritmik dağılış gösteren veri setleri,
için kullanışlıdır.
Örnek: fiyat indeksleri, faiz formülleri.
Örnek: Abac şirketinin yıldan-yıla olan fuel dekitüketim harcamalarının değişimi yüzde -5, 10, 20, 40,ve 60. büyüme faktörlerinin geometrik ortalamasınıkullanarak harcamalardaki ortalama yıllık yüzdedeğişim belirlenir. Büyüme faktörleri için yüzdedeğişim dönüştürme ile elde edilenler;0.95 1.10 1.20 1.40 1.60
51 2
5
.... (0,95)(1,10)(1,20)(1,40)(1,60)
2.80896 1,229
nnG x x x
1
log0,022276 0,041393 0,079181 0,146128 0,204120
50,448546
0,089715
n
ii
x
Log Gn
Log G
G = anti log 0,27045 = 100,08971 ≈ 1,229
21
3) Harmonik Ortalama• Bir veri setinde bulunan n adet elemanın çarpmaişlemine göre terslerinin ortalamasının tersininalınmasıyla elde edilen yer ölçüsüdür. Genellikle basitveriler için kullanışlıdır.
nnxxx
n
n
xxx
H1
....111
....11
1
2121
n
x
H
n
i i 1
11
22
Harmonik Ortalama’nın Kullanım Alanları
Zaman verileri için kullanışlıdır.Örnek: Zaman birimi başına hız, para birimi başınasatın alınan birim sayısı.Belirli koşullar ve fiyat tipleri için zaman verilerininortalamalarının hesaplanmasında kullanılan bir yerölçüsüdür.
Zamana bağlı hız, fiyat verimlilik gibi oransal olarakifade edilebilen verilerin ortalamasın alınmasında dakullanılabilir.
NOT: ARİTMETİK ORT. > GEOMETRİK ORT. > HARMONİK ORT.
23
Örnek: Bir tekstil fabrikasında çalışan dört kişinin birpantolonu ütüleme süreleri aşağıda verilmiştir. Buna görebu fabrikada bir pantolon ortalama kaç dakikada ütülenir?
İşçi 1: 10 dk. İşçi 2: 6 dk. İşçi 3: 4 dk. İşçi 4 : 5 dk.
240
43
4101
61
51
411
1 1
n
x
H
n
i i
.58,543
240dkH
24
4) Mod
• Bir veri setinde en çok gözlenen ( en çok tekrar eden )değere veya frekansı en fazla olan şans değişkenideğerine mod adı verilir.
• Veri setinin modu olmayacağı gibi birden fazla damodu olabilir.
• Mod genellikle kesikli şans değişkenli için oluşturulangruplanmış verilerde aritmetik ortalama yerinekullanılabilir.
25
Mod
• Mod, büyük veri setlerinde verinin daha çok neredetoplandığını bulmak için kullanılır. Örneğin erkekkıyafetleri satan bir perakendeci, potansiyelmüşterilerini belirlemek için gömlek kol uzunluğu vegömlek yaka ölçüsüyle ilgilenebilir.
• Nicel veri seti çok büyük olmadığı zaman modanlamlı olmayabilir.
• Niteliksel veriler için kullanılabilecek tek merkezieğilim ölçüsüdür.
26
1) 5,40 1,10 0,42 0,73 0,48 1,10
2) 27 27 27 55 55 55 88 88 99
3) 1 2 3 6 7 8 9 10
Örnekler
Modu 1,10
1 den fazla moda
sahip , 27 ve 55
Modu yok
27
Gruplanmış Veriler İçin ModBasit verilerde bulunduğu gibi hesaplanır.
Örnek: Bir otomobil bayisinde80 gün boyunca yapılaninceleme sonucunda satılanarabaların adetlerine göredağılımı yandaki tablodaverilmiştir. Buna göre arabasatışları için mod değeri nedir?
Araba(xi) Satış adedi (fi)0 51 122 353 144 85 6
En yüksek frekansa sahip olan gözlem değeri 2olduğundan dolayı araba satışları için mod değeri 2’dir.
28
Sınıflanmış Veriler İçin Mod
• Sınıflanmış verilerde mod değeri hesaplanırken ilk olarakmod sınıfı belirlenir.
• Mod sınıfı frekansı en yüksek olan sınıftır.
• Mod sınıfı belirlendikten sonra bu sınıf içerisinde yer alanmodun tam değeri sınıf frekansı ve kendine komşu olansınıf frekansları dikkate alınarak hesaplanır.
29
iL .21
1mod
= Mod Sınıfı Aralığının Alt Sınırı
1 = Mod Sınıfı Frekansı - Kendinden Bir ÖncekiSınıf Frekansı
2 = Mod Sınıfı Frekansı – Kendinden Bir SonrakiSınıf Frekansı
i = Mod Sınıfının Sınıf Aralığı
Mod =
ModL
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırmayapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerekkaydedilmiştir.Öğrencilerin boylarının mod değerinihesaplayınız.
Sınıflar fi 150-157’den az 5 157-164’den az 7
164-171’den az 14 171-178’den az 9 178-185’den az 8 185-192’den az 4 192-199’dan az 3
Toplam 50
Mod sınıfı
Frekansı en yüksek olan sınıf mod sınıfı olarakbelirlenir.
Mod sınıfı belirlendikten sonra formülde ilgilideğerler yerine koyularak mod değeri hesaplanır.
1mod
1 2
(14 7)164 7 168,08 .
(14 7) (14 9)
Mod L i
cm
32
5) Medyan
• Bir veri setini büyükten küçüğe veya küçükten büyüğesıraladığımızda tam orta noktadan veri setini iki eşitparçaya ayıran değere medyan adı verilir.
• Veri setinde aşırı uçlu elemanlar olduğunda aritmetikortalamaya göre daha güvenilirdir.
• Medyan, veri setindeki tüm elemanlardan etkilenmez.
33
Basit Veriler İçin Medyan
21n
12
n
• Veri Setinin Hacmi Tek Sayı İse;
nci gözlem değeri medyandır.
• Veri Setinin Hacmi Çift Sayı İse;
ve nci gözlem değerinin aritmetik
ortalaması medyandır.
2n
34
5.40 1.10 0.42 0.73 0.48 1.10 0.66
0.42 0.48 0.66 0.73 1.10 1.10 5.40Tam ortadaki değer medyandır.
MEDYAN 0.73
5.40 1.10 0.42 0.73 0.48 1.10
0.42 0.48 0.73 1.10 1.10 5.40
0.73 + 1.102
Medyan bu iki noktanın arasına düşmektedir
MEDYAN 0.915
35
Gruplanmış Veriler İçin Medyan
• Gruplanmış verilerde medyan değeri hesaplanırkenveri setinin tam orta noktasının hangi gruba aitolduğunu belirlemek için birikimli frekans sütunuoluşturulur.
• Sıra numarası belirlendikten sonra o sıra numarasınaait grup medyan değeri olarak ifade edilir.
Örnek: Bir otomobil bayisinde 80 gün boyuncayapılan inceleme sonucunda satılan arabalarınadetlerine göre dağılımı aşağıdaki tabloda verilmiştir.Buna göre araba satışları için medyan değeri nedir?
Araba Satış adedi Birikimli Frekans ( ∑f )0 5 51 12 172 35 523 14 664 8 745 6 80
n/2 ve (n/2)+1 nci gözlem değerlerine karşılık gelen değerler(40 ve 41 nci sıra ) 2 olduğundan dolayı medyan değeri 2’dir.
•Frekans dağılımı aşağıdaki gibi olsaydı (n+1)/2 ncielemana (40 ncı elemana) karşılık gelen değer8 olacağından dolayı veri setinin medyanı 3 olarakhesaplanacaktı.
Araba Satış adedi Birikimli Frekans ( ∑f )0 5 51 12 172 22 393 32 614 14 755 4 79
38
Sınıflanmış Veriler İçin Medyan
• Sınıflanmış verilerde medyan değeri hesaplanırken ilkolarak medyan sınıfı belirlenir.
• Medyan sınıfı birikimli frekanslar dikkate alındığındatoplam frekansın yarısını içinde bulunduran sınıftır.
• Medyan sınıfı belirlendikten sonra medyan sınıfından birönceki sınıfın birikimli frekansı ve medyan sınıfı frekansıdikkate alınarak hesaplanır.
39
if
ff
LMedyanmed
l
i
med.2
Lmed : Medyan sınıfının alt sınırı
fl : Medyan sınıfından bir önceki sınıfın birikimlifrekansı
fmed : Medyan sınıfının frekansı
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırmayapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerekkaydedilmiştir.Öğrencilerin boylarının medyan değerinihesaplayınız.
Sınıflar fi ∑fi 150-157’den az 5 5 157-164’den az 7 12
164-171’den az 14 26 171-178’den az 9 35 178-185’den az 8 43 185-192’den az 4 47 192-199’dan az 3 50
Toplam 50
Medyan sınıfı
2 .
25 12164 .7 170,5
14
il
medmed
ff
Medyan L if
cm
Toplam 50 adet gözlem olduğundan dolayı, birikimlifrekans sütununda 50/2 =25 nci gözleminbulunduğu sınıf medyan sınıfı olarak belirlenir.
42
MerkeziÖlçüm
Tanım NasılKullanılıyor
Varlığı HerdeğerDikkateAlınırmı?
UçDeğerlerdenEtkilenirmi?
Avantajları veDezavantajları
Ortalama
n
xx En Bilinen
‘ortalama’
Her zamanvardır. Evet Evet
Birçokistatistikselmetodla iyiçalışır.
MedyanOrta değer Sıklıkla
KullanılırHer zamanvardır.
Hayır HayırBirkaç uç değervarsa genellikleiyi bir tercihtir
Mod En sık tekrar edenveri değeri Ara sıra
kullanılırOlmayabilirya dabirden fazlaolabilir.
Hayır HayırNominaldüzeyde verileriçin uygundur
Veriler mod etrafında simetrik oldukları zaman, mod, medyan ve artimetik ortalamabirbirlerine eşit olur.
Eğer örneklem aynı anakütleden çekilmişse, aritmetik ortalama diğer ölçülere göredaha güvenilirdir
43
6) Kartiller•Bir veri setini büyükten küçüğeveya küçükten büyüğesıraladığımızda dört eşit parçayaayıran üç değere kartiller adıverilir.
•İlk % 25’lik kısmı içindebulunduran 1. Kartil (Q1), %50’lik kısmı içinde bulunduran2. Kartil (Q2), % 75’lik kısmıiçinde bulunduran 3. Kartil (Q2),olarak adlandırılır.
•%50’lik kısmı içindebulunduran 2. Kartil (Q2) aynızamanda veri setininmedyanıdır.
%25 %25
%25%25
Q1 Q2 Q3
44
Basit Veriler İçin Kartiller
41n
• 1.Kartil Q1
nci gözlem değeri,
• 3.Kartil Q3
nci gözlem değeri,
3( 1)
4
n
45
Örnek: İstatistik I dersini alan 10 öğrencinin vizenotları aşağıdaki gibi sıralanmıştır. Buna göre vizenotları için Q1 ve Q3 değerlerini hesaplayınız.
30,42,56,61,68,79,82,88,90,98
(n+1)/4 ‘ncü verinin sıra numarası (10+1)/4 = 2,75’dir.
Q1= 42 + 0,75 .(56 - 42) = 52,5 ,
3(n+1)/4 ‘ncü verinin sıra numarası 3(10+1)/4 =8,25’dir.
Q3= 88 + 0,25.(90 - 88) = 88,5 ‘dir.
Veri seti aşağıdaki gibi verilseydi,
30,42,56,61,68,79,82,88,98
(n+1)/4 ‘ncü verinin sıra numarası (9+1)/4 = 2,5’dir.Q1= 42 + 0, 5 .(56 - 42) = 49 ,
3(n+1)/4 ‘ncü verinin sıra numarası 3(9+1)/4 = 7,5’dir.Q3= 82 + 0, 5.(88 - 82) = 85 ,
olarak hesaplanacaktı.
47
Gruplanmış Veriler İçin Kartiller
• Gruplanmış verilerde kartiller hesaplanırken veri setininilk çeyrek ve son çeyrek kısmını tam olarak ifade etmekamacıyla birikimli frekans sütünü oluşturulur.
• Gruplanmış verilerde örnek hacminin tek veya çiftolduğuna bakılmaksızın aynen basit verilerde olduğu gibi,
(n+1)/4 ncü eleman 1.Kartil (Q1),
3(n+1)/4 ncü eleman ise 3.Kartil (Q3),
olarak ifade edilir.
Örnek: Bir otomobil bayisinde 80 gün boyunca yapılaninceleme sonucunda satılan arabaların adetlerine göredağılımı yandaki tabloda verilmiştir. Buna göre arabasatışları için birinci ve üçüncü kartil değerleri nedir?
Araba Satış adedi Birikimli Frekans ( ∑f )0 5 51 12 172 35 523 14 664 8 745 6 80
• (n+1)/4 ncü ( 20,25 nci ) sıra numarasına karşılık gelen gözlem2 olduğundan; 1.kartil 2, 3(n+1)/4 ncü ( 60,75 nci ) sıranumarasına karşılık gelen gözlem 3 olduğundan; 3.kartil 3’dür.
49
Sınıflanmış Veriler İçin Kartiller
• Sınıflanmış verilerde kartiller hesaplanırken ilk olarakbirikimli frekans sütunu oluşturularak kartil sınıflarıbelirlenir.
• Kartil sınıfları belirlenirken gruplanmış verilerde olduğugibi n/4 ve (3n)/4 ncü sıralardaki elemanların hangi sınıflaraait iseler o sınıflar kartil sınıfları olur.
• Kartil sınıfları belirlendikten sonra bu sınıflardan birönceki sınıfın birikimli frekansı ve mevcut sınıf frekansıdikkate alınarak kartil değerleri hesaplanır.
50
if
ff
LMedyanQQ
li
Q .2
2
22
3 33
3
4 .
il
ff
Q L if
if
ff
LQQ
li
Q .4
1
11
1. Kartil
3. Kartil
2. Kartil
51
1 11
4 .
12,5 12164 .7 164,25
14
il
ff
Q L if
cm
Q1 sınıfı
Q3 sınıfı
3 33
3
4 .
37,5 35178 .7 180,19
8
il
ff
Q L if
cm
Sınıflar fi ∑fi150-157’den az 5 5157-164’den az 7 12164-171’den az 14 26171-178’den az 9 35178-185’den az 8 43185-192’den az 4 47192-199’dan az 3 50
Toplam 50
Örnek: Bir sınıftaki öğrencilerin boyları hakkında bir araştırmayapılmaktadır. Bu amaçla 50 öğrencinin boyları ölçülerekkaydedilmiştir.Öğrencilerin boylarının birinci ve üçüncü kartillerinihesaplayınız.
52
Yayılma (Değişkenlik) Ölçüleri
•Bir veri setini tanımak yada iki farklı veri setinibirbirinden ayırt etmek için her zaman yalnızca yerölçüleri yeterli olmayabilir.
• Dağılımları birbirinden ayırt etmede kullanılan vegenellikle aritmetik ortalama etrafındaki değişimidikkate alarak hesaplanan istatistiklere yayılma(değişkenlik) ölçüleri adı verilir.
53X
123,33
109,33
95,33
81,33
67,33
Frek
ans 400
300
200
100
0
X
123,33
109,33
95,33
81,33
67,33
Frek
ans 1200
1000
800
600
400
200
0
Aşağıdaki iki grafik n = 1500 hacimlik alınan iki farklı örnekdoğrultusunda oluşturulan histogramlardır. Her iki örnek ortalamasıyaklaşık olarak 100 olduğuna göre iki örneğin aynı anakütledenalındığı söylenebilir mi?
54
• Dağılımları birbirinden ayırt etmede kullanılan yayılımölçüleri aritmetik ortalama etrafındaki değişimleridikkate alan tanımlayıcı istatistiklerdir.
• Bir veri setinde aritmetik ortalamalardan her birgözlemin farkı alınıp bu değerlerin tümütoplandığında sonucun 0 olduğu görülür.
55
• Örnek: 4,8,9,13,16 şeklinde verilen bir basit veri için;
105
16139841
n
xx
n
ii
010161013
1091081041
n
ii
xx
• Bu örnekten görüleceği üzere gözlemlerin aritmetikortalamadan uzaklığı alıp toplandığında 0 eldeedildiğinden dolayı bu problem mutlaka değerkullanarak veya karesel uzaklık alınarak ortadankaldırılır.
56
7) Range (Değişim Aralığı)• Veri setindeki yayılımı ifade etmede kullanılan en basitölçü, değişim aralığıdır. Genel olarak az sayıda veri içinkullanılır.• En büyük gözlem değeri ile en küçük gözlem değeriarasındaki fark değişim aralığını verir.
• Veri setindeki tek bir gözlemin aşırı derecede küçükveya büyük olmasından etkilendiği için bir başkaifadeyle örnekte yer alan sadece iki veri kullanılarakhesaplanmasından dolayı tüm veri setinin değişkenliğiniaçıklamak için yetersiz kalmaktadır.
57
Değişim AralığıÖrnek:Aralık, veri seti içindeki en büyük değerle en küçük değer arasındakiuzaklığı ölçerek verinin yayılımını ortaya koyar. Örneğin aşağıdakişekilde gösterildiği üzere A hisse senedi belirli bir yılda 36$ ila 32$arasında çeşitlilik gösterirken, B hisse senedi 10$ ila 58$ arasındagösterdi. Hisse senedinin fiyatındaki aralık A için 36$-32$ = 4$ dır;B için 58$-10$=48$.Aralıkları kıyasladığımızda B hisse senedininfiyat aralığının A ya göre daha çok değişkenlik gösterdiğinisöyleyebiliriz.
10 20 30 32 36 40 50 58 60
Ücret ($)
A hissesinin aralığı
B hissesinin aralığı
58
Kartiller Arası Fark
• Diğer değişkenlik 3. ve 1. kartiller arasındaki farkadikkat çeker. Çeyrek aralık olarak adlandırılan bufark, Q3-Q1, bize veri setinin yarısını içeren genişliğiverir.
59
8) Ortalama MutlakSapma(OMS)
• Veri setindeki her bir gözlem değerinin aritmetik ortalamadanfarklarının mutlak değerlerinin toplamının örnek hacminebölünmesiyle elde edilir.
• Gözlem değerlerinin aritmetik ortalamadan faklarının toplamı 0olacağından bu problemi ortadan kaldırmak için mutlak değerifadesi kullanılır.
n
xxOMS
n
ii
1Basit veriler için:
k
ii
k
iii
f
xxfOMS
1
1
k
ii
k
iii
f
xmfOMS
1
1
Gruplanmış veriler için:
Sınıflanmış veriler için :60
Örnek: İstatistik I dersini alan 10 öğrencinin vizenotları aşağıdaki gibi sıralanmıştır. Buna göre vizenotları için ortalama mutlak sapma değerinihesaplayınız.
5,1410145
10
6998...694169301
n
xxOMS
n
ii
30,41,53,61,68,79,82,88,90,98
6910
98....41301
n
xx
n
ii
611
1
171,98 .
k
i ii
k
ii
m f
x kg
f
1
1
470,969.42
50
k
i ii
k
ii
f m x
OMS
f
Sınıflar fi mi Ifi(mi-x )I 150-157’den az 5 153,5 92,4 157-164’den az 7 160,5 80,36
164-171’den az 14 167,5 62,72 171-178’den az 9 174,5 22,68 178-185’den az 8 181,5 76,17 185-192’den az 4 188,5 66,08 192-199’dan az 3 195,5 70,56
Toplam 50 470,96
Sınıflanmış Veriler İçin OrtalamaMutlak Sapma Örneği
62
Yayılma Ölçülerinin GerekliliğiÖrnek 1 Örnek 2
Ölçümler 1,2,3,4,5 2,3,3,3,4Ortalama
35
15
5
54321
x
35
15
5
43332
x
x dan Uzaklıklar 1-3, 2-3, 3-3, 4-3, 5-3veya-2, -1, 0, 1, 2
2-3, 3-3, 3-3, 3-3, 4-3veya-1, 0, 0, 0, 1
İki veri seti için uzaklıklar
a) Örnek 1 b) Örnek 2
63
9) Varyans• Ortalama mutlak sapmada kullanılan mutlak değerliifadeler ile işlem yapmanın zor hatta bazı durumlardaimkansız olması sebebiyle yeni değişkenlik ölçüsüneihtiyaç bulunmaktadır.
• Mutlak değer ifadesindeki zorluk aritmetik ortalamadanfarkların karelerinin alınmasıyla ortadan kalkmaktadır.
• Veri setindeki her bir gözlem değerinin aritmetikortalamadan farklarının karelerinin toplamının örnekhacminin bir eksiğine bölünmesinden elde edilenyayılım ölçüsüne örnek varyansı adı verilir.
64
Basit veriler İçin:
Anakütle Varyansı:
Anakütle Ortalaması N : Anakütle Hacmi
Örnek Varyansı :
Gruplanmış veriler için:
Sınıflanmış veriler için :
N
xi
2
2
1
1
2
2
n
xxs
n
ii
1
)(
1
1
2
2
k
ii
k
iii
f
xmfs
1
)(
1
1
2
2
k
ii
k
iii
f
xxfs
65
n
ii
xx1
2
ifadesi istatistikte bir çok formülde kullanılır vekareler toplamı olarak adlandırılır.
• Matematiksel olarak hesaplama kolaylığı sağlamasıaçısından formüllerde kareler toplamının açılımı olanaşağıdaki eşitlik kullanılabilir.
n
xxxx
n
iin
ii
n
ii
2
1
1
2
1
2
66
1
2
1
1
2
2
nn
xx
s
n
in
ii
11
1
2
2
2
k
ii
k
ii
k
iiik
iii
f
f
xfxf
s
11
1
2
2
2
k
ii
k
ii
k
iiik
iii
f
f
mf
mf
s
Gruplanmış Veriler İçin:
Sınıflanmış Veriler İçin :
Basit Veriler İçin:
Örnek: Bir otomobil bayisinde 80 gün boyunca yapılan incelemesonucunda satılan arabaların adetlerine göre dağılımı yandakitabloda verilmiştir. Buna göre araba satışları için varyans değerinedir?
Araba Satış adedi xi.fi x2i.fi
0 5 0 01 12 12 122 35 70 1403 14 42 1264 8 32 1285 6 30 150
toplam 80 186 572
2
22
2 1
1
186556
80 1,5679
1
k
i iki
i i ki
ii
k
ii
f x
f x
f
s
f
68
1
1
171,98
k
i ii
k
ii
m f
x
f
Sınıflar fi mi fi(mi-x )2
150-157’den az 5 153,5 1707,552 157-164’den az 7 160,5 922,5328
164-171’den az 14 167,5 280,9856 171-178’den az 9 174,5 57,1536 178-185’den az 8 181,5 725,0432 185-192’den az 4 188,5 1091,642 192-199’dan az 3 195,5 1659,571
Toplam 50 6444,48
Sınıflanmış Veriler İçin OrtalamaVaryans Örneği
2
2 1
1
( )6444,48
131,5250 1
1
k
i ii
k
ii
f m x
s
f
69
10) Standart Sapma• Varyans hesaplanırken kullanılan verilerin karelerialındığından verilerin ölçü biriminin karesivaryansında ölçü birimi mevcut ölçü birimini karesiolur.
• Örnek: kg2, cm2 gibi.
• Bu nitelendirme veriler açısından bir anlamtaşımayacağından varyans yerine ortalamaetrafındaki değişimin bir ölçüsü olarak onun pozitifkarekökü olan standart sapma kullanılır.
70
Basit Veriler İçin:
Populasyon Standart Sapması:
: Populasyon Standart Sapması N : Populasyon Hacmi
Örnek Standart Sapması :
Gruplanmış Veriler İçin:
Sınıflanmış Veriler İçin :
N
xi
2
1
1
2
n
xxs
n
ii
1
)(
1
1
2
k
ii
k
iii
f
xmfs
1
)(
1
1
2
k
ii
k
iii
f
xxfs
71
Örnek: İstatistik I dersini alan 10 öğrencinin vizenotları aşağıdaki gibi sıralanmıştır. Buna göre vizenotları için varyans ve standart sapmayı hesaplayınız.
22,5049
45389
6998...694169301
222
1
2
2
n
xxs
n
ii
6910
98....41301
n
xx
n
ii
22,5042 s
30,41,53,61,68,79,82,88,90,98
45,2222,5042 ss→
İstatistik I vizesinden alınan notların ortalama etrafında yaklaşıkolarak 22 puan değiştiği görülmektedir. 72
Aynı soru kareler ortalamasının açılımı kullanılarakçözüldüğünde aynı sonuçları verecektir.
6901
n
ii
x
22,5042 s
45,2222,5042 ss
30,41,53,61,68,79,82,88,90,98
521481
2
n
i ix
x x2
30 90041 168153 280961 372168 462479 624182 672488 774490 8100
910
69052148
1
22
1
1
2
2
nn
xx
s
n
in
ii
73
CHEBYSHEV TEOREMİ
Herhangi bir veri setinde, verilerin ortalamanın K standartsapma uzağında bulunması oranı 1-1/K2 dır. Burada K, birden büyükpozitif sayıdır.
K=2 ve K=3 için;
•Verilerin en az 3/4’ ü (%75) ortalamanın 2 standart sapma uzagındabulunur.•Verilerin en az 8/9’ u (%89) ortalamanın 3 standart sapma uzağındabulunur.
74
• Örnek: X değişkeni bir sınıftaki İstatistik I dersininbaşarı notlarını göstermek üzere, örnek ortalamasının60 varyansının 100 olduğu bilindiğine göre, verilerin¾ ‘ü hagi aralıkta değişir?
2
1 31 2
42
60 2.10
40,80
kk
x s
75
Standart Sapmanın Yorumlanması- Chebyshev teoreminden, frekans dağılımının şeklinebakılmaksızın, ölçümlerin herhangi bir örneğine uygulanankural:a- Ölçümlerden hiçbirinin ),( sxsxyadasx
aralığınadüşmemesi mümkündür.
b- Ölçümlerin en az ¾’ü )2,2( sxsx aralığına düşer.-
ortalamanınc- Ölçümlerin en az 8/9’u )3,3( sxsx
aralığına düşer.-d- Genellikle, ölçümlerin en az (1-1/k2)’ı ),( ksxksx
aralığınadüşer. (k>1)
76
- Simekrik dağılışlarda standart sapmanın yorumu:
a- Ölçümlerin yaklaşık %68’i),( sxsxyadasx
aralığına düşer.- ortalamanın 1standart sapması içinb- Ölçümlerin yaklaşık %95’i )2,2( sxsx
aralığınadüşer.- ortalamanın 2 standart sapması içinc- Temelde, tüm ölçümler )3,3( sxsx
aralığına düşer.-ortalamanın 3 standart sapması için
77
Ampirik Kural
78
Ampirik Kural
79
Ampirik Kural
80
• Örnek veri seti:
• 50 şirketin AR-GE için harcanan gelirlerininyüzdeleri burada tekrar verilmiştir:
13.5 9.5 8.2 6.5 8.4 8.1 6.9 7.5 10.5 13.5
7.2 7.1 9.0 9.9 8.2 13.2 9.2 6.9 9.6 7.7
9.7 7.5 7.2 5.9 6.6 11.1 8.8 5.2 10.6 8.2
11.3 5.6 10.1 8.0 8.5 11.7 7.1 7.7 9.4 6.0
8.0 7.4 10.5 7.8 7.9 6.5 6.9 6.5 6.8 9.5
81
Örnek: Aralıkları içinde kalan bu ölçümlerinkesrini(fraction) hesaplayınızÇözüm: İlk aralık
• = (8.49 – 1.98, 8.49 + 1.98) = (6.51, 10.47)50 ölçümün 34’ünün ve ya %68’inin ortalamanın 1standart sapması içerisinde olduğunu ortaya koyar.Aralık,
= (8.49 – 3.96 , 8.49 + 3.96 ) = (4.53, 12.45)50 ölçümün 47’sini ya da %94’ünü içerir.ortalama etrafında 3 standart sapma aralığı,
= (8.49 – 5.94 , 8.49 + 5.94 ) = (2.55, 14.43)tüm ölçümleri içerir.
82
Örneklem Anakütle
x - µz =
2 ondalık basamağa yuvarlanır.
11) z Skoru
z = x - xs
Verilen bir gözlem değerinin ortalamanın kaç standartsapma uzağında olduğunu ölçer.
83
z- skorunun Yorumlanması
Bir veri ortalamadan küçük olursa z-skoru değerinegatif olur.Olağan Veriler : z skoru –2 ve 2 s.s arasındaOlağandışı Veriler: z skoru < -2 veya z skoru > 2 s.s
84
85
• Örnek: 200 çelik işçisinin yıllık gelirleri incelenmişve ortalaması = 24.000$ ve standart sapması s=2.000$ olarak bulunmuştur. Yıllık geliri 22.000$ olanJoe Smith’in z-skoru kaçtır?
18.000$ 22.000$JoeSmith’ingeliri
24.000$ 30.000$
86
z=s
xx
=$000.2
$000.24$000.22 =-1.0 bulunur. Burada ki -1.0 ınanlamı Joe Smith’in yıllık geliri ortalamanın 1 standartsapma altındadır.
z-skorunun sayısal değeri göreli durumlar için ölçümüyansıtmaktadır. Bir x değeri için bulunan en büyükpozitif z-skoru değeri, bu x değerinin diğer bütünölçümlerden daha büyük olduğunu gösterir ve mutlakdeğerce en büyük negatif z-skoru değeri de bu ölçümündiğer tüm ölçümlerden daha küçük olduğunu gösterir.Eğer z skoru 0 veya 0’a yakın ise ölçüm ortalamaya eşitveya ortalamaya çok yakındır.
87
12) Değişkenlik(Varyasyon)Katsayısı
• İki veya daha fazla populasyon üzerinde aynışans değişkenleri için yapılan araştırmalardadeğişkenliklerin karşılaştırılması için kullanılanbir ölçüdür.
• Standart sapmayı ortalamanın bir yüzdesiolarak ifade eden ve iki veya daha fazlapopulasyondaki varyasyonu (değişkenliği)karşılaştırmada kullanılan ölçüyevaryasyon(değişkenlik) katsayısı denir.
• Örnek: İstanbul’da ve Ankara’da yaşayanailelerin aylık gelirlerinin değişkenliklerininkarşılaştırılması
VaryasyonKatsayısı:
100*X
sC
V
88
s
A 8 2B 5 1
C 15 3
x
Örnek: A,B ve C hisse senetlerinin kapanış fiyatlarına ilişkin yapılan biraraştırmada, hisse senetlerinin kapanış fiyatlarının ortalamaları ve standartsapmaları hesaplanmış ve aşağıdaki tabloda verilmiştir. Buna göre hisse senetlerinikapanış fiyatlarının değişkenlikleri açısından karşılaştırınız ve hangi hissesenedinin fiyatındaki değişkenlik daha fazladır ifade ediniz.
2*100 *100 25 %25
8A
VAA
sC
X
Üç hisse senedinin kapanış fiyatlarının değişkenliklerikarşılaştırıldığında en büyük standart sapma değeri C hisse senedindeolmasına rağmen en büyük varyasyon katsayısına sahip olduğundan enfazla değişkenliğin A hisse senedinde olduğu görülür.
1*100 *100 20 %20
5B
VBB
sC
X
3*100 *100 20 %20
15C
VCC
sC
X
89
Simetrik Veriler
Eğer veri simetrik ise verinin histogramının sağ tarafıve sol tarafı eşit büyüklüktedir
Çarpık VerilerEğer veri çarpık ise (simetrik değilse), verinin
histogramın bir kısmı diğer kısmın büyüktür veyaküçüktür.
Tanımlamalar
90
Çarpıklık
91
Çarpıklık (Asimetri) Ölçüleri
• Anakütleleri birbirinden ayırmak için her zamanyalnızca yer ve yayılım ölçüleri yeterli olmayabilir.Aşağıda iki farklı anakütleden alınmış örnekler içinoluşturulan histogramlar verilmiştir.
92
13) Asimetri ÖlçüleriPEARSON ÇARPIKLIK ÖLÇÜSÜ
s
xSkp
mod SkP < 0 →Negatif çarpık(Sola)
SkP > 0 → Pozitif Çarpık(Sağa)
SkP = 0 ise dağılış simetriks
medXSkp
)(3
veya
BOWLEY ÇARPIKLIK ÖLÇÜSÜ
13
1223 )()(
QQQQSkb
Skb < 0 → Negatif çarpık(Sola)
Skb > 0 → Pozitif Çarpık(Sağa)
Skb = 0 ise dağılış simetrik
93
Örnek: Aşağıdaki tabloda 30 günlük süre içinde bir restoranın kullandığıet miktarının dağılımından elde edilen bazı tanımlayıcı istatistiklerverilmiştir. Buna göre pearson ve bowley asimetri ölçülerini hesaplayıpyorumlayınız.
Ar i t m e t i k O r t . Mod Medyan Q1 Q2 s2
46,6 45,4 46,2 41,5 51,9 54,46
016,046,54
4,456,46mod
s
xSk p
016,046,54
)2,466,46(3)(3
s
medXSk p
010,04,10
1
5,419,51
)5,412,46()2,469,51()()(
13
1223
QQQQSkb
Sağa Çarpık ,Pozitif Asimetri
Sağa Çarpık ,Pozitif Asimetri
Sağa Çarpık,Pozitif Asimetri
94
Simetrik Dağılım
A.O = Med = Mod
Sağa çarpık dağılım
A.O > Med > Mod
Sola çarpık dağılım
A.O < Med < Mod
İki modlu simetrik dağılım Modu olmayan dağılım Tekdüzen dağılım
95
Sapan gözlem ortalama üzerinde önemli bir etkiyesahip olabilir.
Sapan gözlem standart sapma üzerinde önemli biretkiye sahip olabilir.
Sapan gözlem dağılımın gerçek histogramının ölçeğiüzerinde önemli bir etkiye sahip olabilir.
Sapan gözlem, diğer bütün gözlemlerden uzaktabulunan gözlemdir.
14) Sapan Gözlemler
96
5 sayı özeti, bir veri setinde minimum değer,1.Kartil, 2.Kartil(medyan), 3.Kartil’i vemaksimum değeri içerir.
Kutu grafiği(veya kutu ve bıyık grafiği) bir veriseti için, sınırları maksimum ve minimum değerolmak üzere, içinde 1.Kartil, 2.Kartil(medyan) ve3.Kartil’i bulunduran kutu şeklindeki grafiktir.
15) 5 Sayı Özeti
97
Kutu Grafiği
98
Kutu grafiği hazırlama
• Q1:Kutunun sol kenarı• Q3:Kutunu sağ kenarı• Q2:Kutunun ortasındaki çizgi• Sapan hariç min.: Sol bıyık• Sapan hariç max.: Sağ bıyık• Sapan değer kontroluQ1 – 1.5(Q3 – Q1)Q3 + 1.5(Q3 – Q1) bu değerleri aşan veriler
* ile gösterilir.
• Örnek:Yazlık ürünler satan bir mağazadahaftalık satılan t-shirt sayılarıyandaki tabloda verilmiştir.Verilen tablodan beş sayı özetinibulunuz ve kutu grafiğini çiziniz.
27 22 20
17 18 18
22 21 29
20 32 17
30 19 28
25 20 31
22 23 21
28 22 24
18 18 32
25 18 44
17
• Çözüm:
Öncelikle veriler yandaki gibisıralanırsa;
Q1=(31+1)/4=8.sıraya karşılıkgelen veri olur.
Q1=18
Q3=3(31+1)/4=24. sıraya karşılıkgelen veri olur.
Q3=28
Minimum değer=17,
Maksimum değer=44 ve
Medyan(Q2)=22 olur.
Sapan değerleri kontrol etmek için;
Q1-1,5(Q3-Q1)=18-1,5(28-18)=3
Q3+1,5(Q3-Q1)=28+1,5(28-18)=43bulunur. Bu durumda elimizdeki44 değeri sapan değerdir ve * ilegösterilir..
17 20 2517 20 2517 21 2718 21 2818 22 2818 22 2918 22 3018 22 3119 23 3220 24 32
44
20
25
30
35
40
45 *
Medyan(Q2)=22
44 sapan değer
102
Kutu Grafiği
Figure2-16
103
Figure 2-17
Kutu Grafiği
104
16) Basıklık ÖlçüsüAşağıdaki A ve B dağılımlarının ortalamaları, değişkenlikölçülerinin aynı olmasından dolayı ve hatta ikisinin desimetrik olmalarından dolayı bu iki dağılışı ayırt etmek içinBasıklık Ölçüsü kullanılır.
105
Herhangi bir olasılık fonksiyonunun şekli ile ilgiliparametrelerden bir tanesi de basıklık ölçüsüdür.Basıklık Ölçüsü ortalamaya göre dördüncü momenttengidilerek hesaplanır ve 4 olarak gösterilir.
44
4
4 = 3 ise Seri Normal
4 < 3 ise Seri Basık
4 < 3 ise Seri Sivri Ya da Yüksek
n
xn
ii
1
4
4
Basit Seri İçin
Top Related