2. előadás

38
2. előadás 2. előadás

description

2. előadás. A sokaság/minta eloszlásának jellemzése. A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet: a sokaság/minta tipikus értékének vagy értékeinek meghatározása; az adatok különbözőségének vizsgálata, jellemzése; - PowerPoint PPT Presentation

Transcript of 2. előadás

Page 1: 2. előadás

2. előadás2. előadás

Page 2: 2. előadás

A sokaság/minta A sokaság/minta eloszlásának jellemzéseeloszlásának jellemzése

A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet:

a sokaság/minta tipikus értékének vagy értékeinek meghatározása;

az adatok különbözőségének vizsgálata, jellemzése;

a sokaság/minta eloszlásgörbéjének elemzése.

Page 3: 2. előadás

A sokaság/minta A sokaság/minta eloszlásának jellemzéseeloszlásának jellemzéseKözépértékekkel szembeni

követelmények:egyértelműen és algebrailag könnyen

számíthatók legyenek;tipikus, jellemző értékek legyenek;szemléletesen, jól lehessen őket

értelmezni;közepes helyzetet foglaljanak el, azaz

a legkisebb és a legnagyobb elem közéessenek: Xmin K Xmax

Page 4: 2. előadás

A sokaság/minta A sokaság/minta jellemzése jellemzése középértékekkelközépértékekkel

A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát.

Típusai:ÁtlagMóduszMedián

Page 5: 2. előadás

ÁtlagÁtlagAz átlag a legtöbb ember számára jól ismert

fogalom. Ugyanakkor a hétköznapi értelemben szinte kivétel nélkül mindig a számtani átlagot jelenti.

A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad.

Page 6: 2. előadás

ÁtlagÁtlagKiszámítási módja:

Legyenek X1, X2, ..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga

=X + X +...+X

N

X

N1 2 N i=1

N

i

Ha a teljes sokaság vizsgálata helyett annak csak egy részét, egy n elemű véletlen x1, x2, ..., xn mintát tekintünk, akkor a mintaátlag az

x =x + x +...+x

n

x

n1 2 n i=1

n

i

Page 7: 2. előadás

A számtani átlag matematikai A számtani átlag matematikai tulajdonságaitulajdonságai Az egyes elemek - átlagolandó értékek - átlagtól való

eltéréseinek összege 0:

Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x1, x2, ..., xn, átlaga , akkor x1 + a; x2 + a; ...; xn + a átlaga + a lesz.

Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x1, x2, ..., xn átlaga , akkor b x1; b x2; ...; b xn átlaga b lesz.

i=1

n

ix - x = 0

Page 8: 2. előadás

A számtani átlag matematikai A számtani átlag matematikai tulajdonságaitulajdonságai Ha az x1, x2, ..., xn elemek átlaga , az y1, y2, ..., yn

elemek átlaga ,

akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga lesz.

Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az ,azaz

yx

xy

x

i=1

n

ix - a 2minimális, ha a = x

Page 9: 2. előadás

A számtani átlag előnyeiA számtani átlag előnyei A számtani átlag a legtöbb ember számára

világos, érthető fogalom, számítása egyszerű. Minden adathalmazból egyértelműen

kiszámítható, azaz mindegyik adathalmaznak létezik számtani átlaga, s ugyanakkor pontosan egy van belőle.

A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén.A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt".

A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.

Page 10: 2. előadás

A számtani átlag A számtani átlag hátrányaihátrányai Az adatok többségétől jelentősen eltérő, kiugróan alacsony vagy

kiugróan magas értékek (ún. outlier-ek) is hatással vannak az átlagos érték nagyságára. Ekkor nem biztos, hogy a számtani átlag valóban jól jellemzi a sokaság vagy minta eloszlását.

Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Ugyanis ekkor nem tudjuk valóban figyelembe venni az egyedi értékeket, hiszen azokat osztályközönként az osztályközéppel helyettesítettük a számítás elvégzéséhez, s így - mint azt a súlyozott számtani átlag bevezetésénél már említettük - az egész sokaság átlagának csak egy becslését, közelítését kapjuk.

További problémát rejt a nyitott osztályközök használata. A nyitottosztályközöket általában ugyanolyan hosszúnak vesszük, mint alsó nyitott osztályköz esetén az utána következő, felső nyitott osztályköz esetén pedig az azt megelőző osztályköz hossza (feltéve, hogy a vizsgált jelenség esetén ez értelmezhető). Ekkor az így meghatározott osztályközök alsó határától kisebb illetve felső határától nagyobb értékeket (ha vannak ilyenek) az átlagszámítás során tulajdonképpen figyelmen kívül hagyjuk.

Page 11: 2. előadás

MediánMediánAz adatok eloszlásának, elhelyezkedésének

jellemzésére, a sokaság vagy minta tipikus értékének meghatározására alkalmas mutatószám lehet a középső elem meghatározása is.

Definíció: A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük.

Jele: MeA medián tehát az az érték, amitől az

adatok fele kisebb, másik fele nagyobb.Ha a vizsgált elemek száma páratlan, akkor

ténylegesen létezik az adatok között ún. középső elem, n számú adat esetén ez az - ik elem.

Page 12: 2. előadás

MediánMedián

Medián képlete:

Me = me +

n

2f

fh

me-1

me

me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határaf'me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található;fme = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található;h = a mediánt tartalmazó osztályköz hossza;n = az elemek száma;

Page 13: 2. előadás

Medián előnyeiMedián előnyeiTermészetesen a mediánnak is vannak előnyös,

illetve hátrányos tulajdonságai: A medián is - hasonlóan a számtani átlaghoz -

egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle.

A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is:

A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Kiugróan magas vagy alacsony értékek esetén - mind azt az előző részben bemutattuk - a számtani átlag nem lesz tipikus érték, ekkor a medián "jobban" jellemzi az adatok elhelyezkedését.

Page 14: 2. előadás

Medián hátrányaMedián hátrányaTermészetesen néhány probléma is

felmerül a medián meghatározásakor:

csak rangsorba rendezett elemekből számítható;

ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai-statisztikai szempontból alkalmasabb mutatószám (erről részletesen a statisztikai becslés témakörénél lesz szó).

Page 15: 2. előadás

MóduszMóduszEgy adathalmazt vizsgálva gyakran

tapasztalhatjuk, hogy egy vagy több érték többször fordult elő a megfigyelés (adatfelvétel) során. Ebben az esetben a legtöbbször előforduló elem is alkalmas lehet a sokaság jellemzésére.

 Definíció: A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo

Page 16: 2. előadás

Módusz tulajdonságaiMódusz tulajdonságaiA módusz előnye, hogy nem csak

mennyiségi, hanem minőségi jellemzők esetén is meghatározható.

Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre.

Az előző előnyei ellenére azonban a módusz nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.

Page 17: 2. előadás

MóduszMódusz

Módusz képlete:

Mo = mo +k

k + kh1

1 2

mo = a móduszt tartalmazó, un. modális osztályköz alsó határa,k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége,k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbségeh = a modális osztályköz hossza.

Page 18: 2. előadás

Egyéb átlagformák Egyéb átlagformák

Page 19: 2. előadás

Geometriai átlag

Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad.

Kiszámítási módja x1, x2, ..., xn egyedi értékek esetén

x xg

n

in

i 1

Ha valamelyik érték többször is előfordul, azaz x1 f1-szer; x2 f2-ször; ...; xk fn-szer, illetve osztályközös gyakorisági sor esetén a súlyozott átlagforma használható:

n fi

n

1ig

ixπx

Page 20: 2. előadás

Harmonikus átlag

Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad.

Kiszámítási módja x1, x2, ..., xn elemek esetén

hx

=

n

xi=1

n

i 1 , illetve súlyozott átlag

formában

xh

=

nf

xi=1

ni

i

, ahol n = fi=1

k

i

Page 21: 2. előadás

Négyzetes átlag

A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad.

Kiszámítási módjai

n

x

x

n

ii

q

1

2

k

ii

k

iii

q

f

xf

x

1

1

2

k

iiiq xgx

1

2

Page 22: 2. előadás

SzóródásszámításSzóródásszámításSzóródáson azonos fajta számszerű értékek

(általában egy mennyiségi ismérv értékeinek) különbözőségét értjük.

A középérték a sokaság egészének általános, tömör jellemzését szolgálja, az ettől való eltérés a szóródás. A szóródás, vagyis az értékek különbözősége egyrészt az értékek egymástól való különbözőségében, másrészt valamely középértéktől való eltérésben fejeződik ki.

Page 23: 2. előadás

A szóródás terjedelmeA szóródás terjedelmeA terjedelem az előforduló

elemek között a legnagyobb és legkisebb érték különbsége.

A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek.

Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.

Page 24: 2. előadás

Átlagos eltérésÁtlagos eltérésAz átlagos eltérés az egyedi

értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja:

=

d

a

ii=1

n

, ahol d x xi i

d =

f d

f

i ii=1

k

ii=1

k

Page 25: 2. előadás

SzórásSzórás A szórás az egyedi értékek átlagtól való

eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés.

Kiszámítási módjai:

teljes sokaság esetén

=

d

n

ii=1

n2

=

f d

f

i ii=1

k

ii=1

k

2

minta esetén

1-n

d

=s

n

=1i

2i

s =

f d

f

i ii=1

k

ii=1

k

2

1

Page 26: 2. előadás

SzórásSzórásA szórás tulajdonságai: Ha az xi értékekhez egy állandó „ a ” számot

hozzáadunk (vagy levonjuk xi-ből ezt a számot), a szórás értéke nem változik: .

Ha az egyes xi értékeket egy állandó számmal (b) szorozzuk (vagy osztjuk) az így kapott értékek szórása megegyezik az eredeti értékek szórásának b-szeresével (vagy b-ed részével):

. A számtani átlag négyzetes minimum

tulajdonságából következik, hogy egy adott „ a ” értéktől számított eltérésnégyzetek számtani átlagának, illetve az eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás:

y a+x x

y b xi i

y b x xb

1

1

2

2

nx a

nx a

i

i

Page 27: 2. előadás

Relatív szórásRelatív szórásAmely kifejezi, hogy az egyedi

értékek átlagosan hány %-kal térnek el az átlagos értéktől.

V =x

Kimutatható, hogy a relatív szórás egyenlő az egyedi eltérések viszonylagos nagyságainak négyzetes átlagával

V =1

n

d

xi

i=1

n

2

Page 28: 2. előadás

Átlagos különbségÁtlagos különbségÁtlagos különbségnek ( Gini - mutatónak )

nevezzük az ismérvértékek egymástól mért abszolút eltéréseinek számtani átlagát. Jele: G (Gini olasz statisztikus után)

A Gini – mutató elsősorban a koncentráció vizsgálatánál alkalmazható.

G =1

nx x

2 i ji=1

n

j=1

n

G =1

nf f x x

2 i j i jj=1

k

i=1

k

Page 29: 2. előadás

Gyakorisági sorok vizsgálatának Gyakorisági sorok vizsgálatának további módszereitovábbi módszerei

gyakorisági görbe további vizsgálata grafikusan és mutatószámok segítségével,

a valószínűség-eloszlások különböző típusainak elemzése.

Page 30: 2. előadás

KvantilisekKvantilisekLegyen 0 q 1. Ha a rangsorba rendezett

sokaságot egy ismérvérték q: (1 – q) arányban osztja ketté, akkor ezt az ismérvértéket q-ad rendű vagy q-adik kvantilisnek nevezzük (jele Qq).

A leggyakrabban előforduló kvantiliseket külön névvel és jelöléssel is illetjük.

Tercilisek: T1 (alsó tercilis), T2 (felső tercilis),Kvartilisek: Q1 (alsó kvartilis), Q2 = Me

(medián), Q3 (felső kvartilis),Kvintilisek: K1, K2, K3, K4,Decilisek: D1, D2, …. , D9,Percentilisek: P1, P2, …. , P99.

Page 31: 2. előadás

Az aszimmetria Az aszimmetria mérőszámaimérőszámai

Az eloszlások következő típusaival foglalkozunk:

-egymóduszú eloszlásszimmetrikus,aszimmetrikus (vagy ferde);-többmóduszú eloszlás.

Page 32: 2. előadás

Az aszimmetria Az aszimmetria mérőszámaimérőszámaiTöbbmóduszú gyakorisági sorok általában

heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük.

Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.

Page 33: 2. előadás

Asszimetria mérőszámaiAsszimetria mérőszámaiAz aszimmetria leggyakrabban

használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.

Page 34: 2. előadás

Pearson-féle Pearson-féle mutatószámamutatószámaAz aszimmetria Pearson-féle

mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul.

A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén

A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.

Mox

A

Page 35: 2. előadás

FF mutató mutatóAz aszimmetria másik mérőszáma, az F

mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb.

E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.

FQ Me Me Q

Q Me Me Q3 1

3 1

( ) ( )

( ) ( )

Page 36: 2. előadás

A koncentráció A koncentráció vizsgálatavizsgálataKoncentrációnak nevezzük azt a jelenséget,

hogy – az ismérvértékek különbözősége következtében – a kisebb értékekkel rendelkező egységekhez az értékösszeg kisebb hányada tartozik, mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya, a sokaság nagyobb ismérvértékekkel rendelkező egységeinél pedig fordított a helyzet, azaz a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul.

Page 37: 2. előadás

Lorenz-görbeLorenz-görbeA koncentráció vizsgálatának egyik legfontosabb

és egyben legelterjedtebb eszköze a Lorenz-görbe, amely a koncentráció meglétén kívül annak mértékét is szemléletesen mutatja.

A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett vonaldiagram, mely a kummulált relatív gyakoriságok ( ) függvényében ábrázolja a kumulált relatív értékösszegeket ( ).

A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha a koncentrációs területet a háromszög területéhez viszonyítjuk, akkor e hányados alapján következtetni tudunk a koncentráció fokára. A koncentrációs terület arányát a koncentrációs együtthatóval (jele: K) mérjük.

Page 38: 2. előadás

Köszönöm a figyelmetKöszönöm a figyelmet