2. előadás

Post on 11-Jan-2016

24 views 3 download

description

2. előadás. A sokaság/minta eloszlásának jellemzése. A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet: a sokaság/minta tipikus értékének vagy értékeinek meghatározása; az adatok különbözőségének vizsgálata, jellemzése; - PowerPoint PPT Presentation

Transcript of 2. előadás

2. előadás2. előadás

A sokaság/minta A sokaság/minta eloszlásának jellemzéseeloszlásának jellemzése

A sokaság vagy minta tömör jellemzése alapvetően három szempont szerint történhet:

a sokaság/minta tipikus értékének vagy értékeinek meghatározása;

az adatok különbözőségének vizsgálata, jellemzése;

a sokaság/minta eloszlásgörbéjének elemzése.

A sokaság/minta A sokaság/minta eloszlásának jellemzéseeloszlásának jellemzéseKözépértékekkel szembeni

követelmények:egyértelműen és algebrailag könnyen

számíthatók legyenek;tipikus, jellemző értékek legyenek;szemléletesen, jól lehessen őket

értelmezni;közepes helyzetet foglaljanak el, azaz

a legkisebb és a legnagyobb elem közéessenek: Xmin K Xmax

A sokaság/minta A sokaság/minta jellemzése jellemzése középértékekkelközépértékekkel

A középértékek olyan mutatószámok, melyekkel a bevezetőben megfogalmazott követelményeknek eleget téve könnyen, jól lehet tömören jellemezni a sokaságot vagy mintát.

Típusai:ÁtlagMóduszMedián

ÁtlagÁtlagAz átlag a legtöbb ember számára jól ismert

fogalom. Ugyanakkor a hétköznapi értelemben szinte kivétel nélkül mindig a számtani átlagot jelenti.

A számtani átlag az a szám, amelyet az átlagolandó értékek helyére írva azok összege változatlan marad.

ÁtlagÁtlagKiszámítási módja:

Legyenek X1, X2, ..., XN egy sokaság elemei, ekkor a sokaság elemeinek átlaga

=X + X +...+X

N

X

N1 2 N i=1

N

i

Ha a teljes sokaság vizsgálata helyett annak csak egy részét, egy n elemű véletlen x1, x2, ..., xn mintát tekintünk, akkor a mintaátlag az

x =x + x +...+x

n

x

n1 2 n i=1

n

i

A számtani átlag matematikai A számtani átlag matematikai tulajdonságaitulajdonságai Az egyes elemek - átlagolandó értékek - átlagtól való

eltéréseinek összege 0:

Ha minden egyes elemhez hozzáadunk egy "a" konstans értéket, az így kapott elemek számtani átlaga éppen "a"-val tér el az eredeti elemek átlagától, azaz ha x1, x2, ..., xn, átlaga , akkor x1 + a; x2 + a; ...; xn + a átlaga + a lesz.

Ha minden egyes elemet megszorzunk egy "b" konstans értékkel, akkor az így kapott elemek átlaga éppen "b"-szerese lesz az eredeti elemek átlagának, azaz ha x1, x2, ..., xn átlaga , akkor b x1; b x2; ...; b xn átlaga b lesz.

i=1

n

ix - x = 0

A számtani átlag matematikai A számtani átlag matematikai tulajdonságaitulajdonságai Ha az x1, x2, ..., xn elemek átlaga , az y1, y2, ..., yn

elemek átlaga ,

akkor az x1 + y1; x2 + y2; ...; xn + yn átlaga lesz.

Az elemek mindegyikéből egy tetszőleges "a" állandót levonva ezen eltérések négyzetösszege akkor lesz minimális, ha az "a" állandó éppen az ,azaz

yx

xy

x

i=1

n

ix - a 2minimális, ha a = x

A számtani átlag előnyeiA számtani átlag előnyei A számtani átlag a legtöbb ember számára

világos, érthető fogalom, számítása egyszerű. Minden adathalmazból egyértelműen

kiszámítható, azaz mindegyik adathalmaznak létezik számtani átlaga, s ugyanakkor pontosan egy van belőle.

A számtani átlag segítségével összehasonlíthatjuk ugyanazon típusú számszerű jellemző alakulását két vagy több különböző sokaság vagy minta esetén.A számtani átlag a sokaság vagy minta minden egyes elemének figyelembe vételével kerül kiszámításra, így "nem veszítünk információt".

A számtani átlag kiszámításához valójában nem szükséges az egyedi értékek ismerete, elegendő azok összegét tudni, s ezáltal meghatározható az átlagos érték.

A számtani átlag A számtani átlag hátrányaihátrányai Az adatok többségétől jelentősen eltérő, kiugróan alacsony vagy

kiugróan magas értékek (ún. outlier-ek) is hatással vannak az átlagos érték nagyságára. Ekkor nem biztos, hogy a számtani átlag valóban jól jellemzi a sokaság vagy minta eloszlását.

Probléma merül fel a számtani átlag számításával kapcsolatban osztályközös gyakorisági sor alkalmazása esetén is. Ugyanis ekkor nem tudjuk valóban figyelembe venni az egyedi értékeket, hiszen azokat osztályközönként az osztályközéppel helyettesítettük a számítás elvégzéséhez, s így - mint azt a súlyozott számtani átlag bevezetésénél már említettük - az egész sokaság átlagának csak egy becslését, közelítését kapjuk.

További problémát rejt a nyitott osztályközök használata. A nyitottosztályközöket általában ugyanolyan hosszúnak vesszük, mint alsó nyitott osztályköz esetén az utána következő, felső nyitott osztályköz esetén pedig az azt megelőző osztályköz hossza (feltéve, hogy a vizsgált jelenség esetén ez értelmezhető). Ekkor az így meghatározott osztályközök alsó határától kisebb illetve felső határától nagyobb értékeket (ha vannak ilyenek) az átlagszámítás során tulajdonképpen figyelmen kívül hagyjuk.

MediánMediánAz adatok eloszlásának, elhelyezkedésének

jellemzésére, a sokaság vagy minta tipikus értékének meghatározására alkalmas mutatószám lehet a középső elem meghatározása is.

Definíció: A rangsorba rendezett adatok közül a középső elemet mediánnak nevezzük.

Jele: MeA medián tehát az az érték, amitől az

adatok fele kisebb, másik fele nagyobb.Ha a vizsgált elemek száma páratlan, akkor

ténylegesen létezik az adatok között ún. középső elem, n számú adat esetén ez az - ik elem.

MediánMedián

Medián képlete:

Me = me +

n

2f

fh

me-1

me

me = a mediánt tartalmazó osztályköz alsó határa, vagy az azt megelőző osztályköz felső határaf'me-1 = a mediánt tartalmazó osztályközt megelőző osztályköz kumulált gyakorisága, azaz hogy a mediánt tartalmazó osztályköz előtt hány elem található;fme = a mediánt tartalmazó osztályközhöz tartozó gyakoriság, azaz a mediánt tartalmazó osztályközben összesen hány elem található;h = a mediánt tartalmazó osztályköz hossza;n = az elemek száma;

Medián előnyeiMedián előnyeiTermészetesen a mediánnak is vannak előnyös,

illetve hátrányos tulajdonságai: A medián is - hasonlóan a számtani átlaghoz -

egyértelműen meghatározható, azaz minden adathalmaznak létezik mediánja és pontosan egy van belőle.

A medián azonban nem csak mennyiségi jellemzők esetén határozható meg, hanem rangsorba rendezhető minőségi ismérvek esetén is:

A medián értéke független a szélső értékektől, csak a középső vagy középső két elem nagysága befolyásolja. Kiugróan magas vagy alacsony értékek esetén - mind azt az előző részben bemutattuk - a számtani átlag nem lesz tipikus érték, ekkor a medián "jobban" jellemzi az adatok elhelyezkedését.

Medián hátrányaMedián hátrányaTermészetesen néhány probléma is

felmerül a medián meghatározásakor:

csak rangsorba rendezett elemekből számítható;

ha egy minta alapján akarunk következtetni a teljes sokaság eloszlására, akkor a számtani átlag matematikai-statisztikai szempontból alkalmasabb mutatószám (erről részletesen a statisztikai becslés témakörénél lesz szó).

MóduszMóduszEgy adathalmazt vizsgálva gyakran

tapasztalhatjuk, hogy egy vagy több érték többször fordult elő a megfigyelés (adatfelvétel) során. Ebben az esetben a legtöbbször előforduló elem is alkalmas lehet a sokaság jellemzésére.

 Definíció: A módusz a leggyakrabban előforduló elemet jelenti. Jele: Mo

Módusz tulajdonságaiMódusz tulajdonságaiA módusz előnye, hogy nem csak

mennyiségi, hanem minőségi jellemzők esetén is meghatározható.

Hasonlóan a mediánhoz a módusz sem érzékeny a szélső, kiugró értékekre.

Az előző előnyei ellenére azonban a módusz nagyon gyakran nem alkalmas az eloszlás jellemzésére, ugyanis nem minden esetben létezik, vagy előfordulhat, hogy több is van belőle, azaz nem egyértelmű.

MóduszMódusz

Módusz képlete:

Mo = mo +k

k + kh1

1 2

mo = a móduszt tartalmazó, un. modális osztályköz alsó határa,k1 = a modális osztályköz és az azt megelőző osztályköz gyakoriságának különbsége,k2 = a modális osztályköz és az azt követő osztályköz gyakoriságának különbségeh = a modális osztályköz hossza.

Egyéb átlagformák Egyéb átlagformák

Geometriai átlag

Geometriai átlag az a szám, amelyet az egyedi értékek helyére írva azok szorzata változatlan marad.

Kiszámítási módja x1, x2, ..., xn egyedi értékek esetén

x xg

n

in

i 1

Ha valamelyik érték többször is előfordul, azaz x1 f1-szer; x2 f2-ször; ...; xk fn-szer, illetve osztályközös gyakorisági sor esetén a súlyozott átlagforma használható:

n fi

n

1ig

ixπx

Harmonikus átlag

Harmonikus átlag az a szám, amelyet az egyes átlagolandó értékek helyére írva azok reciprokösszege változatlan marad.

Kiszámítási módja x1, x2, ..., xn elemek esetén

hx

=

n

xi=1

n

i 1 , illetve súlyozott átlag

formában

xh

=

nf

xi=1

ni

i

, ahol n = fi=1

k

i

Négyzetes átlag

A négyzetes (kvadratikus) átlag az a szám, amellyel az átlagolandó értékeket helyettesítve, azok négyzetösszege változatlan marad.

Kiszámítási módjai

n

x

x

n

ii

q

1

2

k

ii

k

iii

q

f

xf

x

1

1

2

k

iiiq xgx

1

2

SzóródásszámításSzóródásszámításSzóródáson azonos fajta számszerű értékek

(általában egy mennyiségi ismérv értékeinek) különbözőségét értjük.

A középérték a sokaság egészének általános, tömör jellemzését szolgálja, az ettől való eltérés a szóródás. A szóródás, vagyis az értékek különbözősége egyrészt az értékek egymástól való különbözőségében, másrészt valamely középértéktől való eltérésben fejeződik ki.

A szóródás terjedelmeA szóródás terjedelmeA terjedelem az előforduló

elemek között a legnagyobb és legkisebb érték különbsége.

A mutatószám kifejezi, hogy mekkora értékközben ingadoznak az ismérvértékek.

Gyakorlatban kevéssé használatos, mert csupán a két szélső értékre támaszkodik.

Átlagos eltérésÁtlagos eltérésAz átlagos eltérés az egyedi

értékeknek a számtani átlagtól mért átlagos abszolút eltérését mutatja:

=

d

a

ii=1

n

, ahol d x xi i

d =

f d

f

i ii=1

k

ii=1

k

SzórásSzórás A szórás az egyedi értékek átlagtól való

eltéréseinek a négyzetes átlaga, az átlagtól mért átlagos négyzetes eltérés.

Kiszámítási módjai:

teljes sokaság esetén

=

d

n

ii=1

n2

=

f d

f

i ii=1

k

ii=1

k

2

minta esetén

1-n

d

=s

n

=1i

2i

s =

f d

f

i ii=1

k

ii=1

k

2

1

SzórásSzórásA szórás tulajdonságai: Ha az xi értékekhez egy állandó „ a ” számot

hozzáadunk (vagy levonjuk xi-ből ezt a számot), a szórás értéke nem változik: .

Ha az egyes xi értékeket egy állandó számmal (b) szorozzuk (vagy osztjuk) az így kapott értékek szórása megegyezik az eredeti értékek szórásának b-szeresével (vagy b-ed részével):

. A számtani átlag négyzetes minimum

tulajdonságából következik, hogy egy adott „ a ” értéktől számított eltérésnégyzetek számtani átlagának, illetve az eltérések négyzetes átlagának minimuma a szórásnégyzet, illetve a szórás:

y a+x x

y b xi i

y b x xb

1

1

2

2

nx a

nx a

i

i

Relatív szórásRelatív szórásAmely kifejezi, hogy az egyedi

értékek átlagosan hány %-kal térnek el az átlagos értéktől.

V =x

Kimutatható, hogy a relatív szórás egyenlő az egyedi eltérések viszonylagos nagyságainak négyzetes átlagával

V =1

n

d

xi

i=1

n

2

Átlagos különbségÁtlagos különbségÁtlagos különbségnek ( Gini - mutatónak )

nevezzük az ismérvértékek egymástól mért abszolút eltéréseinek számtani átlagát. Jele: G (Gini olasz statisztikus után)

A Gini – mutató elsősorban a koncentráció vizsgálatánál alkalmazható.

G =1

nx x

2 i ji=1

n

j=1

n

G =1

nf f x x

2 i j i jj=1

k

i=1

k

Gyakorisági sorok vizsgálatának Gyakorisági sorok vizsgálatának további módszereitovábbi módszerei

gyakorisági görbe további vizsgálata grafikusan és mutatószámok segítségével,

a valószínűség-eloszlások különböző típusainak elemzése.

KvantilisekKvantilisekLegyen 0 q 1. Ha a rangsorba rendezett

sokaságot egy ismérvérték q: (1 – q) arányban osztja ketté, akkor ezt az ismérvértéket q-ad rendű vagy q-adik kvantilisnek nevezzük (jele Qq).

A leggyakrabban előforduló kvantiliseket külön névvel és jelöléssel is illetjük.

Tercilisek: T1 (alsó tercilis), T2 (felső tercilis),Kvartilisek: Q1 (alsó kvartilis), Q2 = Me

(medián), Q3 (felső kvartilis),Kvintilisek: K1, K2, K3, K4,Decilisek: D1, D2, …. , D9,Percentilisek: P1, P2, …. , P99.

Az aszimmetria Az aszimmetria mérőszámaimérőszámai

Az eloszlások következő típusaival foglalkozunk:

-egymóduszú eloszlásszimmetrikus,aszimmetrikus (vagy ferde);-többmóduszú eloszlás.

Az aszimmetria Az aszimmetria mérőszámaimérőszámaiTöbbmóduszú gyakorisági sorok általában

heterogén sokaságokból származtathatók. A fősokaságot a heterogenitást előidéző ismérv szerint csoportosítva egy egymóduszú gyakorisági sorokhoz jutunk, ezért ezeket összetett gyakorisági soroknak is nevezzük.

Az egymóduszú gyakorisági sorok poligonjának egy helyi maximuma (csúcsa) van. A helyzetmutatók elhelyezkedésétől függően az eloszlás szimmetrikus és aszimmetrikus lehet.

Asszimetria mérőszámaiAsszimetria mérőszámaiAz aszimmetria leggyakrabban

használt mérőszámai a Pearson-féle mutatószám és az F mutató. A két mutatószám eltérő jellemzőkből kiindulva méri az aszimmetria mértékét és irányát.

Pearson-féle Pearson-féle mutatószámamutatószámaAz aszimmetria Pearson-féle

mutatószáma (jele: A) a számtani átlag és a módusz egyes eloszlástípusok esetén jellemző nagyságrendi viszonyán alapul.

A mérőszám (önmagában a számláló) előjele az aszimmetria irányát mutatja. Bal oldali, jobbra elnyúló aszimmetria esetén A 0, jobb oldali, balra elnyúló aszimmetria esetén

A 0. Szimmetrikus eloszlás esetén A = 0. A mérőszám abszolút értékének nincs határozott felső korlátja, azonban már 1-nél nagyobb abszolút érték a gyakorlatban ritkán fordul elő és meglehetősen erős aszimmetriára utal.

Mox

A

FF mutató mutatóAz aszimmetria másik mérőszáma, az F

mutató (jele: F) az alsó és felső kvartilis mediántól való eltérésének egymáshoz viszonyított nagyságán alapul. Bal oldali, jobbra elnyúló aszimmetria esetén a medián az alsó (Q1), míg jobb oldali aszimmetria esetén a felső (Q3) kvartilishez esik közelebb.

E mutatószám ugyanolyan feltételek mellett ad nulla, pozitív és negatív eredményt, mint az A mutató. Az F mutató lényegesen kisebb értékkel jelzi a már nagyfokúnak tekinthető aszimmetriát, mint az A.

FQ Me Me Q

Q Me Me Q3 1

3 1

( ) ( )

( ) ( )

A koncentráció A koncentráció vizsgálatavizsgálataKoncentrációnak nevezzük azt a jelenséget,

hogy – az ismérvértékek különbözősége következtében – a kisebb értékekkel rendelkező egységekhez az értékösszeg kisebb hányada tartozik, mint amilyen ezen egységeknek a sokaság egészében elfoglalt részaránya, a sokaság nagyobb ismérvértékekkel rendelkező egységeinél pedig fordított a helyzet, azaz a sokasághoz tartozó teljes értékösszeg jelentős része a sokaság kevés egységére összpontosul.

Lorenz-görbeLorenz-görbeA koncentráció vizsgálatának egyik legfontosabb

és egyben legelterjedtebb eszköze a Lorenz-görbe, amely a koncentráció meglétén kívül annak mértékét is szemléletesen mutatja.

A Lorenz-görbe egy egységnyi oldalú négyzetben elhelyezett vonaldiagram, mely a kummulált relatív gyakoriságok ( ) függvényében ábrázolja a kumulált relatív értékösszegeket ( ).

A Lorenz-görbe és az átló által bezárt területet koncentrációs területnek nevezzük. Ha a koncentrációs területet a háromszög területéhez viszonyítjuk, akkor e hányados alapján következtetni tudunk a koncentráció fokára. A koncentrációs terület arányát a koncentrációs együtthatóval (jele: K) mérjük.

Köszönöm a figyelmetKöszönöm a figyelmet