Statisztikai alapismeretek 1

24
STATISZTIKAI ALAPISMERETEK

description

Matematika

Transcript of Statisztikai alapismeretek 1

  • STATISZTIKAI ALAPISMERETEK

  • STATISZTIKA Tmegesen elfordul jelensgek szmbavtelvel, az gy nyert adatok elemzsvel foglalkoz tudomny

    Diszciplnk: biometria, kemometria, demogrfia, gazdasgi statisztika, politikai statisztika stb.

    Ler statisztika:

    Adathalmazok rendszerezse, sszefoglalsa, az adatok tmrebb formban trtn lersa

    Kvetkeztet (matematikai) statisztika:

    Minta alapjn a teljes statisztikai sokasgot jellemz becslsek, felttelezsek hipotzisek fellltsa s ellenrzse

  • ALAPFOGALMAK

    Statisztikai sokasg:

    Ismrv:

    Adat:

    Azon egyedek sszessge, amelyek valamely tulajdonsgrl tjkozdni akarunk

    Az egyedek vizsglt tulajdonsga

    Az egyedeket az ismrv szerint mennyisgileg vagy minsgileg jellemz informci

    Nv Nem Magassg Tmeg Szletsi hely Szletsi v Hajszn

    T. Jzsi Ffi 171 77 Mak 1987 Barna

    N. Bla N 158 46 Budapest 1988 Szke

    B. Krisztina N 167 58 Szeged 1988 Szke

    K. Ferenc Ffi 176 81 Budapest 1985 Fekete

  • Nv Nem Szorgalom Tmeg BMI Testvrek

    T. Jzsi Ffi Kzepes 77 26,33 1

    N. Bla N J 46 18,42 3

    B. Krisztina N Rossz 58 20,79 2

    K. Ferenc Ffi Rossz 81 26,15 0

    F adattpusok

    Nominlis adat: nem llthatk sorrendbe

    Ordinlis adat: sorrendbe llthat, de az egyes adatok kzt nem lehet tvolsgot meghatrozni

    Mrhet adat: sorrendbe llthat, a lehetges adatok kzti klnbsgek egyenlk

    Arnymr adat: alapadatokbl jellemzen osztssal keletkez szrmaztatott adat

    KVALITATV

    KVANTITATV

  • 50 tizennyolc ves lny testmagassga (cm)

    154, 156, 157, 157, 161, 162, 162, 166, 166, 167, 168, 168, 168, 169, 171, 172, 174, 174, 175, 176, 179, 157, 158, 158, 159, 161, 163, 163, 163, 166, 170, 173, 174, 177, 159, 160, 162, 164, 164, 165, 169, 170, 155, 158, 164, 165, 168, 169, 171, 180

    Adatok gyakorisga

    Gyakorisg: az adatok szma az adatsorban

    154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

    1 1 1 3 3 2 1 2 4 3 3 2 3 1 4 3 2 2 1 1 2 1 1 1 0 1 1

  • 01

    2

    3

    4

    5

    154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

  • 1. lps: az RTKTARTOMNY meghatrozsa

    2. lps: az rtktartomnyt (ltalban) egyenl INTERVALLUMOKRA osztjuk

    3. lps: megszmoljuk az egyes csoportokba es adatokat (GYAKORISG)

    Gyakorisgi tblzat (kontingenciatblzat) elksztse

    154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

    1 1 1 3 3 2 1 2 4 3 3 2 3 1 4 3 2 2 1 1 2 1 1 1 0 1 1

    150-155 156-160 161-165 166-170 171-175 176-180

    2 10 14 13 7 4

    150-160 161-170 171-180

    12 27 11

  • 01

    2

    3

    4

    5

    154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

    0

    2

    4

    6

    8

    10

    12

    14

    16

    150-155 156-160 161-165 166-170 171-175 176-180 0

    5

    10

    15

    20

    25

    30

    150-160 161-170 171-180

  • Relatv gyakorisg: az adatok hnyadrsze esik az adott csoportba(a gyakorisg s az adatok szmnak hnyadosa)

    Csoport 150-155 156-160 161-165 166-170 171-175 176-180

    Gyakorisg 2 10 14 13 7 4

    Relatv gyakorisg0,04 0,2 0,28 0,26 0,14 0,08

    4% 20% 28% 26% 14% 8%

    0

    2

    4

    6

    8

    10

    12

    14

    16

    150-155 156-160 161-165 166-170 171-175 176-180

    0%

    5%

    10%

    15%

    20%

    25%

    30%

    150-155 156-160 161-165 166-170 171-175 176-180

  • A gyakorisgok brzolsnak lehetsgei

    1. Oszlopdiagram

    2. Szalagdiagram

    3. Hisztogram

    0

    5

    10

    15

    150-155 156-160 161-165 166-170 171-175 176-180

    0 2 4 6 8 10 12 14 16

    150-155

    156-160

    161-165

    166-170

    171-175

    176-180

    0

    2

    4

    6

    8

    10

    12

    14

    16

    150-155 156-160 161-165 166-170 171-175 176-180

  • 4. Poligon (vonaldiagram)

    0

    2

    4

    6

    8

    10

    12

    14

    16

    150-155 156-160 161-165 166-170 171-175 176-180

    150-155; 4%

    156-160; 20%

    161-165; 28%

    166-170; 26%

    171-175; 14%

    176-180; 8%

    5. Krdiagram

    150-160; 12

    161-170; 27

    171-180; 11

  • Kumulatv gyakorisg

    ltalunk meghatrozott kszbrtkeknl kisebb elemek szma

    154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

    1 1 1 3 3 2 1 2 4 3 3 2 3 1 4 3 2 2 1 1 2 1 1 1 0 1 1

    1 2 3 6 9 11 12 14 18 21 24 26 29 30 34 37 39 41 42 43 45 46 47 48 48 49 50

    0

    10

    20

    30

    40

    50

    60

    155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

  • Statisztikai mutatk

    Clunk, hogy az adatsorokat kevs szmadattal jellemezzk

    1. Kzprtkek A minta tendencijt jellemzik(tlag, medin kvantilisek, mdusz)

    2. Szrds A minta tlagtl val eltrst jellemzik(terjedelem, interkvartilis flterjedelem, tlagos eltrs, variancia, szrs, relatv szrs)

    3. Trend A sokasg egyedeire adott, rtkbecsls(regresszi-analzis)

    4. Adatok kzti sszefggsek (korrelci, faktoranalzis)

    5. Reprezentativits vizsglata A mintavtel mennyire jellemzi a sokasgot(t-prba, F-prba)

  • Kzprtkek

    Szmtani kzp Az adott mintba tartoz elemek sszegt osztjuk a minta elemszmval

    = =1

    =1 + 2 ++

    1. Csoportostatlan adatok esetn

    2. Csoportostott adadok esetn

    = =1

    m a csoportok szmau a csoportkzprtkekf a gyakorisgokn a minta elemszma

  • Csoport Gyak.Csoport-

    kzpCsoport Gyak.

    Csoport-

    kzp

    154 165 154 1 154 150 - 155 2 152,5 305 151 - 160 12 155,5 1866

    155 166 155 1 155 156 - 160 10 158 1580 161 - 170 27 165,5 4468,5

    156 166 156 1 156 161 - 165 14 162,5 2275 171 - 180 11 175,5 1930,5

    157 166 157 3 471 166 - 170 13 168 2184 50 8265

    157 167 158 3 474 171 - 175 7 172,5 1207,5 tlag 165,3

    157 168 159 2 318 176 - 180 4 178 712

    158 168 160 1 160 50 8263,5

    158 168 161 2 322 tlag 165,27

    158 168 162 4 648

    159 169 163 3 489

    159 169 164 3 492

    160 169 165 2 330

    161 170 166 3 498

    161 170 167 1 167

    162 171 168 4 672

    162 171 169 3 507

    162 172 170 2 340

    162 173 171 2 342

    163 174 172 1 172

    163 174 173 1 173

    163 175 174 2 348

    164 176 175 1 175

    164 177 176 1 176

    164 179 177 1 177

    165 180 178 0 0

    tlag 165,5 179 1 179

    180 1 180

    50 8275

    tlag 165,5

    Eredeti

    adatokGyakorisgok 1. csoportosts 2. csoportosts

  • Medin Az az rtk, aminl a minta fele nagyobb (a msik fele pedig kisebb).

    1. Csoportostatlan adatok esetn

    A mintt nagysg szerint sorbarendezzk!!Pratlan szm adat esetn a kzps adat a medin

    ( +12

    )

    Pros szm adat esetn a kzps kt adat tlaga a medin

    (2+

    2+1

    2)

    1 2

    23 24

    1 2 3 4

    18 23 24 27

    1 2 3 4 5 6

    12 18 23 24 27 32

    1 2 3 4 5 6 7 8

    10 12 18 23 24 27 32 51

    1 2 3 4 5 6 7 8 9 10

    6 10 12 18 23 24 27 32 51 55

    1 2 3 4 5 6 7 8 9 10 11 12

    4 6 10 12 18 23 24 27 32 51 55 60

    1 2 3 4 5 6 7 8 9 10 11 12 13 14

    2 4 6 10 12 18 23 24 27 32 51 55 60 65

    1 2 3

    15 17 20

    1 2 3 4 5

    12 15 17 20 22

    1 2 3 4 5 6 7

    10 12 15 17 20 22 25

    1 2 3 4 5 6 7 8 9

    7 10 12 15 17 20 22 25 30

    1 2 3 4 5 6 7 8 9 10 11

    6 7 10 12 15 17 20 22 25 30 31

    1 2 3 4 5 6 7 8 9 10 11 12 13

    3 6 7 10 12 15 17 20 22 25 30 31 45

  • 2. Csoportostott adadok esetn

    CsoporthatrokAbszolt

    gyakorisgKumulatv gyakorisg

    25-29 2 2

    30-34 6 8

    35-39 7 15

    40-44 7 22

    45-49 10 32

    50-54 10 42

    55-59 4 46

    60-64 3 49

    65-69 1 50

    1. Az 50-es mintban a 25. elem csoportjnak kivlasztsa

    2. A 25. elem a csoport 3. tagja

    3. A csoport 10 tag s 5 hosszsg

    4. A medin: 45 + 3 5

    10= 45,5

    0,00%

    10,00%

    20,00%

    30,00%

    40,00%

    50,00%

    60,00%

    70,00%

    80,00%

    90,00%

    100,00%

    25 30 35 40 45 50 55 60 65

  • Mdusz A minta leggyakoribb eleme (vagy elemei)

    0

    1

    2

    3

    4

    5

    154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

    0

    2

    4

    6

    8

    10

    12

    14

    16

    150-155 156-160 161-165 166-170 171-175 176-180

    Csoportostott adatok esetn a legnagyobb gyakorisg csoport csoportkzepe a mdusz. (Itt 163)

  • Tipikus gyakorisgi eloszlsok s a kzprtkmutatk

    Szimmetrikus(mdusz medin tlag)

    FerdeBalra ferdlt: tlag < medin < mduszJobbra ferdlt: mdusz < medin < tlag

    Tbbcscs (pl.: bimodlis)

  • Szrds A minta azon tulajdonsga, hogy az adatok eltrnek a kzprtkektl.

    tlag Medin Mdusz

    A csoport 4 8 8 10 10 10 13 17 18 20 11,8 10 10

    B csoport 5 8 10 10 10 14 14 15 16 16 11,8 12 10

    C csoport 9 10 10 10 12 12 13 13 14 15 11,8 12 10

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    0-4 5-9 10-14 15-19 20-24

    A csoport

    B csoport

    C csoport

  • Terjedelem A legnagyobb s legkisebb adat klnbsge

    Kvartilisek Els kvartilis: az az adat, amelynl az adatok negyede kisebbMsodik kvartilis: medinHarmadik kvartilis: az az adat, amelynl az adatok negyede nagyobb

    Kiszmtsuk a medinhoz hasonl, a sorbarendezett adatokat 4 egyenl csoportra osztjuk

    0

    10

    20

    30

    40

    50

    60

    155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180

    Interkvartilis flterjedelem A nagysg szerint sorballtott minta elemeinek kzps 50%-t tartalmaz rtktartomny fele

  • 5 12 14 17 20 35 36 37 45 51 72 75 84 87 89 90 92 95 97 99

    Medin: 61,5

    Els kvartilis: 27,5 Harmadik kvartilis: 89,5

    Interkvartilis flterjedelem: (89,5-27,5)/2 = 31

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    0 2 4 6 8 10 12 14 16 18 20

  • tlagos eltrs A minta elemeinek tlagtl val eltrseinek tlaga

    Kiszmtsa csoportostatlan adatokbl: =1

    5 12 14 17 20 35 36 37 45 51 72 75 84 87 89 90 92 95 97 99

    52,6 45,6 43,6 40,6 37,6 22,6 21,6 20,6 12,6 6,6 -14,4 -17,4 -26,4 -29,4 -31,4 -32,4 -34,4 -37,4 -39,4 -41,4

    Az adatok tlaga: 57,6 Az eltrsek tlaga: 30,4

    Kiszmtsa csoportostott adatokbl: =1

    m a csoportok szmau a csoportkzprtkekf a gyakorisgokn a minta elemszma

    CsoportGyakorisg

    (f)

    Csoportkzp

    (u)

    Csoportkzp

    eltrse

    az tlagtl

    f*u

    150 - 155 2 152,5 12,77 25,54 305

    156 - 160 10 158 7,27 72,7 1580

    161 - 165 14 162,5 2,77 38,78 2275

    166 - 170 13 168 2,73 35,49 2184

    171 - 175 7 172,5 7,23 50,61 1207,5

    176 - 180 4 178 12,73 50,92 712

    50 8263,5

    tlag 45,67 165,27

  • Variancia (szrsngyzet) Kiszmtsa az tlagos eltrshez hasonlan trtnik, csak az tlagtl val eltrsek helyett, azok ngyzeteit hasznljuk

    Csopotostatlan adatok esetn: =1

    2

    Csoportostott adatok esetn: =1

    2

    Szrs (s): a variancia ngyzetgyke

    Varicis egytthat:

    100