Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први...
Transcript of Статистика - MISANUdjkadij/Statistika.pdf · djkadij/Statistika.pdf Први...
3/12/2014
1
Статистика
Ђорђе М. КадијевићЛични сајт: www. mi.sanu.ac.rs/~djkadij
Контакт: [email protected]
На врху поруке обавезно навести- име и презиме,- број индекса,- о ком се предмету ради, као и- место студирања (нпр. Пожаревац)
Основне информацијеЛитературу за курс ће чинити 80–100 слајдова. Ти слајдови ће, како курс буде одмицао, бити доступни на адреси:
www.mi.sanu.ac.rs/~djkadij/Statistika.pdf
Први колоквијум (без коришћења рачунара) биће одржан 28. априла,а други колоквијум (са коришћењем рачунара) 9 јуна.
Студент може положити испит и без коришћења рачунара, али је тада највећа оцена 8. Оцене 9 и 10 намењене су студентима који за статистичке анализе и друге примене статистике солидно користе рачунар (нпр. додатак за програм Microsoft Excel под називом EZAnalyze).
Корисна књига за подршку раду у мају и јуну(рад на личном рачунару):Кадијевић, Ђ. М. (2012). Емпиријска истраживања:
методолошке и статистичке основе. Београд:Завод за уџбенике.
3/12/2014
2
Садржај курса
Увод у курс, статистика у медијима
Приказивање података, основне статистике
Вероватноћа, условна вероватноћа
Нормална и друге расподеле
Логика истраживања и статистичког закључивања
Упоређивање фреквенци
Први колоквијум (без коришћења рачунара)
Упоређивање средњих вредности
Корелација
Моделирање са симулацијом
Истраживање података
Други колоквијум (са коришћењем рачунара)
Основни типови задатакаПредстављање података
1. Приказати податке из дате табелена прикладан графички начин.
2. У протеклих 5 година улагање у један посао доносило је следећу зараду: 10% (пре 5 година), 8%, 4%, 16% и 12% (претходне године). Колику би зараду, у просеку, требало очекивати од тог посла и уз колики ризик?
Вероватноћа
1. Од 12 чланова студентског парламента, 5 су женског пола. Колика је вероватноћа да се изабере председник, заменик и секретар парламента тако да само заменик буде мушког пола?
2. Од 7 представника студената, 3 су женског пола. Колика је вероватноћа да трочлану делегацију чине студенти истог пола.
Условна вероватноћа Уређај се прави у два погона, при чему се 60% уређаја прави у првом. Ако су вероватноће дефектног производа у овим погонима редом 10% и 5%, одредити: (а) вероватноћу да је случајно изабрани производ дефектан, б) вероватноћу да је дефектан производ направљен у другом погону.
Нормална расподела Од 10 000 € инвеститор улаже у банку 60% а 40% у ризичну пољопривредну производњу. Нека је зарада од улагања у банку 5%, а зарада од улагања у ту производњу 50% при ризику од 20%. При нормалној расподели зараде од ризичне производње, колика се зарада може очекивати са вероватноћом од приближно 95%?
3/12/2014
3
... наставак
Логика истраживања и статистичког закључивања Изабраном питању придружити хипотезе. Ако је тестирање нулте хипотезе довело до вероватноће 0.08, какав би одговор требало дати на полазно питање? Питање се односе на упоређивање фреквенци, упоређивање просечних вредности или неку повезаност.
Упоређивање фреквенци У 100 компанија (случајан и репрезентативан узорак) посматрано је да ли се користе савремене стратегије менаџмента. Доња табела приказује резултат тог посматрања.
Шта би требало закључити из ових података? Одговор образложити имајући у виду полазно питање, њему придружене хипотезе, као и резултате тестирања нулте хипотезе. Ако је у задатку дато да 20% од 50 испитаника женског пола жели савременије руковођење, док 30% од 60 испитаника мушког пола тражи то исто, табела попут горње би садржала следеће апсолутне фреквенце: 10 (да), 40 (не) код жена; 18 (да), 42 (не) код мушкараца. Дакле, задатак сводимо на табелу контингенције 2 х 2 и користимо Хи-квадрат тест.
... наставакУпоређивање просечних вредности, корелација За податке из следеће табеле (коришћен је случајан и репрезентативан узорак):
дати образложене одговоре на следећа питања:- Да ли је, у просеку, принос генетски модификованог усева већи од приноса немодификованог усева?- Да ли је принос линеарно повезан са количином влаге у земљишту?У образложењу одговора навести хипотезе H0 i H1 које одговарају разматраном питању, резултате статистичке анализе којом је тестирана нулта хипотеза, као и одлуку коју би хипотезу (H0 или H1) требало прихватити на основу тих резултата. (Користити додатак програму Microsoft Excel под називом EZAnalyze.)
Симулација Ако су трошкови производње кукуруза 500 €/ха, колика је вероватноћа да зарада буде барем 1 000 €/ха ако је уочено да принос кукуруза има нормалну расподелу (М = 8 000 кг/ха, SD = 1 000 кг/ха) а откупна цена троугаону расподелу (a = 0.20, b = 0.25, мод = 0.22). Вероватноћу одредити на бази 100 симулација. (Користити додатак програму Microsoft Excel под називом SimTools.)
Истраживање података (Анализа потрошачке корпе – условна вероватноћа) Анализирано је 10 000 трансакција и при томе је утврђено да је куповина производа А евидентирана у 2 000 трансакција, куповина производа Б у 3 000 трансакција, а куповина производа А и Б у 1 500 трансакција. Колики је ниво поверења правила „Ако је купљен производ Б, онда је купљен и производ А”? (Може се користити и додатак програму Microsoft Excel под називом XLMiner.) Нека предикција на бази временске серије (анализа тренда, покретни просеци или експоненцијално изравнавање у програму Microsoft Excel)
3/12/2014
4
Статистика у медијимаИз дневног листа Политика (од 11.01.2014.)
Резултати Студије „Милион жена”, коју води Универзитет Оксфорд, а која истражује појаву рака код жена и друге здравствене проблеме, показала је да су припаднице нежнијег пола из јужне Азије имале 18 одсто мање шансе да добију рак дојке од дама беле пути, док су црнкиње имале 15 одсто мањи ризик од појаве ове болести....У истраживању, које је објављено у Британском журналу за проучавање рака, учествовало је више од милион белкиња, од 50 до 64 године, заједно са око 6.000 жена јужне Азије и око 5.000 црнкиња. Научници сматрају да рађање већег броја деце и дојење помажу женама у заштити од добијања рака дојке, а испитивање је показало да су белкиње у просеку имале 2,1 деце, оне из јужне Азије 2,7, а црнкиње 2,9. С друге стране, више од 83 одсто дама тамније пути је дојило своје бебе у поређењу са белкињама које су то чиниле у 69 одсто случајева....Када је реч о конзумирању алкохола као фактору ризика који је изменљив, истраживање је показало да 75 одсто жена јужне Азије не пије, у поређењу са 38 одсто црнкиња и само 23 одсто белих жена....Професор др Радан Џодић, директор Института за онкологију и радиологију Србије, сматра да је све у објављеној студији тачно и одлично урађено, јер су чињенице да су људи беле расе већег социоекономског статуса, да су алкохол, гојазност, рађање после 30. године или нерађање и изостанак дојења познати фактори ризика за настанак рака дојке.
http://www.politika.rs/rubrike/Drustvo/Alkohol-i-neradjanje-uticu-na-pojavu-raka-dojke.sr.html
Негативне стране прилога? Какоби прилог требало да изгледа?
Приказивање података
http://infolific.com/technology/internet/seo-lie-factor/
27.00%
29.00%
31.00%
33.00%
35.00%
Google Yahoo MSN
% of traffic
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
Google Yahoo MSN
% of traffic
Који од горњих дијаграма даје коректан приказ налаза?
Не 3-D графикони!
3/12/2014
5
Задаци
1. Преузети из дневних или недељних новина прилог који се односи на статистику и указати на мањкавости тог прилога (обично постоје неки недостаци).
2. Користећи погодну литературу, указати на то како се подаци најчешће сумарно приказују табелама, графиконима и нумерички.
Koriscenje savremenih strategija menadzmenta
01020304050
Drzavne firme Privatne firme
da
ne
Да ли су подаци из табелеадекватно представљенина графикону?
Примери табела и графикона
Prinos (u t/ha)
02468
10
Hibrid ZP45 Hibrid RA11
Prinos (u t/ha)Hibrid ZP45 8.45Hibrid RA11 9.2
Profit 2013Beograd 570,000.00 €Novi Sad 450,000.00 €Kragujevac 370,000.00 €
Profit 2013
41%
32%
27%BeogradNovi SadKragujevac
Cena Broj kupaca2.50 € 10,0003.00 € 8,0003.50 € 7,0004.00 € 5,0004.50 € 4,0005.00 € 3,000
Broj kupaca
02,0004,0006,0008,000
10,00012,000
2.50 € 3.00 € 3.50 € 4.00 € 4.50 € 5.00 €
Broj obolelih (u %)
14.00%
15.00%
16.00%
17.00%
18.00%
2011 2012 2013
Broj obolelih (u %)2011 15.00%2012 16.00%2013 18.00%
Trebalo bi krenuti od 0%!
3/12/2014
6
... наставак
Drzavne firme Privatne firmeda 30 35ne 40 15
Drzavne firme Privatne firmeda 43% 70%ne 57% 30%
Koriscenje savremenih strategija menadzmenta
01020304050
Drzavne firme Privatne firme
dane
Koriscenje savremenih strategija menadzmenta
0%
20%
40%
60%
80%
Drzavne firme Privatne firme
Трагедија Челинџера 1986. год.
The official recommendation from the rocket manufacturer to NASA stated that the temperature data were not conclusive in predicting O-ring damage. ... The Rogers Commission also noted that a mistake had been made in the analysis of the historical data.
Извор:www.stat.nthu.edu.tw/~swcheng/Teaching/stat5230/lab/02.01_BinomialData_inference.htm,Wikipedia, текст Challenger Space Shuttle Activity
Које податке анализирати? Температура при лансирању је била 31ºF.
3/12/2014
7
Адекватан или неадекватан приказ података?
The standard required an increase in mileage from 18 to 27.5, an increase of 53%. The magnitude of increase shown in the graph is 783%, which results in a lie factor of 14.8!
Видети на: http://www.infovis-wiki.net/index.php?title=Lie_Factor
Основни типови графикона
• Стубичасти графикон
• Линијски графикон – полигон разматраних вредности
• Кружни или секторски графикон
• X-Y графикон (дијаграм распршења)
• Берзански графикони
3/12/2014
8
• Хистограм (уочавање типа расподеле вредности варијабле)
0
5
10
15
20
25
3 6 9 12 15 18 More
Uce
stal
ost
Prosecna dnevna temperatura
Raspodela prosecnih dnevnih temperatura u prolece 2012. god.
0
5
10
15
20
25
-0.1 2.6 5.3 8 10.7 13.4 16.1 18.8 21.5 More
Uce
stal
ost
Prosecna dnevna teperatura
Raspodela prosecnih dnevnih temperatura u prolece 2012. god.
Који најадекватније приказује разматрану расподелу? Обично је то тешко рећи, па се зато користи график густине расподеле добијен применом помоћу методе функције језгра. Marković, Đ., Plavšić, J., Stanić. M., Sekulić, G. (2011). Neparametarske funkcije raspodele u hidrologiji. Vodoprivreda, 43, 1–3, str. 13–22. Internet: http://scindeks-clanci.ceon.rs/data/pdf/0350-0519/2011/0350-05191103013M.pdf
0 10 20 30
0.00
0.02
0.04
0.06
0.08
Од програма Excel, преко програма SPSS
до програма R.
• Бокс дијаграм (box diagram)
Линије на графикону представљају минимум, доњи квартил, медијану, горњи квартил и максимум. (За податке 1, 2, 2, 5, 10, 20, 20, 25, 26 ове карактеристике су 1, 2, 10, 20 и 26, док су за податке 3, 3, 5, 7, 12, 18, 24, 33 те карактеристике 3, 4, 9.5, 21 и 33. Дакле, 25% података је до доњег квартила, 50% података до медијане, док је 75% до горњег квартила.) Такође се, ако их има, приказују и подаци који одударају од осталих података (тзв. outliers).
3/12/2014
9
Просечна вредност, варијанса,стандардно одступање
Ако је узорак обима n, узорачка средина и поправљена узорачка варијанса израчунавају се, редом, по формулама:
при чему су x1, x2, …, xn измерене вредности разматране варијабле. Стандардно одступање (девијација) једнака је вредности квадратног корена из варијансе. (Овим формулама одговарају Excel функције AVERAGE, VARP, STDEVP.)
Задатак. У протеклих 5 година улагање у један посао доносило је следећу зараду: 10% (пре 5 година), 8%, 4%, 16% и 12% (претходне године). Колику би зараду, у просеку, требало очекивати од тог посла и уз колики ризик? Одговор: 10% уз ризик од 4%.
Медијана
Нека су вредности разматраног обележја (варијабле) уређене у неопадајући низ x1 ≤ x2 ≤ … ≤xn. Узорачка медијана једнака је
вредности која се налази у средини тог низа. На пример, за вредности 3, 6, 7, 8 и 11 медијана је 7, док је за вредности 3, 7, 10 и 20 медијана 8.5 (тј. просечна вредност средишњих података 7 и 10). Одговарајућа Excel функција је MEDIAN.
Пример. Ако су плате у неком предузећу (у €):200, 300, 300, 300, 400, 300, 200, 300, 200, 300, 200, 200, 1 000 и1 300, просечна вредност је скоро 400 EUR, па би се могло закључити да радници имају задовољавајуће плате. То ипак није тачно јер је медијана платâ у овом предузећу само 300 EUR.
Просечна вредност vs. медијана. Користити статистику која даје адекватнију меру централне тенденције података!
3/12/2014
10
Решени задаци
1. Одредити средишњу вредност и дисперзију за следеће вредности варијабле старост: 23, 29, 44, 20, 45, 54, 25, 64.Oдговор: М=38, s2=227, SD ≈ 15; Меd=36.5, Min=20, Max=64.
2. Од 10 000 € инвеститор улаже у банку 60% а 40% у ризичну пољопривредну производњу. Нека је зарада од улагања у банку 5%, а зарада од улагања у ту производњу 50% при ризику од 20%. При нормалној расподели зараде од ризичне производње, колика се зарада може очекивати са вероватноћом од приближно 95%? Одговор: (а) очекивана зарада је 0.6 · 5% + 0.4 · 50% = 23%, при ризику од 0.6 · 0% + 0.4 · 20% = 8%; вероватноћа од око 95% значи да се зарада креће од 7% (23% – 2 · 8%) до 39% (23% + 2 · 8%) тј. да ће бити између 700 € и 3 900 €; (б) зарада од улагања у банку износи 300 € (5% од 6 000 €); зарада од улагања у ризичан бизнис иде од 400 € (10% од 4 000 €) до 3 600 € (90% од 4 000 €); очекивана зарада је између 700 € и 3 900 €.
3. Од 12 чланова студентског парламента, 5 су женског пола. Колика је вероватноћа да се изабере председник, заменик и секретар парламента тако да само заменик буде мушког пола?Oдговор: број повољних избора је 5 · 7 · 4; број свих избора је 12 · 11 · 10; тражена вероватноћа = 7 /66.
4. Од 7 представника студената, 3 су женског пола. Колика је вероватноћа да трочлану делегацију чине студенти истог пола? Oдговор: женских делегација има 3 · 2 · 1 / 3 · 2 · 1 = 1, мушких делегација има 4 (од 4 · 3 · 2 / 3 · 2 · 1 = 4), свих делегација има 7 · 6 · 5 / 3 · 2 · 1 = 35, тражена вероватноћа је 5/35 = 1/7.
5. Од 8 представника студената, 3 представника су женског пола. Колика је вероватноћа да се изабере трочлана делегација са следећим број чланова мушког пола: (а) 0, (б) 1, (в) 2, (г) 3?
... наставак
561
5611
38
05
33
5615
5653
38
15
23
5630
56103
38
25
13
5610
56101
38
35
03
а) б) в) д)
3/12/2014
11
... наставак
6. Колика је вероватноћа да при истовременом бацању три коцкице за игру број четворки које падну буде: (а) 0, (б) 1, (в) 2, (г) 3, (д) бар једна? Одговор: вероватноћа да падне 4 је 1/6, а вероватноћа да падне неки други број 5/6. Стога су резултати следећи:(а) 5/6 · 5/6 · 5/6 = 125/216; (б) она може пасти на првој, другој или трећој коцкици, па је вероватноћа 1/6 · 5/6 · 5/6 + 5/6 · 1/6 · 5/6 + 5/6 · 5/6 · 1/6 = 25/72; (в) она може пасти на првој и другој, другој и трећој или првој и трећој коцкици, па је вероватноћа 1/6 · 1/6 · 5/6 + 5/6 · 1/6 · 1/6 + 1/6 · 5/6 · 1/6 = 5/72; (г) 1/216; (д) 1 –125/216 = 91/216 или сабирањем резултата под (б), (в), (г).
7. Колика је вероватноћа да при истовременом бацању три коцкице за игру број парних бројева који падну буде: (а) 0,(б), 1, (в) 2, (г) 3, (д) бар један? Одговор: вероватноћа да падне паран број је 1/2, а вероватноћа да падне неки други број тј. непаран број је такође 1/2. Стога су резултати следећи: (а) 1/8, (б) 3/8, (в) 3/8, (г) 1/8, (д) 7/8.
Подсетник: формуле из комбинаторике
Варијације са понављањем Vp(k, n) = n · n · ... · n = nk
Колико има петоцифрених бројева записаних цифрама 1, 5 и 7?Одговор: 3 · 3 · 3 · 3 · 3 = 35 = 243.
Баријације без понављања V(k, n) = n · (n – 1) · ... · (n – к + 1)
На колико начина се од 10 студената може изабрати руководство које чини председник, секретар и благајник? Одговор: 10 · 9 · 8 = 720.
Факторијел варијације без понављања n-те класе од n елемената
V(n, n) = n! = n · (n – 1) · ... · 3 · 2 · 1На колико начина се 5 ученика може поређати у врсту (или 5 књига на полици)?
Одговор: 5! = 5 · 4 · 3 · 2 · 1 = 120.
Комбинације C(k, n) = V(k, n) / V(к, к)
C(k, n) = n · (n – 1) · ... · (n – к + 1) / к! , C(0, n) = C(n, n) = 1На колико начина се 5 студената може изабрати делегација од 3 студента?
Одговор: C(3, 5) = = 5 · 4 · 3 / 3 · 2 · 1 = 10.
к пута
к чинилаца
3/12/2014
12
Подсетник: вероватноћа
Недетерминистички опит / случајни догађај
- један могући резултат тј. исход опита
- скуп свих могућих резултата тј. исхода опитаПри бацању коцкице за игру и регистровања броја који падне = 1, 2, 3, 4, 5, 6.
Случајни догађај А је подскуп скупа .За “пао је паран број”, А = 2, 4, 6.
Вероватноћа случајног догађаја А, у ознаци P(A), је број око кога се групише релативна учестаност тог догађаја када се број опита N неограничено увећава тј. N(A) / N (нпр. бацање
коцкице за игру). Ако је број исхода коначан (и сви су једнако вероватни), P(A) једнака броју повољних исхода у односу на број свих исхода (нпр. вероватноћа извлачења четвороцифреног броја чији
је збир цифара 3).
Подсетник: особине вероватноће
• P(A) ≥ 0
• P() = 1, – сигуран догађај
• P(A + B) = P(A) + P(B) за дисјунктне догађаје тј. догађаје који се не могу истовремено реализовати, тј. P(AB) = 0
Из прве три особине, могу се извести наредних пет:
• P() = 0, – немогућ догађај
• P(Ā) = 1 – P(A), вероватноћа супротног догађаја
• Ако А B тј. догађај А имплицира догађај Б, тада P(A) P(B)
• P(A) 1
• P(A B) = P(A) + P(B) – P(AB)
P(AB) = P(A)P(B)за независне догађаје
3/12/2014
13
Подсетник: условна вероватноћаПретпоставимо реализацију догађаја А. Вероватноћа догађаја Bпод том претпоставком дефинише се на следећи начин
P(B A) = P(AB) / P(A), P(A) > 0.
Слично, P(А B) = P(BA) / P(B) = P(AB) / P(B), P(B) > 0.Анализирано је 10 000 трансакција и при томе је утврђено да је куповина производаА евидентирана у 2 000 трансакција, куповина производа Б у 3 000 трансакција, а куповина производа А и Б у 1 500 трансакција. Колики је ниво поверења правила „Ако је купљен производ Б, онда је купљен и производ А”? Одговор: 0.75 или 75%.
* * *
Ако дисјунктни догађаји А1, ..., Аn чине једно разбијање сигурног догађаја , тада формула потпуне вероватноће гласи
P(B) = P(B A1) P(A1) + ... + P(B An) P(An)Уређај се прави у два погона, при чему се 60% уређаја прави у првом. Ако су вероватноће дефектног производа у овим погонима редом 10% и 5%. Одредити вероватноћу да је случајно изабрани производ дефектан. Одговор: 8% (од 0.1 · 0.6 + 0.05 · 0.4).
Подсетник: Бајесова формула
Ако дисјунктни догађаји А1, ..., Аn чине једно разбијање сигурног догађаја , тада формула потпуне вероватноће гласи
P(Ai B) = P(B Ai) P(Ai) / P(B).
Уређај се прави у два погона, при чему се 60% уређаја прави у првом. Ако су вероватноће дефектног производа у овим погонима редом 10% и 5%, одредити вероватноћу да је нађени дефектан производ направљен у другом погону.Одговор: 0.25 тј. 25%.
Поступак решавања: P(Pog1) = 0.6, P(Pog2) = 0.4, P(D Pog1) = 0.1, P(D Pog2) = 0.05;
P(D) = 0.08 (видети претходни слајд)
P(Pog2 D) = P(D Pog2) P(Pog2) = 0.4 / P(D) = 0.05 · 0.4 / 0.08 = 0.25
3/12/2014
14
Случајна променљива,карактеристике, нормална расподела, примена
0)()(издобијено
21 )( 2
2
.constk,kxxfxfe
πxf
x
... наставак
Нормална расподела као гранични случај бинарне расподелеизвор: www.stat.tamu.edu/~west/applets/
1
2100
2
211
550 dxe
π~SP
x
3/12/2014
15
... наставак
... наставак
Текст преузет из књиге: Кадијевић, Ђ. М. (2013). Основи информатике, математике и статистике. Београд: Мегатренд универзитет.
3/12/2014
16
Друге расподеле
Хи-квадрат расподела, Студентова расподела, Фишерова расподела (статистичко закључивање); униформна расподела, троугаона расподела (симулације) легенда: колоквијум 1, колоквијум 2
Атлас више од сто расподела може се наћи на адреси http://poincare.matf.bg.ac.rs/~v_jevremovic/atlas.pdf
)10()10()10( 22223 ,N,N,Nχ )10(22
1 ,Nχ
221
21)(
x
exπ
xg
0
1
21
2
2
)(Γ
)2(Γ2
1)(
dxext
exk
xg
xt
xk
k
k = 3
... наставакЗа апроксимацију расподеле (која апроксимација најадекватније апроксимира разматрану расподелу) може се користити додатак за програм MS Excel под називом EasyFit (www.mathwave.com).
Извор: Kadijevich, Dj. (2010). Improving research in statistics education. In C. Reading (Ed.), Proceedingsof the Eighth International Conference on Teaching Statistics. International Association for Statistics Education.
3/12/2014
17
Задаци1. У првој кутији се налазе три беле и две црне куглице, а у другој две беле и четири црне. Најпре се случајно бира једна кутија, а затим се у њој случајно бира једна куглица. Одредити вероватноћу да је (а) изабрана црна куглица, (б) изабрана црна куглица извађена из друге кутије. Одговор: а) 8/15, б) 5/8.
2. Од свих студената једног факултета, 60% су жене, а 40% мушкарци. Просечна успешност жена на испиту је 60% а мушкараца 50%. Колика је вероватноћа (а) да испит буде положен, (б) да ако је испит положен, њега је полагао мушкарац?Одговор: а) 0.56, б) 5/14.
3. Половину од 100 000 € инвеститор улаже у ризичан бизнис који доноси 10% зараде уз ризик 6%, а другу половину у банку уз гарантовану зараду од 5%. Претпостављајући нормалност расподеле, колика се зарада може очекивати са вероватноћом од приближно (а) 2/3, (б) 95%? Одговор: а) између 4 500 и 10 500 €.
... наставак4. Колика је вероватноћа да у десет бацања новчића писмо падне тачно 4 пута? Одговор:
5. Колика је вероватноћа да при бацању 4 коцкице за игру тројка падне тачно три пута. Одговор:
6. На испиту од десет могућих задатака,студент решава пет и за оцену 6 потребноје тачно урадити три задатка. Студент јенаучио решавање 6 задатака. Колика јевероватноћа да положи испит? Одговор:
7. Два студента су заједно учила и од 10 испитних цедуља добро спремили 8. Вероватноћа да први положи испит је 8/10 тј. 4/5. Колика је вероватноћа да испит положи други студент који полаже после првог (цедуља коју је извукао први студент не користи се више на испиту)? Одговор: 7/9 · 8/10 + 8/9 · 2/10.
510
36
24
46
14
56
04
64 50504
10..
13
65
61
34
3/12/2014
18
... наставак8. У свакој од две кутије налазе се по 5 белих и 3 црне куглице. Из прве кутије се на случајан начин бира једна куглица и ставља у другу кутију, а затим се из друге кутије случајно бира једна куглица. Колика је вероватноћа да је друга изабрана куглица беле боје? Одговор: 45/72.
9. Три стрелца погађају циљ са вероватноћама 0.8 (први), 0.9 (други) и 0.7 (трећи). Случајно се бира један стрелац. Ако је циљ погођен, колика је вероватноћа да је гађао трећи стрелац?Одговор: 7/24.
10. Колика је вероватноћа да при бацању три коцкице за игру у збиру пао а) паран број, б) број мањи од 5? Одговор: а) ½, б) 4/216.
11. Улагање у неки бизнис доноси 20% зараде уз ризик од 10%. Претпостављајући нормалност расподеле профита, колика је вероватноћа да зарада од улагања 3 000 € донесе зараду од барем а) 900 €, б) 1 200 €? Одговор: приближно a) 1/6, b) 2.5%.
Колоквијум (шематски)
1. Основне статистике / графикони 1 бод
2. Вероватноћа 1 бод
3. Условна вероватноћа 1 бод
4. Нормална расподела 1 бод
5. Логика закључивања и упоређивање фреквенци 2 бода
6 бодоваОцена: 5 (0–2 бода) Бар 1–2 бода за поновно полагање колоквијума!
6 (3 бода), 7 (4 бода), 8 (5 или 6 бодова).Пробни колоквијум ће се одржати 31.03. са почетком у 16:30.
Први колоквијум ће се одржати 2.04. са почетком у 16:30.
Први колоквијум ће се поновити 28.04. са почетком у 16:30 и 18:00,као и 26.05. са почетком у 18:00.
Излазак на колоквијум је потребно лично пријавити (за време наставе).Молим студенте да на колоквијум излазе спремни (видети претходно).
Logika statističkog zaključivanja
A. Statističke analize, koje obrađuju podatke prikupljene na uzorcima, koriste se za dobijanje odgovara na istraživačka pitanja od interesa, koja se odnose na populacije koje ti uzorci predstavljaju. Pitanja se odnose na neke pojmove operacionalizovane varijablama koje merimo u istraživanju. (Te varijable su obično neke slučajne veličine, čija se vrenost menja od subjekta do subjekta). Neka od tih pitanja koja se tiču frekvenci (učestalosti) su: „Da li je broj pušača prema broju nepušača 60% prema 40%?“; „Da li je zastupljenost pripadnika mlade, srednje i starije generacije, redom, 20%, 40% i 40%?“ „Da li su pušenje i infarkt povezani?“ tj. „Da li se učestalost infarkta kod pušača i nepušača razlikuje?“; „Da li su pol i uspeh na ispitu povezani?“ tj. „Da li se % prolaznosti na ispitu kod muškaraca i žena razlikuje?“; „Da li su sorta jabuke i zaštita stabla povezani?“ tj. „Da li se % zaštićenih stabala razlikuje od sorte do sorte jabuke?“.
Svakom istraživačkom pitanju pridružuje se nulta hipoteza, u oznaci H0, kao i njena alternativa, u oznaci H1, koja je obično negacija H0.
Kada se razmatra zastupljenost kategorija jedne varijable, nulte hipoteze tvrde da su nađena i očekivana zastupljenost jednake. Dakle, za pitanje „Da li je zastupljenost pripadnika mlade, srednje i starije generacije, redom, 20%, 40% i 40%? hipoteze su:
H0 – „Zastupljenost pripadnika mlade, srednje i starije generacije je, redom, 20%, 40% i 40%.“ H1 – „Zastupljenost pripadnika mlade, srednje i starije generacije nije, redom, 20%, 40% i 40%.“ Kada se razmatra povezanost dve varijable, nulte hipoteze tvrde da povezanosti nema. Dakle, za pitanje „Da li su pol i
uspeh na ispitu povezani?“ hipoteze su: H0 – „Pol i uspeh na ispiti nisu povezani.“ H1 – „Pol i uspeh na ispiti su povezani.“
B. Testiranje H0 u cilju uopštavanja (generalizovanja) nalaza sa uzorka na populaciju zahteva: (1) izračunavanje vrednosti određene test-statistike; (2) poznavanje raspodele kojoj, prema teoriji, pripadaju moguće vrednosti te test-statistike, kao i (3) nalaženje verovatnoće dobijanja broja koji je veći ili jednak vrednosti pod (1) korišćenjem te raspodele pod (2).
Neka je vrednost dobijena pod (1), recimo, jednaka 4 (formulu test-statistike izostavljamo). Neka se pod (2) radi Hi-kvadrat raspodeli sa jednim stepenom slobode (df = 1). Tražena verovatnoća jednaka je vrednosti integrala
222
1
21 dxex
π
x
, koji predstavlja površinu naznačenu na donjoj slici.
Izvor: www.stat.tamu.edu/~west/applets/
Vrednost 0.0455 određuje se numeričkim postupkom (npr. Excel funkcijom CHIDIST ili kalkulatorom dostupnim na internetu). U novije vreme testiranje H0 se prepušta računarskim programima, pa njihov korisnik samo vodi računa o tome da odabere korektnu statističku analizu i da na bazi dobijenih rezultata te analize izvede adekvatan zaključak.
C. Da bismo, u skladu sa dobijenom verovatnoćom, znali kada treba prihvatiti H0, a kada je odbaciti i prihvatiti H1, koristimo pravilo zaključivanja koje se naziva statistički modus tollens. Njega primenjujemo na sledeći način: ako dobijenoj vrednosti test-statistike odgovara verovatnoća manja ili jednaka 0.05, odbacuje se H0 i prihvata H1. U suprot-
nom, ako je ta verovatnoća veća od 0.05, prihvata se H0. (Prag značajnosti može biti drugi, recimo 0.1 ili 0.01.) Pomenimo, na kraju, da su prilikom ovakvog zaključivanja, moguće su dve greške: odbacivanje H0 kada je ona tačna, ili prihvatanje H0 kada je ona pogrešna. To su, redom, tzv. greške zaključivanja prvog i drugog tipa (označavaju se sa i ).
Tekst preuzet iz knjige: Kadijević, Đ. M. (2013). Osnovi informatike, matematike i statistike. Beograd: Megatrend univerzitet.
Упоређивање апсолутних фреквенци
Хи-квадрат расподела
За тестирање нултих хипотеза о апсолутним фреквенцама користимо тзв. Хи-квадрат расподелу. Случајна величина (променљива) која има ту расподелу дефинисана је са 22
221 nX...XX , при чему су Xi независне
случајнe величине које имају стандардизовану нормалну расподелу N (0, 1). Притом, ова случајна променљива, у ознаци 2
n , има n степена слободе (то је број података који се могу слободно мењати када се
задају услови који важе за све податке; енгл. df од degree of freedom). Графици функције густине ове расподеле за три вредности df приказани су на следећој слици.
Извор: www.stat.tamu.edu/~west/applets/chisqdemo.html
Упоређивање нађених и очекиваних апсолутних фреквенци неке категоризације
Хипотезе су следеће: H0 ‒ „нађене апсолутне фреквенце по категоријама једнаке су очекиваним апсолутним фреквенцама по тим категоријама”, H1 ‒ „нађене апсолутне фреквенце по категоријама су различите од очекиваних апсолутних фреквенци по тим категоријама”.
За тестирање нулте хипотезе користи се следећа тест-статистика:
k
iki
ii
fff
1
22
1очекивана
очекивананађена )( , при
чему је k број категорија, док су ifнађена и i
fочекивана , редом, нађена апсолутна фреквенца и очекивана
апсолутна фреквенца за категорију i. Вредности ове тест-статистике имају Хи-квадрат расподелу са k – 1 степена слободе уколико је узорак
случајан и услов ifочекивана 5 испуњен за сваку категорију. (Тај услов се не односи на нађене фреквенце.)
Ако израчунатој вредности 21k одговара вероватноћа већа од 0.05, прихватамо H0. У противном,
одбацујемо H0 и прихватамо H1.
Анализа повезаности (зависности) две категоријске варијабле
Хипотезе: H0 ‒ „разматране категоријске варијабле нису повезанe (нису зависне)”, H1 ‒ „разматране категоријске варијабле су повезане (зависне)”.
За тестирање H0 користи се тест-статистика
k
i
m
jmkji
jiji
f
ff1 1
22
11очекивана
очекивананађена)()(
)( ,
при чему је k број врста у табели контингенције, m број колона у тој табели, док
суji
fнађена иji
f очекивана , редом, нађена фреквенца и очекивана фреквенца за ћелију која се налази у
врсти i и колони j. Вредности ове тест-статистике имају Хи-квадрат расподелу са ( k ‒ 1)(m ‒ 1) степена слободе уколико је
узорак случајан и услов ji
f очекивана 5 испуњен за сваку ћелију табеле контингенције.
Ако израчунатој вредности 211 )()( mk одговара вероватноћа већа од 0.05, прихватамо H0. У противном,
одбацујемо H0 и прихватамо H1. Задаци
1. Претпоставимо је боја очију браон код 85% популације, плава код 10%, а зелена код 5%. На случајно изабраном узорку од 100 испитаника регистроване су следеће фреквенце бојâ: 80 (браон), 13 (плава) и 7 (зелена). На које питање би ови подаци могли да пруже одговор? Од којих хипотеза би требало поћи? Шта би требало закључити на основу резултата тестирања постављене нулте хипотезе?
Помоћ: 99415
)57(10
)1013(85
)8580( 2222
2 .χ
; пошто је df =2 (број категорија – 1), за ниво значајности од 0.05,
потребна је вредност тест-статистике не мања од 5.9915. Нађене апсолутне фреквенце три боје очију једнаке су очекиваним (2 = 1.994, df =2, p > 0.05).
2. Истраживач жели да испита да ли је једна плућна болест повезана с полом. Како би његове хипотезе требало да гласе? Коришћењем случајног узорка прикупљени су следећи подаци:
Пол \ Плућна болест Регистрована Није регистрована Збир
Женски 50 250 300
Мушки 100 100 200
Збир 150 350 500
Шта би требало закључити на основу резултата тестирања постављене нулте хипотезе? Помоћ: Нађеним фреквенцама 50, 250, 100 и 100 одговарају редом следеће очекиване фреквенце: 90 (300·150/500), 210 (300·350/500), 60 (200·150/500) и 140 (200·350/500). Вредност тест-статистике је
49263140
)140100(60
)60100(210
)210250(90
)9050( 22222
2 .χ
; пошто је df =1 (број врста – 1 пута број колона – 1), за ниво
значајности од 0.05, потребна је вредност тест-статистике не мања од 3.8415. Пол и плућна болест су повезани (2 = 63.492, df =1 p < 0.05); болест је учесталија код мушкараца (100/200=50%) него код жена (50/300=1/6≈17%).
Корисна шема расуђивања:
Текст преузет из књиге: Кадијевић, Ђ. М. (2012). Емпиријска истраживања: методолошке и статистичке основе. Београд: Завод за уџбенике.
Задаци
1. За питање „Да ли болест напада 20% стабала у воћњаку?“ тестирање нулте хипотезе је довело до вероватноће 0.067.
Какав би налаз требало прихватити? Због чега? Одговор: „да болест напада 20% стабала у воћњаку“ јер би требало прихватити нулту
хипотезу („та фреквенца је једнака 20%“).
2. Израчуната вредност тест-статистике износила је 6.36. Ако је расподела вредности те тест-статистике била Хи-
квадрат расподела са два степена слободе, да ли би требало прихватити нулту хипотезу или њену алтернативу? Одговор: требало би прихватити алтернативу (нпр. варијабле су повезане) јер је 6.36 > 5.992 (граница за значајност на нивоу 0.05). Стога је
p < 0.05, а то иде у прилог одбацивању нулте хипотезе (у овом примеру да варијабле нису повезане).
3. На једном институту се тврди да је релативна фреквенца оболелих од грипа једнака 0.15, односно 15%. Истраживач
жели да провери ту фреквенцу. У случајном и репрезентативном узорку од 800 становника он налази да је 150 оболело
од грипа. Какав би налаз требало прихватити? Због чега? Одговор: питању „Да ли је обољевање на новоу од 15%?“ придружујемо
нулту хипотезу „једнако је 15%“ и алтернативу „различито је је од 15%“, а пошто је 8248680
)680650(120
)120150( 222
1 .χ
(p < 0.05), требало би
одбацити нулту хипотезу. То значи да је фреквенца обољевања од грипа различита од 15%; прецизније обољевање је веће од 15% (18.75% > 15%,
статистички).
4. Да ли је пушење повезано са инфарктом ако се имају у виду подаци из доње табеле који се односе на један случајан
и репрезентативан узорак? Због чега? Одговор: том питању придружујемо нулту хипотезу „повезано је“ и алтернативу „није повезано“, а
пошто је 22222225
)225250(75
)7550(225
)225200(75
)75100( 22222
1 .χ
(p < 0.05), требало би одбацити нулту хипотезу. То значи да су пушење и
инфаркт повезани; конкретније, код пушача је инфаркт чешћи (код сваког трећег), док је код непушача то тек код сваког шестог (1/3 > 1/6,
статистички).
Пушење \ Инфаркт Наступио Није наступио
Пушач 100 200
Непушач 50 250
5. Истраживач жели да испита да ли је коришћење савремених стратегија менаџмента подједнако заступљено у
фармацеутској и аутомобилској индустрији. У том циљу он узима случајан и репрезентативан узорак од 50 компанија
из сваке индустрије широм света и налази да је у фармацеутској индустрији број таквих компанија 29, док је у
аутомобилској индустрији тај број 25. Какав би налаз требало прихватити? Због чега? Одговор: ове стратегије се подједнако
често користе у разматраним индустријама јер је 644021 .χ , p > 0.05 (58% = 50%, статистички).
6.* Да ли је редовна штедња повезана са старосном категоријом испитаника ако се имају у виду подаци из доње
табеле? Због чега? Одговор: та штедња је повезана са старосном категоријом јер је 11122621 .χ , p < 0.05. Док већина припадника средње
генерације редовно штеди, мањи део млађе и старије популације то чини.
Редовна штедња
Старосна категорија Да Не
20–34 (година) 100 200
35–54 300 100
55–70 100 300
Корисна шема расуђивања:
Колоквијум I 1. Зарада од улагања у један бизнис у протекла четири месеца износила je 23%, 18%, 24%, 20%. А) Приказати ове податке прикладним графиконом. Б) Одредити просечну зарада и ризик при таквом улагању. Решење: А) Користити линијски графикон. Б) 21.25% уз ризик 2.38%. 2. Одредити следеће вероватноће: А) Да у пет бацања новчића писмо падне највише два пута. Б) Да се од 4 мушкарца и 3 жене изабере трочлана делегација у којој су тачно два мушкарца. Одговорe образложити. Решење: А) 1/2. Б) 18/35. 3. Хипотетички подаци. Од сваких 10 купљених телевизора, 4 је пореклом из Европе а 6 из Азије. Међу телевизорима из Европе 5% је дефектних, док је међу телевизорима из Азије тај број 10%? А) Одредити вероватноћу да је купљени телевизор дефектан. Б) Ако је купљени производ дефектан, колика је вероватноћа да је он пореклом из Европе? Одговорe образложити. Решење:А) 8%. Б) 25%. 4. Улагање 5 000 ЕУР у један бизнис доноси 20% зараде уз ризик од 10%. Уз претпоставку о нормалној расподели зараде, одредити следеће: А) Вероватноћу да се послује без зараде. Б) Зараду коју би требало очекивати са вероватноћом око 2/3 ако се поред улагања ових 5 000 ЕУР у тај ризичан бизнис улаже и 10 000 ЕУР у банку при каматној стопи од 5%. Одговорe образложити. Решење:А) 2.5%. Б) Од 1 000 до 2 000 ЕУР. 5. А) Тестирање нулте хипотезе које одговара питању „Да ли је број бирача који подржавају корените реформе на нивоу од 70%? довело је до вероватноће од 0.045. Какав закључак би из тога требало извести? Б) Да ли су варијабле пушач и рекреација повезани имајући у виду податке из доње табеле. Одговоре образложити имајући у виду кораке: питање-хипотезе-резултати-одговор.
Пушач \ Рекреација Упражњава Неупражњава Да 50 200 Не 100 150
Решење: А) „Број таквих бирача различит је од 70%.“ Б) Пушење је повезано са рекреацијом (12 = 23.8, p < 0.05); док код
пушача рекреацију упражњава сваки пети (20%), код непушача то чини 40%. Другим речима, 40% > 20% статистички.
Tekst preuzet iz knjige: Kadijević, Đ. M. (2013). Osnovi informatike, matematike i statistike. Beograd: Megatrend.
16. Upoređivanje prosečnih vrednosti
A. Kada je u pitanju upoređivanje prosečnih vrednosti, obično se upoređuju: (a) prosečna vrednost dobijena na jednom uzorku sa nekom pretpostavljenom vrednošću; (b) dve prosečne vrednosti dobijene na dva nezavisna uzorka, i (c) dve prosečne vrednosti dobijene na istom uzorku (pre i posle nekog događaja).
Naredni blok daje primere istraživačkih pitanja koja odgovaraju tim upoređivanjima, kao i hipoteze koje odgovaraju tim pitanjima. Upoređivanje pod (a). Pitanju: „Da li je prosečan prinos kukuruza veći od 8 t/ha?“ odgovaraju hipoteze:
H0 – „Prosečan prinos kukuruza jednak je 8 t/ha.“ H1 – „Taj prinos je različit od 8 t/ha.“
Upoređivanje pod (b). Pitanju: „Da li se, u proseku, razlikuju prinosi obične i genetski modifikovane soje?“, odgovaraju hipoteze:
H0 – „Prosečan prinos obične soje jednak je prosečnom prinosu genetski modifikovane soje.“ H1 – „Ovi prinosu su različiti.“
Upoređivanje pod (c). Pitanju: „Da li se, u proseku, razlikuju količine teškog metala u zemljištu pre setve suncokreta i posle njegove žetve?“, odgovaraju hipoteze:
H0 – „Prosečna količina teškog metala u zemljištu pre setve suncokreta jednaka je prosečnoj količini tog metala u zemljištu posle žetve suncokreta.“ H1 – „Ove prosečne količine teškog metala su različite.“
Za takva upoređivanja prosečnih vrednosti možemo koristiti dodatak programu Excel pod nazivom EZAnalyze. Aktiviranje tih upoređivanja (a)–(c) postižemo, redom, izborom opcije One Sample, Inde-pendent Samples, odnosno Paired Samples (videti donju sliku).
B. Koristeći pitanje: „Da li se, u proseku, razlikuju prinosi obične i genetski modifikovane soje?“ i hipoteze:
H0 – „Prosečan prinos obične soje jednak je prosečnom prinosu genetski modifikovane soje.“ H1 – „Ovi prinosu su različiti“,
uporedimo prinos obične i genetski modifikovane soje za podatke u donjoj tabeli. (Broj njiva ne mora uvek biti jednak, ali obimi poduzoraka ne bi trebalo da se bitno razlikuju kao u slučaju 10 vs. 25.)
Prinos genetski modifikovane soje(u t/ha) za 10 slučajno izabranih njiva 2.9, 3.1, 2.9, 2.7, 3.0, 2.5, 2.6, 2.0, 3.0 и 2.7
Prinos obične soje (u t/ha) za 10 slučajno izabranih njiva 2.5, 2.2, 2.8, 2.2, 2.0, 2.7, 2.9, 1.8, 2.5 и 2.4
Te podatke treba prvo uneti u Excel tabelu kao što pokazuje donja slika (levo) koristeći, recimo, varijable tip i prinos, a zatim, koristeći EZAnalyze opciju Advanced/T-Tests/Two Independent Samples, treba selektovati zavisnu i nezavisnu varijablu kao što prikazuje donja slika (u sredini). Dobijeni rezultati dati na donjoj slici desno i odgovor na polazno pitanje obično se sumiraju na sledeći način:
Rezultati: Mmodif = 2,74, Mobična = 2,40, t = 2,224, df = 18, p = 0,038.
Materijal za drugi kolokvijum uz korišćenje ličnog računara!
Odgovor na pitanje: Pošto je 0,038 < 0,05, odbacujemo H0 i prihvatamo H1, što znači da su upoređivani prinosi različiti, sa u proseku većim kod genetski modifikovane soje.
(Važan podatak za df, engl. degree of freedom, tj. broj stepena slobode podataka, koji je kod ove statističke analize uvek za dva manji od ukupnog broja podataka, EZAnalyze ne prikazuje!)
Korišćenje druge dve statističke analize za upoređivanje prosečnih vrednosti prepuštamo čitaocu, uz napomenu da su,
za sve tri statističke analize, analizirani podaci i dobijeni rezultati dati u Excel fajlu Statistika.xls (listovi Primer1, Primer2 i Primer3; www.mi.sanu.ac.rs/~djkadij/Statistika.xls). Test-statistike koje odgovaraju ovim upoređivanjima (tj. njihove formule), raspodela koja se koristi za izračunavanje verovatnoće (to je uvek Studentova t raspodela), kao i uslovi koje analizirani podaci treba da ispunjavaju, mogu se, recimo, naći u: Kadijević, 2012, Empirijska istraživanja: metodološke i statističke osnove, Zavod za udžbenike, Beograd.
17. Linearna povezanost – korelacija
Koristeći pitanje: „Da li su vlažnost zemljišta i prinos kukuruza linerano povezani?“ i hipoteze: H0 – „Vlažnost zemljišta i prinos kukuruza nisu linearno povezani, tj. korelacija je jednaka nuli.“ H1 – „Ova obeležja (varijable) su linearno povezane, tj. korelacija je različita od nule“,
odredimo vrednost linearne korelacije za podatke navedene u Excel fajlu Statistika.xls (list Primer4) i testirajmo njenu značajnost (da li je ona različita od nule statistički). U tom cilju koristimo EZAnalyze opciju Advanced/ Correlation. Po izboru varijable (donja slika levo), biće generisan jednostavan izveštaj (donja slika desno).
Dobijeni rezultati i odgovor na polazno pitanje obično se sumiraju na sledeći način: Rezultati: r = 0,712, t = 3,039, df = 9, p = 0,014. Odgovor na pitanje: Pošto je 0,014 < 0,05, odbacujemo H0 i prihvatamo H1, što znači da su vlažnost zemljišta i prinos kukuruza linearno povezani, pri čemu jedna varijabla može da objasni 51% (= 0,7122 · 100%, tzv. koeficijent determinacije R2) variranja druge varijable.
(Važan podatak za df, koji je kod ove statističke analize uvek za dva manji od veličine uzorka, EZAnalyze ne prikazuje! Takođe, ne prikazuje ni vrednost test-statistike koja se računa po veoma jednostavnoj formuli:
dfr
rt21
.)
Raspodela koja se koristi za izračunavanje verovatnoće je Studentova t raspodela, a uslovi koji analizirani podaci treba da ispunjavaju, kao i detalji o Pirsonovoj i Spirmanovoj korelaciji mogu se, recimo, naći u: Kadijević, 2012. Istaknimo da
Pirsonova korelacija (r –1, 1) može biti statistički različita od nule i kada varijable nisu linearno povezane. U razmatranom primeru povezanost je zaista linearna, na šta ukazuje dati dijagram raspršenja koji izdaje alat EZAnalyze.
Zadaci
1. Za podatke iz sledeće tabele (korišćen je slučajan i reprezentativan uzorak):
Genetski modifikovan usev (n1 = 10) Nemodifikovan usev (n2 = 10) Vlaga (u %) .22 .21 .20 .24 .21 .20 .24 .23 .22 .20 .24 .23 .22 .20 .22 .23 .20 .24 .21 .23
Prinos (u t/ha) 5.0 4.7 4.5 5.0 4.5 4.7 4.9 4.5 4.9 4.2 4.7 4.5 4.1 4.0 4.2 4.5 4.2 4.3 4.0 4.6
dati obrazložene odgovore na sledeća pitanja: - Da li je, u proseku, prinos genetski modifikovanog useva veći od prinosa nemodifikovanog useva? - Da li je prinos linearno povezan sa količinom vlage u zemljištu? U obrazloženju odgovora navesti hipoteze H0 i H1 koje odgovaraju razmatranom pitanju, rezultate statističke analize kojom je testirana nulta hipoteza, kao i odluku koju bi hipotezu (H0 ili H1) trebalo prihvatiti na osnovu tih rezultata.
2. Koristeći Excel fajl Statistika.xls (list Zadatak), koji sadrži podatke o prinosu dve sorte suncokreta, kao i podatke o količini teškog metala u zemljištu pre setve suncokreta i posle njegove žetve, uvežbati četiri razmatrane statističke analize. Za svaku od njih, formulišite prikladno istraživačko pitanje, navedite hipoteze H0 i H1 koje odgovaraju tom pitanju, prikažite rezultate statističke analize kojom je testirana nulta hipoteza, objasnite koju bi hipotezu (H0 ili H1) trebalo prihvatiti na osnovu tih rezultata i na kraju navedite odgovor na postavljeno pitanje. Prilog 1 – Računarski alati za statističko modeliranje
Za to modeliranje koristimo program Microsoft Excel. Od mogućnosti tog programa koristimo neke statističke funkcije poput RND za simulacije, kao i opciju Add Trendline
za regresionu analizu. Od dodataka (engl. add-ins) za taj program, koristimo dva:
- SimTools (za sumulacije i iterativna izračunavanja), kao i - EZAnalyze (za osnovne statističke analize).
Ta dva dodatka, koja su besplatno dostupna in internetu, potrebno je posebno instalirati. To se realizuje kada se xla fajlovi tih dodataka obično dodaju u postojeći folder Library, koji se nalazi, recimo, na adresi
C:\Program Files\Microsoft Office\Office 12\Library
(njegov mogući sadržaj prikazuje donja slika levo). Da bismo dodatke SimTools i EZAnalyze aktivirali, potrebno je da koristimo Excel opciju Add-Ins (dostupnu preko
podmenija Tools ili preko opcije Office Button/Excel Options), pri čemu je dodavanje uspešno izvršeno tek kada su čekirani željeni dodaci i to potvrđeno pritiskom na dugme OK (videti donju sliku desno).
Prilog 5 – Simulacija na računaru Pretpostavka da će otkupna (prodajna) cena kukuruza biti, recimo, 0,23 €/kg može biti realna, ali je prihvatljivije ovu
cenu izraziti na sledeći način: između 0,20 i 0,26 €/kg. Precizirajmo sada značenje reči između. Imajući u vidu da su osnovne raspodele neprekidnih slučajnih promenljivih ravnomerna, trougaona i normalna, značenje reči između može biti sledeće: Bilo koja cena između 0,20 i 0,26 (sa korakom 0,01) i to tako da je verovatnoća pojavljivanja svake od tih cena
jednaka. U cilju generisanja takve cene, koristimo statističku Excel funkciju RANDBETWEEN(20, 26)/100, koja se odnosi na jednu ravnomernu (ali diskretnu) raspodelu.
Bilo koja cena između 0,20 i 0,26 i to tako da se cene oko 0,23 najčešće javljaju, dok se cene nešto veće od 0,20 i nešto manje od 0,26 najređe javljaju. U cilju generisanja ovakve cene, koristimo formulu =TRIANINV(RAND(), 0.20, 0.23,
0.26) koja koristi Excel funkciju RAND i SimTools funkciju TRIANINV. Te se funkcije, redom, odnose na ravnomernu raspodelu (između 0 i 1) i trougaonu raspodelu.
Bilo koja cena između 0,20 i 0,26 i to tako da je M = 0,23, a SD = 0,01 (što znači da će u 99,7% slučajeva cena biti između 0,20 i 0,26 – M ± 3SD). U cilju generisanja ovakve cene, koristimo formulu =NORMINV(RAND(), 0.23, 0.01) koja, pored Excel funkcije RAND, koristi i njegovu funkciju NORMINV koja se odnosu na normalnu raspodelu.
Razmotrimo sadržaj Excel fajla Profitabilnost1.xls (www.mi.sanu.ac.rs/~djkadij/Profitabilnost1.xls). U ćeliji B16 je umesto konkretne cene, navedeno sledeće
=NORMINV(RAND(),0.23,0.01). Zbog funkcije RAND, svako pozivanje te NORMINV funkcije (svaki pritisak na tastera ENTER ili F9) generisaće jedan broj iz normalne raspodele M = 0,23, SD = 0,01, što će dovesti do drugog prihoda, pa samim tim i do druge zarade.
Koristeći Excel dodatak SimTools možemo jednostavno odgovoriti na pitanja poput: „Kolika je šansa (verovatnoća) da zarada bude bar 750 €/ha?“
U tom cilju u ćeliji, recimo, E1 navodimo
=B18, a zatim biramo matricu ćelija od D1 do E20 (ili do E100 ako želimo 100 simulacija). Postupak zahteva da se u prvom redu izabere jedna ili više ćelija sa željenim rezultatima, ali se uvek pomeramo za jednu ćeliju ulevo i formiramo i jednu inicijalno praznu kolonu. Zatim aktiviramo opciju SimTools/ Simulation Table. Na kraju za odgovor na postavljeno pitanje koristimo dobijene rezultate simulacije i Excel funkciju COUNTIF, kao što je prikazano na donjoj slici desno. Verovatnoća da zarada bude bar 750 €/ha iznosi svega 0,25 tj. 25%.