บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf ·...

Post on 30-Jan-2020

2 views 0 download

Transcript of บทที่ 2 สถิติเชิงพรรณนาjanya/88520159/note/chapter02.pdf ·...

บทท 2 สถตเชงพรรณนา

2.1 การวดแนวโนมเขาสสวนกลาง

การวดแนวโนมเขาสสวนกลางเปนวธการทางสถตเชงพรรณนาทใชในการหาคากลางหรอคาเฉลยเพอใชเปนตวแทนแสดงขนาดและลกษณะของขอมลชดนน ประโยชนของการวดแนวโนมเขาสสวนกลางคอทำใหไดตวแทนของขอมลทเปนตวเลขจำนวนเดยวทแทนคาทงหมดของขอมลชดนนมาเสนอรายงาน โดยไมจำเปนตองนำขอมลทงชดมาพจารณา คาวดแนวโนมเขาสสวนกลางมอยหลายคาดวยกน เชน คาเฉลย คามธยฐาน และคาฐานนยม เปนตน

2.1.1 คาเฉลย (Mean)

เปนคากลางแบบหนงทนยมใชเปนตวแทนของขอมล เนองจากใชขอมลทกตวในการคำนวณ ซงคำนวณไดจากนำขอมลทกตวมารวมกนแลวหารดวยจำนวนขอมลทงหมด ดงสตรตอไปน

คาเฉลยของตวอยาง (𝑥)

𝑥 = 𝑥$%

$&'𝑛

คาเฉลยของประชากร (𝜇)

𝜇 = 𝑥$*

$&'𝑁

เมอ 𝑛 คอ จำนวนขอมลทงหมดในตวอยาง 𝑁 คอ จำนวนขอมลทงหมดในประชากร

ตวอยางท 2.1 จงหาคาเฉลยของขอมลตวอยางตอไปน 16, 8, 15, 12, 14, 7

𝑥 =16 + 8 + 15 + 12 + 14 + 7

6= 12

ตวอยางท 2.2 ขอมลเวลาในการออกกำลงกาย/วน (นาท) ของนาย A ในสปดาหท 1 ทถกสมมาเปนตวอยาง ดงน

30, 36, 25, 18, 45, 55, 22

จงหาเวลาเฉลยทนาย A ใชออกกำลงกายใน 1 สปดาห

2.1.2 คาเฉลยแบบถวงนำหนก (weighted mean)

ถาขอมลแตละคามความสำคญไมเทากนหรอมคาถวงนำหนกไมเทากน จะตองนำนำหนกมาคดในการหาคาเฉลยดวยเสมอ โดยการนำนำหนกของขอมลแตละคามาคณกบขอมลตวนน จากนนนำมารวมกนทกตวแลวหารดวยผลรวมของนำหนกทงหมด สามารถคำนวณไดจากสตรตอไปน

คาเฉลยแบบถวงนำหนก

𝑥 = 𝑥$𝑤$%

$&'𝑤$%

$&'

เมอ 𝑤$ คอ นำหนกของ 𝑥$

คำสง R

> age=c(14,16,14,17,16,14,18,17)

> mean(age)

[1] 15.75

หมายเหต ฟงกชน mean() ใชหาคาเฉลยเลขคณตสำหรบขอมลเชงปรมาณ

ตวอยางท 2.3 ใหหาเกรดเฉลยของนสตคนหนง ซงมผลการเรยนดงน

วชา หนวยกต เกรด

ภาษาไทย 2 3 คณตศาสตร 3 4 ภาษาองกฤษ 4 2 วทยาศาสตร 1 4

2.1.3 คาเฉลยเลขคณตรวม

ในกรณทมขอมลอยหลาย ๆ กลมและเราทราบคาเฉลยของขอมลแตละกลมจะสามารถหาคาเฉลยเลขคณตรวมทกกลมไดดงน

คาเฉลยเลขคณตรวม

𝑥 =𝑛$𝑥$5

$&'𝑛$5

$&'

เมอ 𝑥$ คอ คาเฉลยของกลมท 𝑖 𝑛$ คอ จำนวนขอมลของกลมท 𝑖 𝑎 คอ จำนวนกลมทงหมด

ตวอยางท 2.4 นสตสาขาวชาสถตของมหาวทยาลยแหงหนงมจำนวน 90 คน โดยมนสตชายทงหมด 40 คน ซงนสตชายสอบไดคะแนนเฉลย 65 คะแนน สวนนสตหญงสอบไดคะแนนเฉลย 72 คะแนน จงหาคะแนนเฉลยของนสตทงสาขา

2.1.4 คามธยฐาน (Median)

มธยฐานเปนคาทอยกงกลางของขอมล เมอเรยงลำดบขอมลจากนอยไปหามาก และแบงครงขอมลออก เปนสองสวนเทากน คามธยฐานอาจจะเปนคาใดคาหนงของชดขอมล หรอมคาอยระหวางสองคาใด ๆ กได สญลกษณทใชแทนคามธยฐานคอ 𝑀𝐷 สามารถคำนวณหาตำแหนงของมธยฐานไดดงน

ขนท 1 เรยงลำดบขอมล

ขนท 2 หาคามธยฐาน

• เมอจำนวนขอมลเปนเลขค

𝑀𝐷 =คาของขอมลลำดบท %:';

• เมอจำนวนขอมลเปนเลขค

𝑀𝐷 =คาของขอมลลำดบท𝑛2 + คาของขอมลลำดบท

𝑛 + 12

2

ตวอยางท 2.5 จำนวนนสตทลงทะเบยนเรยนวชาสถตสำหรบวทยาศาสตรในเทอมนม 7 กลม คอ 25, 35, 55, 74, 28, 54 และ 50 จงหาคามธยฐานของขอมลชดน

ขนท 1 เรยงลำดบขอมลจากนอยไปหามาก 25 28 35 50 54 55 74

ขนท 2 หาคามธยฐาน

มธยฐาน = คาของขอมลลำดบท <:';

= 4 = 50

คำสง R > num=c(25,28,35,50,54,55,74) > median(num) [1] 50 หมายเหต ฟงกชน median() ใชหาคามธยฐานสำหรบขอมลเชงปรมาณ

2.1.5 ฐานนยม (Mode)

ฐานนยม คอ คาของขอมลทเกดขนบอยครงทสดหรอมความถมากทสด ชดขอมลทมคาของขอมลทเกดขนบอยทสดเพยงคาเดยว จะเรยกวา unimodal สวนชดขอมลทมคาทเกดขนบอยทสดสองคา จะเรยกวา bimodal และเมอชดขอมลใดทไมมคาสงเกตใดเกดขนมากกวาหนงครงเราจะเรยกวาไมมฐานนยม

ตวอยางท 2.6 จงหาฐานนยมของขอมลตอไปน

A: 5, 8, 6, 5, 9, 5

B: 10, 15, 2, 10, 9, 2, 8

C: 6, 9, 7, 2, 3, 11

2.1.6 คณสมบตและการใชคาวดแนวโนมเขาสสวนกลาง

คาเฉลย (Mean)

1. คาเฉลยนนคำนวณมาจากคาสงเกตทกคาในชดขอมล 2. คาเฉลยจะมคาเปลยนแปลงนอยมากเมอเทยบกบคามธยฐานหรอฐานนยม เมอชดขอมลตวอยางถกสมมาจากประชากรเดยวกน

3. คาเฉลยจะถกนำไปใชในการคำนวณคาสถตอน ๆ เชน ความแปรปรวน เปนตน 4. สำหรบชดขอมลชดหนงจะมคาเฉลยเพยงคาเดยวเทานน และไมจำเปนตองเปนคาสงเกตคาใดคาหนงในชดขอมล

5. คาเฉลยจะถกกระทบดวยคาสงเกตทมคาสงหรอตำผดปกต ซงเราเรยกคาเหลานวา outliers ซงใน กรณนคาเฉลยอาจจะไมใชคาวดแนวโนมเขาสสวนกลางทเหมาะสม

คำสง R > a=c(11, 11, 12, 12, 12, 13, 13, 13, 13, 13, 14, 14, 14, 15, 15, 16, 16, 17, 17, 18) > which.max(table(a)) 13 3 หมายเหต ฟงกชน table() ใชนบจำนวนความถของขอมล

ฟงกชน which.max() เปนการหาคาทมจำนวนสงทสด โดยทเราตองใสตวแปรทหาความถเรยบรอยแลวใหกบฟงกชนนฟงกชน which.max() จงตองทำงานคกบ table()

มธยฐาน (Median)

1. การหาคามธยฐานนนเราตองหาคากงกลางของขอมล 2. คามธยฐานจะถกนำมาใชเมอเราตองการทราบวาคาสงเกตนนตกอยในครงลางหรอครงบนของการแจกแจง

3. คามธยฐานจะถกกระทบดวยคาสงเกตทสงหรอตำผดปกตนอยกวาคาเฉลย

ฐานนยม (Mode)

1. การหาคาฐานนยมจะใชเพยงคาสงเกตทเกดขนบอยครงมากทสดเทานน 2. ฐานนยมเปนคาวดแนวโนมเขาสสวนกลางทคำนวณไดงายทสด 3. ฐานนยมนนสามารถใชไดกบขอมลทอยในระดบนามบญญต เชน เพศ หรอ ศาสนา เปนตน 4. ขอมลชดหนงอาจมฐานนยมไดมากกวาหนงคา หรออาจจะไมมฐานนยมเลยกได

2.2 ลกษณะการกระจายของขอมล

สงทสำคญทจะชวยใหทราบลกษณะของการแจกแจงมอย 4 ประการคอ ตำแหนงกงกลาง, ความแปรปรวน, ความเบและความโดง เมอเราทราบคาทง 4 แลว เราจะสามารถทราบลกษณะของการแจกแจงของขอมลได

• ตำแหนงกงกลาง เปนการวดคาทอยตรงกลางของการแจกแจง ในทนคอคาเฉลย • ความแปรปรวน บอกขนาดของกลม ถาขอมลทงหมดมคาเขาใกลคาเฉลย ความแปรปรวนจะมคานอยทสด

• ความเบบอกความสมมาตรหรอไมสมมาตรของการแจกแจงความถ ถาการแจกแจงไมสมมาตรแลวความถสวนใหญมคาตำและความถสวนนอยมคาสง การแจกแจงจะเปนเบทางบวก (positively skewed) หรอเบขวา (right skewed) ในทางตรงกนขาม ถาความถสวนใหญมคาสงและความถสวนนอยมคาตำ การแจกแจงความถจะเปนเบทางลบ (negatively skewed) หรอเบซาย (left skewed)

• ความโดง บอกลกษณะของการแจกแจงวาโดงมากหรอโดงนอย ซงอธบายการกระจายของขอมล หากขอมลมความโดงมาก นนคอขอมลมการกระจายนอย แตหากขอมลมความโดงนอย นนคอขอมลมการกระจายมาก

รปรางการการจายของขอมลมไดหลายลกษณะขนอยกบขอมล เมอขอมลมการแจกแจงแบบสมมาตร (symmetry) คาเฉลย มธยฐาน และฐานนยม จะอยทตำแหนงเดยวกน หรอมคาเทากนทงหมด ถาขอมลมการแจกแจงแบบเบซาย คาเฉลยจะมคานอยกวามธยฐาน และโดยปกตคามธยฐานมกจะมคานอยกวาฐานนยม ถาขอมลมการแจกแจงเบขวา คาเฉลยจะมคามากกวามธยฐาน และ มธยฐานจะมคามากกวาฐานนยม ดงรปท 2.1

รปท 2.1 การกระจายของขอมลในแบบตาง ๆ

ตวอยางท 2.7 ขอมลตอไปนเปนจำนวนครงทนสตคนหนงเขาเวบไซต Facebook ใน 1 วน จำนวน 12 วน

40 35 24 28 26 29 36 31 42 20 23 32

จงนำเสนอคากลางของขอมลทเหมาะสม

รปท 2.2 กราฟหนาแนนของขอมลจำนวนครงในการเขาเวบไซต Facebook

คำสง R > fb=c(40,35,24,28,26,29,36,31,42,20,23,32) > plot(density(fb)) > mean(fb) [1] 30.5 > median(fb) [1] 30

จากการวเคราะหจะไดวา จำนวนครงทนสตเขาเวบไซต Facebook ใน 1 วน มคาเฉลยเปน 30.5 ครง และมคามธยฐานเปน 30 ครง คาทงสองมคาใกลเคยงกน ซงสอดคลองกบการกระจายของขอมลซงมลกษณะสมมาตรดงรปท 2.2 ดงนนเราจะเลอกใชคาเฉลยในการนำเสนอขอมล นนคอ โดยเฉลยแลวนสตเขาเวบไซต Facebook 30.5 ครงตอวน

ตวอยางท 2.8 จากขอมล exec.pay (UsingR) แสดงคาตอบแทนของผบรหาร ในประเทศสหรฐอเมรกา จำนวน 199 คน ในป 2000 (มหนวยเปน 10000 ดอลลาร)

รปท 2.3 กราฟความหนาแนนของขอมลคาตอบแทน

คำสง R > install.packages("UsingR") > library(UsingR) > exec.pay > plot(density(exec.pay)) > mean(exec.pay) [1] 59.88945 > median(exec.pay) [1] 27

จากรปท 2.3 จะเหนไดวาขอมลมการกระจายแบบเบขวา และเมอคำนวณหาคาเฉลยไดคาเปน 59.88945 และคามธยฐานมคาเปน 27 ซงมคาแตกตางกนอยางมาก ดงนนหากพจารณาเลอกใชสถตในการอธบายคากลางของขอมลชดนจะเลอกใชคามธยฐานเปนคากลาง ดงนนคาตอบแทนของผบรหารในประเทศสหรฐอเมรกามคากลางเปน 27,000 ดอลลาร

2.3 การวดตำแหนงของขอมล (Measure of position)

การจำแนกขอมลหมายถง การแบงขอมลออกเปนสวน สวนละเทา ๆ กน โดยการจำแนกขอมลน ตองนำคาของขอมลมาเรยงลำดบจากคานอยไปหาคามาก หรออาจะเรยงจากคามากไปหาคานอย การจำแนกขอมลแบงเปน 3 ประเภท คอ

1. ควอไทล (Quartile) เปนการแบงขอมลออกเปน 4 สวน เทา ๆ กน โดยแตละสวนจะมจำนวนขอมล 25% ของจำนวนขอมลทงหมด ซงควอไทลในขอมลชดหนงๆ จะม 3 คา คอ ควอไทลท 1 (Q1) ควอไทลท 2 (Q2) และ ควอไทลท 3 (Q3) การหาคาควอไทล 1.1 เรยงลำดบขอมลทงหมดจากนอยไปหามาก 1.2 คำนวณควอไทลท r (Qr) ซงกคอขอมลทอยในตำแหนง

>(%:')A

2. เดไซล (Decile) เปนการแบงขอมลออกเปน 10 สวน เทา ๆ กน โดยแตละสวนจะมจำนวนขอมล สวนละ 10% ของจำนวนขอมลทงหมด และจะม 9 คา คอ เดไซลท 1 (D1) เดไซลท 2 (D2) .…เดไซลท 9 (D9) การหาคาเดไซล 2.1 เรยงลำดบขอมลทงหมดจากนอยไปหามาก 2.2 คำนวณเดไซลท r (Dr) ซงกคอขอมลทอยในตำแหนง

>(%:')'B

3. เปอรเซนไทล (Percentile) เปนการแบงขอมลออกเปน 100 สวน เทา ๆ กน โดยแตละสวนจะมจำนวนขอมล สวนละ 1% ของจำนวนขอมลทงหมด และจะม 99 คา คอ เปอรเซนไทลท 1 (P1) เปอรเซนไทลท 2 (P2) . . . และ ปอรเซนไทลท 99 (P99) ซง P25 จะเทยบไดกบ Q1, P50 จะเทยบไดกบ Q2 และ P75 เทยบไดกบ Q3 การหาคาเปอรเซนไทล 3.1 เรยงลำดบขอมลทงหมดจากนอยไปหามาก 3.2 คำนวณเปอรเซนไทลท r (Pr) ซงกคอขอมลทอยในตำแหนง

>(%:')'BB

ตวอยางท 2.9 ผลการสอบวชาสถตเบองตนของนสตคณะวทยาการสารสนเทศ 20 คน (คะแนนเตม 100 คะแนน) ดงน

40 78 80 50 60 45 70 63 55 66 71 45 74 72 75 61 65 53 42 52

จงหาคะแนนทอยในตำแหนงเปอรเซนไทลท 40, เปอรเซนไทลท 75, เดไซลท 6 และ ควอไทลท 3

วธทำ

1. เรยงลำดบจากนอยไปมาก 40 42 45 45 50 52 53 55 60 61 63 65 66 70 71 72 74 75 78 80

2. หาคะแนนในตำแหนงเปอรเซนไทลท 40 𝑟(𝑛 + 1)100 =

40(20 + 1)100 = 8.4

𝑥E.A = 𝑥E + 0.4(𝑥F − 𝑥E)

ดงนน คะแนน 𝑃AB = 55 + 2 = 57

3. ตำแหนงเปอรเซนไทลท 75

4. เดไซลท 6

5. ควอไทลท 3

2.4 การวดการกระจายของขอมล (Measures of Variation)

การพจารณาหรอสรปลกษณะของขอมลโดยใชคากลางหรอคาเฉลยเพยงอยางเดยวอาจทำใหไมทราบถงลกษณะของขอมลไดอยางชดเจน เนองจากอาจมขอมลทมคากลางเทากน แตลกษณะของขอมลแตกตางกน เชน การตดสนใจเลอกซอหนจากบรษท A และ B โดยพจารณาจากเปอรเซนตของ ผลกำไรตอป ในชวง 5 ปทผานมา ไดขอมลดงน

บรษท A 10 12 15 18 20 บรษท B 2 8 15 22 28

รปท 2.4 กราฟการกระจายของขอมล 2 ชด

คำสง R > set=c(rep("group A",5),rep("group B",5)) > dat=c(10,12,15,18,20,2,8,15,22,28) > info=data.frame(set,dat) > tapply(info$dat,set,mean) #คำนวณคาเฉลยของขอมล dat ในแตละกลมของตวแปร set group A group B 15 15 > stripchart(dat~set,data=info) หมายเหต

ฟงกชน tapply() เปนฟงกชนทใชในการคำนวณคาสถตของขอมลในแตละกลม ฟงกชน stripchart ()เปนฟงกชนพลอตคาของขอมลแตละคาเพอใหเหนการกระจายของขอมล

จากขอมลจะพบวากำไรของทง 2 บรษทมคาเทากนคอ 15% ถาพจารณาเพยงแคนกอาจจะตดสนใจซอหนของบรษทใดกได แตถาวเคราะหใหละเอยดมากขนจะพบวากาไรของบรษท A แตละปจะแตกตางกนนอยมาก เมอพจารณาทงกาไรเฉลยและการกระจายของกาไรจะทาใหตดสนใจไดวาควรซอหนจากบรษท A ดงนนถาขอมลมคาเฉลยเทากนแลวใหพจารณาการกระจายควบคกนไปดวย

ในการจะทราบความแตกตางของขอมลในแตละกลมเราเรยกวา การวดการกระจาย โดยขอมลทดจะตองมการกระจายตำสด การวดการกระจายของขอมลสามารถทำไดหลายวธดงน

การวดการกระจายสมบรณ (Absolute Variation) คอการวดการกระจายของขอมลเพยงชดเดยวเพอดวาขอมลชดน แตละคามความแตกตางกนมากหรอนอยเพยงไร นยมใชกนอยางนอย 4 ชนด ไดแก คาพสย คาความแปรปรวน สวนเบยงเบนมารตฐาน และพสยควอไทล

การวดการกระจายสมพทธ (Relative Variation) การหาคาเพอเปรยบเทยบการกระจายระหวางขอมลมากกวาหนงชด โดยใชอตราสวนการเปรยบเทยบการกระจายของขอมลระหวางชด ทนยมใชม 2 ชนด ไดแก คาสมประสทธการแปรผน และสมประสทธสวนเบยงเบนควอไทล

2.4.1 พสย (Range)

พสยเปนการวดการกระจายทงายทสด เปนการหาความแตกตางของขอมลสงสดและตำสดของกลม

พสย = คาสงสดของขอมล – คาตำสดของขอมล

ตวอยางท 2.10

พสยของขอมลบรษท A ซงมขอมลคอ 10, 12, 15, 18 และ 20 คานวณหาพสยคอ 20-10=10

พสยของขอมลบรษท B ซงมขอมลคอ 2, 8, 15, 22 และ 28 คานวณหาพสยคอ 28-2=26

จะเหนวาขอมลบรษท B จะมคาการกระจายมากกวาขอมลบรษท A

จากขอมล info สามารถคำนวณคาพสย ไดดงน

คำสง R > tapply(info$dat,set,range) $`group A` [1] 10 20 $`group B` [1] 2 28

หากสรางตวแปร 2 ตวเพอเกบคาขอมล ดงน

ในกรณใชพสยกบขอมลทมจำนวนมาก การวดจะไมแนนอน และคาของพสยจะขนอยกบขนาดของขอมล ถาขอมลมจำนวนมากพสยจะมาก ถาขอมลมจำนวนนอยพสยจะนอย

จากขอมล exec.pay(UsingR) คานวณหาคาพสย

2.4.2 คาความแปรปรวน และสวนเบยงเบนมาตรฐาน (Variance and Standard deviation)

เนองจากการใชพสยเปนการวดการกระจายอยางหยาบเทานนเพราะใชขอมลเพยง 2 ตว คอคาขอมลทมคาสงสดและตำสด แตการวดความแปรปรวนจะใชขอมลทกตวจงเปนคาทนยมใชวดการกระจายมากทสด โดยจะพจารณาจากผลรวมของคาแตกตางระหวางคาของขอมลกบคาเฉลย ถาคาแตกตางนนมากแสดงวาขอมลกระจายมาก คาแตกตางระหวางขอมลกบคาเฉลยอาจมคาเปนบวกหรอลบกได ซงอาจทำใหผลรวมเปนศนย จงตองกำหนดใหนำคาแตกตางระหวางขอมลกบคาเฉลยมายกกำลงสองดวย

คำสง R > groupA=c(10,12,15,18,20) > groupB=c(2,8,15,22,28) > range(groupA) [1] 10 20 > range(groupB) [1] 2 28

หมายเหต ฟงกชน range() ใหผลลพธเปนคาตำสดและคาสงสด ดงนนจะหาคาพสยตองนาคาทงสองมาลบกน

> install.packages(“UsingR”) > library(UsingR) > exec.pay > diff(range(exec.pay)) [1] 2510

ความแปรปรวนของตวอยาง (Sample Variance)

𝑠;=

(𝑥 − 𝑥);%$&'

𝑛 − 1

ความแปรปรวนของประชากร (population variance)

𝜎;=

(𝑥 − 𝜇);%$&'

𝑁

โดยปกตเรามกนยมใชสวนเบยงเบนมาตรฐานเปนคาวดความผนแปรของขอมลมากกวาความแปรปรวน

สาเหตนนเกยวของกบหนวยของคาสถตทงสองน จะเหนไดวาหนวยของความแปรปรวนนนจะเปนหนวยของ 𝑥

ยกกำลงสอง เชน ถา 𝑥 มหนวยเปนคะแนน ความแปรปรวนจะมหนวยเปนคะแนนกำลงสอง ในขณะทสวน

เบยงเบนมาตรฐานนนเปนรากทสองของความแปรปรวน จะมหนวยเดยวกบ 𝑥 นนคอมหนวยเปนคะแนน ดงนนการอธบายถงการกระจายของขอมลดวยสวนเบยงเบนมาตรฐานจงเขาใจไดงายกวาการใชความแปรปรวน

สวนเบยงเบนมาตรฐานของตวอยาง (Sample Standard Deviation)

𝑠 = 𝑠;=

(𝑥 − 𝑥);%$&'

𝑛 − 1

สวนเบยงเบนมาตรฐานของประชากร (population standard deviation)

𝜎 = 𝜎;=

(𝑥 − 𝜇);%$&'

𝑁

จากสตรขางตนเหนไดวาตองใชเวลาในการคำนวณมากเพราะตองใชคาเฉลยเลขคณตดงนนจงมการ ปรบปรงสตรนเพอใหใชคำนวณไดรวดเรวขนดงน

ความแปรปรวนของตวอยาง

𝒔𝟐=

𝒙𝟐−( 𝒙𝒏

𝒊&𝟏 )𝟐

𝒏𝒏𝒊&𝟏

𝒏 − 𝟏

สวนเบยงเบนมาตรฐานของตวอยาง

𝒔 = 𝒙𝟐−( 𝒙𝒏

𝒊&𝟏)𝟐

𝒏𝒏𝒊&𝟏

𝒏 − 𝟏

𝑥 คอคาของขอมล

𝑥คอคาเฉลยของตวอยาง 𝜇 คอคาเฉลยของประชากร

𝑛 คอขนาดของขอมลตวอยาง

𝑁 คอขนาดของขอมลประชากร

ตวอยางท 2.11 ขอมลตอไปนเปนนำหนกของนกกฬายกนำหนก 10 คนทถกสมมาเปนตวอยาง

58 62 50 65 68 48 52 60 49 75

จงหาความแปรปรวนและสวนเบยงเบนมาตรฐานของขอมลชดน

ตวอยางท 2.12 จงหาคาความแปรปรวนและสวนเบยงเบนมาตรฐานของขอมลจานวนนสต (คน) ทลงทะเบยนเรยนวชาสถต 7 กลม

25 35 55 74 28 54 50

จากการคานวณไดคาความแปรปรวนของขอมลจานวนนสตทเรยนวชาสถตเปน 305.14 คน2 และม คาเบยงเบนมาตรฐานเปน 17.47 คน

2.4.3 พสยควอไทล (Inter quartile range :IQR)

คาพสยควอไทลเปนคาทบอกความผนแปรของขอมลไดอยางหยาบๆ โดยคาพสยควอไทลหาไดจากผลตาง ระหวาง Q1 และ Q3 ซงกคอพสยของขอมลจานวน 50 เปอรเซนตทอยกงกลางของชดขอมลนนเอง พสยควอไทลนเปนการวดการกระจายทเหมาะกบขอมลทการแจกแจงแบบเบ ซงสงเกตไดจากการคานวณจากคา Q1 และ Q3 ซงไมไดนาขอมลทมคาสงมาก ๆ หรอตำมาก ๆ มาคานวณ

IQR = Q3 - Q1

ตวอยางท 2.13 จงหาคาพสยควอไทลของขอมลจานวนนสต (คน) ทลงทะเบยนเรยนวชาสถต 7 กลม

25 35 55 74 28 54 50

คำสง R > num=c(25,28,35,50,54,55,74) > var(num)

[1] 305.1429> sd(num) [1] 17.46834 หมายเหต

ฟงกชน var() คำนวณคาความแปรปรวนของตวอยาง ฟงกชน sd() คานวณคาเบยงเบนมาตรฐานของตวอยาง

จากขอมล exec.pay

จะไดวา คาพสยควอไทลของขอมลมคาเปน 27.5 แตเมอเปรยบเทยบกบคาสวนเบยงเบนมาตรฐานของขอมลจะไดวามคาเปน 207.04 ซงมคาแตกตางกนมาก ดงนนหากพจารณาลกษณะของขอมลโดยรวมพบวาขอมลมการกระจายเบขวามาก และดวยคาสง summary แลวจะพบวาขอมลมความแตกตางกนมากจากคาสงสดและตำสด แตขอมลสวนใหญมการกระจายไมมากอยใกล ๆ 0 มเพยงบางคาทมคาสงมาก ๆ ดงนนเราจะเหนไดวาการใชคาพสยควอไทลเปนการวดการกระจายของขอมลชดน

2.4.4 สมประสทธการแปรผน (Coefficient of variation)

หากเราตองการเปรยบเทยบการกระจายของขอมลมากกวาหนงชด และนำขอมลแตละชดมาเปรยบเทยบกนวาขอมลชดใดมการกระจายมากกวากน โดยทขอมลทงสองชดนนจะเปนขอมลในเรองเดยวกนหรอตางเรองกนกได เชน ตองการเปรยบเทยบขอมลนำหนก กบสวนสง ซงจะเหนไดวา ขอมลนำหนกมหนวยเปนกโลกรม และสวนสงมหนวยเปนเซนตเมตร ซงโดยปกตเราไมสามารถเปรยบเทยบการกระจายของขอมลทงสองชดนโดยพจารณาจากคาสวนเบยงเบนมาตรฐานโดยตรงได เนองจากหนวยของขอมลนนแตกตางกนอยางไรกตามคาทจะชวยวดการกระจายของขอมลเหลาน เรยกวา สมประสทธความแปรผน ซงเปนคาทไมมหนวย ตางจากคาสถตตวอน ๆ ทใชวดการกระจาย ซงมหนวยเปนหนวยเดยวกนกบขอมล คาสมประสทธการแปรผนคอ คาเบยงเบนมาตรฐานหารดวยคาเฉลย เนองจากหนวยของคาเบยงเบนมาตรฐานและคาเฉลยของขอมลจะเปนหนวยเดยวกนทำใหคาสมประสทธการแปรผนไมมหนวย

สมประสทธความผนแปรของตวอยาง

𝑐𝑣 = 𝑠𝑥×100%

คำสง R > IQR(exec.pay)

[1] 27.5> sd(exec.pay) [1] 207.0435 > summary(exec.pay)

Min. 1st Qu. Median Mean 3st Qu. Max0.00 14.00 27.00 59.89 41.50 2510.00

สมประสทธความผนแปรของประชากร

𝑐𝑣 = 𝜎𝜇×100%

ตวอยางท 2.14 จากขอมลของบรษทจำหนายรถยนตแหงหนง ในรอบ 3 เดอน พบวาจำนวนรถยนต ทจำหนายไดเฉลย 87 คน มคาเบยงเบนมาตรฐานเทากบ 5 คน และคาคอมมชชน (commissions) เฉลย $5225 มคาเบยงเบนมาตรฐาน $773 จงเปรยบเทยบการกระจายของขอมลทงสอง

ตวอยางท 2.15 ขอมลตอไปนเปนสวนสง (cm) และนำหนก (kg) ของนกกฬา 10 คนทถกสมมาเปนตวอยาง

นาหนก 75 68 82 72 85 65 59 80 76 56 สวนสง 172 169 185 170 180 173 165 182 175 166

จงเปรยบเทยบการกระจายของนำหนกและสวนสงของนกกฬา

ตวอยางท .2 16 บรษทแหงหนงแบงคนงานออกเปน 2 กลม ๆ ละ 8 คน จำนวนชนของสนคาทคนงานแตละคน

ในกลมผลตเปนดงน

กลมท 1 (X) : 13, 6, 8, 2, 15 กลมท 2 (Y) : 8, 2, 7, 7, 8

จงหากลมพนกงานใดมการกระจายของความสามารถในการผลตสนคามากกวากน

จากการคานวณ กลมท 1 มคาสมประสทธความแปรผนเปน 59.80772 และกลมท 2 มคาสมประสทธความ แปรผนเปน 39.21844 จะไดวากลมท 1 มการกระจายของความสามารถในการผลตสนคามากกวากลมท 2

2.4.5 สมประสทธสวนเบยงเบนควอไทล (Coefficient of quartile deviation)

เปนการเปรยบเทยบการประจายของขอมลสองชด ดวยการกระจายสมพทธเมอขอมลไมมการแจกแจงสมมาตร โดยคาสมประสทธสวนเบยงเบนควอไทลคำนวณไดจาก

𝐶𝐷 =𝑄V − 𝑄'𝑄V + 𝑄'

เมอ Q3 และ Q1 คอคาควอไทลท 1 และ 3 ตามลำดบ

ตวอยางท 2.17 จากชดขอมล airquality เปรยบเทยบการกระจายของขอมล Solar.R และ Wind

คำสง R > g1=c(13,6,8,2,15) > g2=c(8,2,7,7,8) > CV1=sd(g1)/mean(g1)*100

> CV1

[1] 59.80772 > CV2=sd(g2)/mean(g2)*100

> CV2[1] 39.21844

คำสง R > par(mfrow=c(1,2)) > plot(density(airquality$Solar.R,na.rm=TRUE)) > plot(density(airquality$Wind,na.rm=TRUE))

รปท .2 4 กราฟการกระจายของ Solar.R และ Wind

ขอมล Solar.R และ Wind เปนขอมลคนละประเภท มหนวยการวดแตกตางกน อกทงจากกราฟจะพบวาขอมลไมมการกระจายสมมาตร ดงนนเราจะเปรยบเทยบการกระจายดวยสมประสทธสวนเบยงเบนควอไทล

จากการคานวณคาสมประสทธสวนเบยงเบนควอไทล ไดคา CD1=0.38 และ CD2=0.22 แสดงวาขอมล Wind มการกระจายมากกวาขอมล Solar.R

คำสง R > Q3=quantile(airquality$Solar.R,0.75,na.rm = TRUE) > Q1=quantile(airquality$Solar.R,0.25,na.rm = TRUE) > CD1=(Q3-Q1)/(Q3+Q1) > CD1 75% 0.3818425 > Q3_W=quantile(airquality$Wind,0.75,na.rm = TRUE) > Q1_W=quantile(airquality$Wind,0.25,na.rm = TRUE) > CD2=(Q3_W-Q1_W)/(Q3_W+Q1_W) > CD2 75% 0.2169312

2.5 การสรางแผนภาพกลอง (Box plot)

Box and whisker plot หรอ Boxplot เปนการนาเสนอขอมลดวยรปแบบกราฟแบบหนง ซงกราฟนจะ แสดงคากลางของขอมล (มธยฐาน) การกระจายของขอมล และบงบอกความเบ หรอสมมาตรของขอมล และ มากไปกวานนยงสามารถตรวจสอบคาผดปกตของชดขอมลดวย เรามกนยมใชกราฟ boxplot ในการเปรยบเทยบขอมลตงแตสองชดขนไป

การสราง boxplot

1. เรยงขอมลจากนอยไปมาก 2. หาคา Q1, Q2, Q3

3. สรางกลอง 4. หาขอบเขตของคาทยงไมผดปกต ไดแก Q3 + 1.5(IQR) และ Q1 − 1.5(IQR)

5. สราง whisker ทง 2 ดาน โดยลากเสนจากกงกลางกลองไปยงคาสงสดของขอมลทยงไมสงผดปกต และ คาตำสดของขอมลทยงไมตำผดปกต

6. ในกรณทมคาผดปกตใหเขยนลงไปในแผนภาพโดยใชสญลกษณ ◦ หรอ *

• ความกวางของ box เทากบ Q3 − Q1(IQR) กลาวไดวามขอมล 50% อยใน box ถา box กวางแสดงวา

ขอมลมการกระจายมาก ถา box แคบแสดงวาขอมลมการกระจายนอย

• การดลกษณะของขอมลวา สมมาตร เบซาย หรอ เบขวา ใหดทงหมดของ box-plot ไปจนถง whisker

ถาดานใดยาวแสดงวาขอมลเบไปทางดานนน

• คาสงสดของขอมลทยงไมสงผดปกต คอ คาสงสดของขอมลทมคาไมเกน Q3 + 1.5Z(IQR)

• คาตาสดของขอมลทยงไมตาผดปกต คอ คาตาสดของขอมลทมคาไมเกน Q1 − 1.5(IQR)

• ถามขอมลใดมคานอยกวา Q1 − 1.5(IQR) หรอมากกวา Q3 + 1.5(IQR) จะเรยกขอมลนน วา Outlier

แสดงดวยเครองหมายวงกลม (◦) • ถามขอมลใดมคานอยกวา Q1 – 3(IQR) หรอมากกวา Q3 + 3(IQR) จะเรยกขอมลนนวา Extremes

แสดงดวยเครองหมายดอกจน (∗)

ตวอยางท 2.18 ผลการสอบวชาสถตเบองตนของนสตคณะวทยาการสารสนเทศ 20 คน (คะแนนเตม 100 คะแนน) ดงน

40 78 80 50 60 45 70 63 55 66 71 45 74 72 75 61 65 53 42 52

วธทำ

1. เรยงลำดบจากนอยไปมาก 40 42 45 45 50 52 53 55 60 61 63 65 66 70 71 72 74 75 78 80

2. หาคา Q1, Q2, Q3

Q1 = 1(20+1)/4 = 5.25 ขอมล Q1 = 50.5

Q2 = 2(20+1)/4 = 10.5 ขอมล Q2 = 62

Q3 = 3(20+1)/4 = 15.75 ขอมล Q3 = 71.75

3. สรางกลอง

4.

ตวอยางท .2 19 ขอมลตอไปนคอระดบความสงของนำ (เซนตเมตร) ททวมบรเวณอาเภอตางๆ 8 อำเภอใน จงหวดปราจนบร

15 13 6 5 12 20 39 18

รปท 2.6 Box and Whisker plot สำหรบขอมลความสงของนำ

จากรปท 2.6 จะเหนไดวาขอมลชดนมคาผดปกต 1 คา คอ 39 หากไมพจารณาคาผดปกตแลวจะไดวาขอมลมการกระจายคอนขางสมมาตร

ตวอยางท 2.20 ขอมลตอไปนเปนเวลาทนสตใชในการเลนอนเทอรเนตตอวน (หนวย:นาท) ของนสตจำนวน 50 คน

22 32 48 49 53 55 57 58 59 60 62 62 63 64 65 66 68 69 70 71 72 73 74 75 75 76 77 77 78 78 79 79 80 80 81 83 84 84 85 86 87 88 89 90 90 92 93 95 98 99

คำสง R > water=c(15,13,6,5,12,20,39,18) > boxplot(water)

รปท 2.7 Box and Whisker plot สำหรบขอมล internet

คำสง R > internet=c(22,32,48,49,53,55,57,58,59,60,62,62,63,64,65,66,68,69,70,71,72,73,74,75,75,76, + 77,77,78,78,79,79,80,80,80,81,83,84,84,85,86,87,88,89,90,90,92,93,95,98,99) > boxplot(internet)