Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

20
1 ðẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH TRƯỜNG ðẠI HỌC BÁCH KHOA *****¥*¥***** BÁO CÁO: BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ TP.HỒ CHÍ MINH , THÁNG 11 NĂM 2010 GVHD: PGS.TS NGUYỄN ðÌNH HUY SV: NGUYỄN VĂN HỮU MSSV: 20901139 NHÓM: 04 ðỀ SỐ 4

description

Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

Transcript of Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

Page 1: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

1

ðẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH

TRƯỜNG ðẠI HỌC BÁCH KHOA

*****¥*¥*****

BÁO CÁO: BÀI TẬP LỚN

XÁC SUẤT THỐNG KÊ

TP.HỒ CHÍ MINH , THÁNG 11 NĂM 2010

GVHD: PGS.TS NGUYỄN ðÌNH HUY SV: NGUYỄN VĂN HỮU MSSV: 20901139 NHÓM: 04 ðỀ SỐ 4

Page 2: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

2

BÀI 1

A. Ví dụ 3.4/161 SGK

Hiệu suất phần trăm (%) của một phản ứng hóa học ñược nghiên cứu theo ba yếu tố: pH (A), nhiệt ñộ (B) và chất xúc tác (C) ñược trình bày trong bảng sau:

Yếu tố B Yếu tố A

B1 B2 B3 B4

A1 C1 9 C2 14 C3 16 C4 12

A2 C2 12 C3 15 C4 12 C1 10

A3 C3 13 C4 14 C1 11 C2 14

A4 C4 10 C1 11 C2 13 C3 13

Hãy ñánh giá về ảnh hưởng của các yếu tố trên ñến hiệu suất phản ứng?

Phương pháp: PHÂN TÍCH PHƯƠNG SAI BA NHÂN TỐ

Sự phân tích này ñược dùng ñể ñánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B; k = 1, 2...r: yếu tố C).

Mô hình:

Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:

B C D A

C D A B

D A B C

A B C D

Mô hình vuông la tinh ba yếu tố ñược trình bày như sau:

Yếu tố B Yếu tố A B1 B2 B3 B4

A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1..

A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2..

A3 C3 Y313 C4 Y324 C1 Y331 C2 Y342 T3..

A4 C4 Y414 C1 Y421 C2 Y432 C3 Y443 T4..

T.i. T.1. T.2. T.3. T.4.

Page 3: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

3

Bảng ANOVA:

Nguồn sai số Bậc tự do Tổng số bình

phương Bình phương trung

bình Giá trị thống kê

Yếu tố A

(Hàng) (r-1) SSR=∑

=

−r

i

i

r

T

r

T

12

2...

2.. MSR=

)1( −r

SSR FR=

MSE

MSR

Yếu tố B

(Cột) (r-1) SSC=∑

=

−r

j

j

r

T

r

T

12

2...

2.. MSC=

)1( −r

SSC FC=

MSE

MSC

Yếu tố C (r-1) SSF=∑=

−r

k

k

r

T

r

T

12

2...

2.. MSF=

)1( −r

SSF F=

MSE

MSF

Sai số (r-1)(r-2) SSE=SST –

(SSF+SSR+SSC) MSE=

)2)(1( −− rr

SSE

Tổng cộng (r2-1) SST= 2

2...2

r

TYijk −ΣΣΣ

Trắc nghiệm

• Giả thiết:

H0: µ1 = µ2 = ...= µk ↔ Các giá trị trung bình bằng nhau

H1: µi ≠ µj ↔ Có ít nhất hai giá trị trung bình khác nhau

• Giá trị thống kê: FR, FC, F

• Biện luận

Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố A

Nếu FC < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố B

Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố C

Bài làm:

� Nhập dữ liệu vào bảng tính

Page 4: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

4

� Thiết lập các biểu thức và tính các giá trị thống kê

1. Tính các giá trị Ti.., T.j., T..k và T... • Các giá trị Ti..

Chọn ô B7 và chọn biểu thức =SUM(B2:E2)

Chọn ô C7 và nhập biểu thức =SUM(B3:E3)

Chọn ô D7 và nhập biểu thức =SUM(B4:E4)

Chọn ô E7 và nhập biểu thức =SUM(B4:E4)

• Các giá trị T.j.

Chọn ô B8 và nhập biểu thức =SUM(B2:B5)

Dùng con trỏ kéo ký hiệu tự ñiền từ ô B8 ñến ô E8

• Các giá trị T..k

Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)

Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)

Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)

Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)

• Giá trị T…

Chọn ô B10 và nhập biểu thức=SUM(B2:E5)

2. Tính các giá trị G

Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)

Dùng con trỏ kéo ký hiệu tự ñiền từ ô G7 ñến ô G9

Chọn ô G10 và nhập biểu thức =POWER(B10,2)

Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)

3. Tính các giá trị SSR, SSC, SSF, SST và SSE • Các giá trị SSR, SSC, SSF

Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)

Dùng con trỏ kéo ký hiệu tự ñiền từ ô I7 ñến ô I9

• Giá trị SST

Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2)

• Giá trị SSE

Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)

4. Tính các giá trị MSR, MSC, MSF và MSE • Giá trị MSR, MSC, MSF

Chọn ô K7 và nhập biểu thức =I7/(4-1)

Dung con trỏ kéo ký hiệu tự ñiền từ ô K7 ñến ô K9

Page 5: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

5

Giá trị MSE: Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))

Tính các giá trị F:

Chọn ô M7 và nhập biểu thức =K7/$K$10

Dùng con trỏ kéo ký hiệu tự ñiền từ ô M7 ñến M9.

� Kết quả và biện luận

FR=3.11 < F0.05(3,6)=4.76 => chấp nhận H0 (pH)

FC=11.95 > F0.05(3,6)=4.76 => bác bỏ H0 (nhiệt ñộ)

F=30.05 > F0.05(3,6)=4.76 => bác bỏ H0 (chất xúc tác)

Vậy chỉ có nhiệt ñộ và chất xúc tác gây ảnh hưởng ñến hiệu suất phản ứng.

B. Ví dụ 4.2/170 SGK

Người ta dùng ba mức nhiệt ñộ gồm 105, 120 và 135°C kết hợp với ba khoảng thời gian là 15, 30 và 60 phút ñể thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) ñược trình bày trong bảng sau:

Thời gian (phút) Nhiệt ñộ (°C) Hiệu suất (%)

X1 X2 Y

15 105 1.87

30 105 2.02

60 105 3.28

15 120 3.05

30 120 4.07

60 120 5.54

15 135 5.03

30 135 6.45

60 135 7.26

Page 6: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

6

Hãy cho biết yếu tố nhiệt ñộ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì ñiều kiện nhiệt ñộ 115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?

Phương pháp: HỒI QUY TUYẾN TÍNH ðA THAM SỐ

Trong phương trình hồi quy tuyến tính ña tham số, biến số phụ thuộc Y có liên quan ñến k biến số ñộc lập Xi (i=1,2,...,k) thay vì chỉ có một như trong hồi quy tuyến tính ñơn giản.

Phương trình tổng quát

Ŷx0,x1,...,xk = B0 + B1X1 + ... + BkXk

Bảng ANOVA

Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung

bình Giá trị thống

Hồi quy K SSR MSR=k

SSR F=

MSE

MSR

Sai số N-k-1 SSE MSE =)1( −− kN

SSE

Tổng cộng N-1 SST = SSR + SSE

Giá trị thống kê

Giá trị R-bình phương:

kFkN

kF

SST

SSRR

+−−==

)1(2 ( 81.02

≥R là khá tốt)

ðộ lệch chuẩn:

)1( −−

=kN

SSES ( 30.0≤S là khá tốt)

Trắc nghiệm

• Giá trị thống kê: F

• Trắc nghiệm t:

H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.

H1: βi ≠ 0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.

F < 2

αt (r-1)(r-2) → Chấp nhận H0

• Trắc nghiệm F

H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.

Page 7: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

7

H1: βi ≠ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.

F < Fα(1,N-k-1) → Chấp nhận H0

Bài làm:

� Nhập dữ liệu vào bảng tính

Dữ liệu nhất thiết phải ñược nhập theo cột.

� Áp dụng Regression

Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis

Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK

Page 8: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

8

Trong hộp thoại Regression, lần lượt ấn ñịnh các chi tiết:

− Phạm vi của biến số Y (input Y range)

− Phạm vi của biến số X (input X range)

− Nhãn dữ liệu (Labels)

− Mức tin cậy (Confidence level)

− Tọa ñộ ñầu ra (Output range)

− ðường hồi quy (Line Fit Plots),…

Page 9: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

9

Các giá trị ñầu ra cho bảng sau:

Phương trình hồi quy: Ŷx1=f(X1)

Ŷx1=2.73 + 0.04X1 (R2=0.21, S=1.81)

Page 10: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

10

t0=2.19 < t0.05 = 2.365 (hay Pv2=0.071>α=0.05) => Chấp nhận giả thiết H0

t1=1.38 < t0.05 = 2.365 (hay Pv=0.209>α=0.05) => Chấp nhận giả thiết H0

F=1.95 < F0.05 = 5.590 (hay Fs=0.209>α=0.05) => Chấp nhận giả thiết H0

Vậy cả hai hệ số 2.73 (B0) và 0.04 (B1) của phương trình hồi quy Ŷx1 = 2.73 + 0.04X1 ñều không có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này không thích hợp.

Phương trình hồi quy: Ŷx2 = f(X2)

Ŷx2 = -11.141 + 0.129X2 (R2=0.76,S=0.99)

Page 11: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

11

t0 = 3.418 > t0.05 = 2.365 (hay Pv2=0.011 > α=0.05) =>Bác bỏ giả thiết H0

t1= 4.757 > t0.05 = 2.365(hay Pv=0.00206 < α=0.05) =>Bác bỏ giả thiết H0

F= 22.631 > F=5.590(hay Fs=0.00206 < α=0.05) =>Bác bỏ giả thiết H0

Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2= -11.141 + 0.129X2 ñều có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này thích hợp.

Kết luận: yếu tố nhiệt ñộ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.

Phương trình hồi quy: Ŷx1,x2=f(X1,X2)

Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2 (R2=0.97; S=0.33)

Page 12: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

12

t0=11.528 > t0.05=2.365 (hay Pv2=2.260.10-5<α=0.05)=>Bác bỏ giả thiết H0

t1=7.583 > t0.05=2.365 (hay Pv=0.00027<α=0.05) =>Bác bỏ giả thiết H0

F=131.392 > 5.14 (hay Fs=1.112*10-5<α=0.05) =>Bác bỏ giả thiết H0

Vậy cả hai hệ số -12.70 (B0), 0.04 (B1) và 0.13 (B1) của phương trình hồi quy Ŷx1,x2 =-12.7 + 0.04X1 + 0.13X2 ñều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp.

Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt ñộ.

Sự tuyến tính của phương trình Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2. Có thể ñược trình bày trong biểu ñồ phân tán (scatter plots):

Page 13: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

13

Biểu ñồ phân tán

0

1

2

3

4

5

6

7

8

0 2 4 6 8

Y

Y dự ñoán

Nếu muốn dự ñoán hiệu suất bằng phương trình hồi quy Y= -12.70 + 0.04X1 + 0.13X2

chỉ cần chọn một ô, ví dụ như:B31, sau ñó nhập hàm=B28+B29*50+EB30*115 và ñược kết quả như sau:

Vậy hiệu suất phản ứng theo dự ñoán ở 115°C trong vòng 50 phút là 4.3109%.

Page 14: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

14

Bài 2: Hai máy cùng gia công một loại chi tiết. Người ta muốn kiểm tra xem hai máy này có ñộ chính xác như nhau hay không? ðể làm ñiều ñó người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, ñem ño và thu ñược kết quả sau:

Máy A 135 138 136 140 138 135 139

Máy B 140 135 140 138 135 138 140

Với mức ý nghĩa 0.05 có thể cho rằng hai máy này có ñộ chính xác như nhau hay không?

Biết kích thước chi tiết có phân phối chuẩn.

Phương pháp: so sánh phương sai Nhập dữ liệu vào bảng tính:

Áp dụng “F-Test Two-Sample for Variances”

Page 15: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

15

Kết quả và biện luận:

220 : BAH σσ = “Hai máy có ñộ chính xác

như nhau. 22: BAtH σσ < “ðộ chính xác của máy A

cao hơn máy B” 781.0233.0 05.0 =<= FF ⇒Bác bỏ giả

thiết H0

Vậy ñộ chính xác của máy A cao hơn máy B

BÀI 3: Một cửa hàng lớn có bán ba loại giày A,B,C. Theo dõi số khách hàng mua các loại giày này trong 5 ngày, người quản lý thu ñược bảng số liệu sau:

Loại giày A B C 28 35 33 21 42 38 20 32 31 18 25 42 23 27 29

Với mức ý nghĩa α=1% hãy so sánh lượng tiêu thụ trung bình của ba loại giày nói trên. Bài làm: ðây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ ảnh hưởng bởi loại giày Giả thiết H0: µ1 = µ2 = µ3; tức lượng tiêu thụ trung bình là bằng nhau

� Nhập dữ liệu vào bảng tính

� Áp dụng Anova: Single Factor Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis. Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp thoại Anova: single factor lần lượt ấn ñịnh

− Phạm vi ñầu vào(input range)

Page 16: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

16

− Cách xắp xếp theo hang hay cột(group by) − Nhấn dữ liệu(labels in fisrt row/column) − Phạm vi ñầu ra(output range)

Sau khi nhấn OK xuất hiện bảng Anova:

� Kết luận: Từ giá trị trong bảng Anova: F = 7.5864 > F0.01 = 6.9266 => Bác bỏ H0 => Lượng tiêu thụ của 3 loại giày trên là khác nhau Lượng tiêu thụ trung bình của loại giày A là 22 Lượng tiêu thụ trung bình của loại giày B là 32.2 Lượng tiêu thụ trung bình của loại giày C là 34.6 => Lượng tiêu thụ trung bình: Loại C > Loại B > loại A

Page 17: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

17

Câu 4: Với mức ý nghĩa 0.03 hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt ñộng kinh tế của các hộ gia ñình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau:

1.Cơ sở lý thuyết: ðây là dạng toán phân tích phương sai hai yếu tố (không lặp): Giả thiết: H0 – các giá trị trung bình là bằng nhau ðối giả thiết: H1 – các giá trị trung bình là không bằng nhau. Nhập dữ liệu vào máy tính:

Áp dụng: “Anova: Two – Factor without Replication” a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”. b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn ñịnh các giá trị: - Phạm vi ñầu vào (input range): chọn bảng tính ta vừa tạo. -Nhãn dữ liệu (labels in first row/column) -Ngưỡng tin cậy: Alpha = 3% = 0.03 -Phạm vi ñầu ra (output Range).

Nghề phụ Nghề chính

(1) (2) (3) (4)

Trồng lúa (1)

Trồng cây ăn trái (2)

Chăn nuôi(3)

Dịch vụ (4)

3.5

5.6

4.1

7.2

7.4

4.1

2.5

3.2

8.0

6.1

1.8

2.2

3.5

9.6

2.1

1.5

Page 18: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

18

Sau khi click Ok thì kết quả thu ñược như sau:

FR = 1.9966 < F0.03 = 4.7407 => chấp nhận giả thiết H0 (nghề chính). FC = 0.1106 < F0.03 = 4.7407 => chấp nhận giả thiết H0 (nghề phụ). Vậy, thu nhập của gia ñình giống nhau xét cho nghề chính hay nghề phụ.

Page 19: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

19

Bài 5: Với mức ý nghĩa 0.02 hãy phân tích sự biến ñộng của thu nhập ($/tháng/người) trên cơ sở số liệu ñiều tra về thu nhập trung bình của 4 loại ngành nghề ở 4 ku vực khác nhau sau ñây:

Nơi làm việc Loại ngành nghề V1 V2 V3 V4

1

2

3

4

212

222

241

240

200

205

250

228

230

222

245

230

220

225

235

240

Bài làm: Phương pháp: phân tích phương sai hai yếu tố không lặp Nhập dữ liệu vào bảng tính:

Áp dụng: “Anova: Two – Factor without Replication” a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”. b)Trong hộp thoại Anova: Two – Factor without Replication, lần lượt ấn ñịnh các giá trị: - Phạm vi ñầu vào (Input Range): chọn bảng tính ta vừa tạo. -Nhãn dữ liệu (labels in first row/column) -Ngưỡng tin cậy: Alpha = 2% = 0.02 -Phạm vi ñầu ra (Output Range).

Page 20: Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy

20

Sau khi click Ok thì kết quả thu ñược như sau:

FR = 8.7831 > F0.02 = 5.5097 => bác bỏ giả thiết H0 (loại ngành nghề). FC = 1.2328 < F0.02 = 5.5097 => chấp nhận giả thiết H0 (nơi làm việc). Vậy chỉ có loại ngành nghề ảnh hưởng ñến thu nhập trung bình trên tháng của một người.