Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy
-
Upload
nguyen-anh-quan -
Category
Documents
-
view
2.127 -
download
35
description
Transcript of Bài tập lớn xác suất thông kê - GVHD Nguyễn Đình Huy
1
ðẠI HỌC QUỐC GIA THÀNH PHỒ HỒ CHÍ MINH
TRƯỜNG ðẠI HỌC BÁCH KHOA
*****¥*¥*****
BÁO CÁO: BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
TP.HỒ CHÍ MINH , THÁNG 11 NĂM 2010
GVHD: PGS.TS NGUYỄN ðÌNH HUY SV: NGUYỄN VĂN HỮU MSSV: 20901139 NHÓM: 04 ðỀ SỐ 4
2
BÀI 1
A. Ví dụ 3.4/161 SGK
Hiệu suất phần trăm (%) của một phản ứng hóa học ñược nghiên cứu theo ba yếu tố: pH (A), nhiệt ñộ (B) và chất xúc tác (C) ñược trình bày trong bảng sau:
Yếu tố B Yếu tố A
B1 B2 B3 B4
A1 C1 9 C2 14 C3 16 C4 12
A2 C2 12 C3 15 C4 12 C1 10
A3 C3 13 C4 14 C1 11 C2 14
A4 C4 10 C1 11 C2 13 C3 13
Hãy ñánh giá về ảnh hưởng của các yếu tố trên ñến hiệu suất phản ứng?
Phương pháp: PHÂN TÍCH PHƯƠNG SAI BA NHÂN TỐ
Sự phân tích này ñược dùng ñể ñánh giá về sự ảnh hưởng của ba yếu tố trên các giá trị quan sát G (i = 1, 2... r: yếu tố A; j = 1, 2...r: yếu tố B; k = 1, 2...r: yếu tố C).
Mô hình:
Khi nghiên cứu ảnh hưởng của hai yếu tố, mỗi yếu tố có n mức, thì người ta dùng mô hình vuông la tinh n×n. Ví dụ như mô hình vuông la tinh 4×4:
B C D A
C D A B
D A B C
A B C D
Mô hình vuông la tinh ba yếu tố ñược trình bày như sau:
Yếu tố B Yếu tố A B1 B2 B3 B4
A1 C1 Y111 C2 Y122 C3 Y133 C4 Y144 T1..
A2 C2 Y212 C3 Y223 C4 Y234 C1 Y241 T2..
A3 C3 Y313 C4 Y324 C1 Y331 C2 Y342 T3..
A4 C4 Y414 C1 Y421 C2 Y432 C3 Y443 T4..
T.i. T.1. T.2. T.3. T.4.
3
Bảng ANOVA:
Nguồn sai số Bậc tự do Tổng số bình
phương Bình phương trung
bình Giá trị thống kê
Yếu tố A
(Hàng) (r-1) SSR=∑
=
−r
i
i
r
T
r
T
12
2...
2.. MSR=
)1( −r
SSR FR=
MSE
MSR
Yếu tố B
(Cột) (r-1) SSC=∑
=
−r
j
j
r
T
r
T
12
2...
2.. MSC=
)1( −r
SSC FC=
MSE
MSC
Yếu tố C (r-1) SSF=∑=
−r
k
k
r
T
r
T
12
2...
2.. MSF=
)1( −r
SSF F=
MSE
MSF
Sai số (r-1)(r-2) SSE=SST –
(SSF+SSR+SSC) MSE=
)2)(1( −− rr
SSE
Tổng cộng (r2-1) SST= 2
2...2
r
TYijk −ΣΣΣ
Trắc nghiệm
• Giả thiết:
H0: µ1 = µ2 = ...= µk ↔ Các giá trị trung bình bằng nhau
H1: µi ≠ µj ↔ Có ít nhất hai giá trị trung bình khác nhau
• Giá trị thống kê: FR, FC, F
• Biện luận
Nếu FR < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố A
Nếu FC < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố B
Nếu F < Fα(r-1)(r-2) → Chấp nhận H0 ñối với yếu tố C
Bài làm:
� Nhập dữ liệu vào bảng tính
4
� Thiết lập các biểu thức và tính các giá trị thống kê
1. Tính các giá trị Ti.., T.j., T..k và T... • Các giá trị Ti..
Chọn ô B7 và chọn biểu thức =SUM(B2:E2)
Chọn ô C7 và nhập biểu thức =SUM(B3:E3)
Chọn ô D7 và nhập biểu thức =SUM(B4:E4)
Chọn ô E7 và nhập biểu thức =SUM(B4:E4)
• Các giá trị T.j.
Chọn ô B8 và nhập biểu thức =SUM(B2:B5)
Dùng con trỏ kéo ký hiệu tự ñiền từ ô B8 ñến ô E8
• Các giá trị T..k
Chọn ô B9 và nhập biểu thức =SUM(B2,C5,D4,E3)
Chọn ô C9 và nhập biểu thức =SUM(B3,C2,D5,E4)
Chọn ô D9 và nhập biểu thức =SUM(B4,C3,D2,E5)
Chọn ô E9 và nhập biểu thức =SUM(B5,C4,D3,E2)
• Giá trị T…
Chọn ô B10 và nhập biểu thức=SUM(B2:E5)
2. Tính các giá trị G
Chọn ô G7 và nhập biểu thức =SUMSQ(B7:E7)
Dùng con trỏ kéo ký hiệu tự ñiền từ ô G7 ñến ô G9
Chọn ô G10 và nhập biểu thức =POWER(B10,2)
Chọn ô G11 và nhập biểu thức =SUMSQ(B2:E5)
3. Tính các giá trị SSR, SSC, SSF, SST và SSE • Các giá trị SSR, SSC, SSF
Chọn ô I7 và nhập biểu thức =G7/4-39601/POWER(4,2)
Dùng con trỏ kéo ký hiệu tự ñiền từ ô I7 ñến ô I9
• Giá trị SST
Chọn ô I11 và nhập biểu thức =G11-G10/POWER(4,2)
• Giá trị SSE
Chọn ô I10 và nhập biểu thức =I11-SUM(I7:I9)
4. Tính các giá trị MSR, MSC, MSF và MSE • Giá trị MSR, MSC, MSF
Chọn ô K7 và nhập biểu thức =I7/(4-1)
Dung con trỏ kéo ký hiệu tự ñiền từ ô K7 ñến ô K9
5
Giá trị MSE: Chọn ô K10 và nhập biểu thức =I10/((4-1)*(4-2))
Tính các giá trị F:
Chọn ô M7 và nhập biểu thức =K7/$K$10
Dùng con trỏ kéo ký hiệu tự ñiền từ ô M7 ñến M9.
� Kết quả và biện luận
FR=3.11 < F0.05(3,6)=4.76 => chấp nhận H0 (pH)
FC=11.95 > F0.05(3,6)=4.76 => bác bỏ H0 (nhiệt ñộ)
F=30.05 > F0.05(3,6)=4.76 => bác bỏ H0 (chất xúc tác)
Vậy chỉ có nhiệt ñộ và chất xúc tác gây ảnh hưởng ñến hiệu suất phản ứng.
B. Ví dụ 4.2/170 SGK
Người ta dùng ba mức nhiệt ñộ gồm 105, 120 và 135°C kết hợp với ba khoảng thời gian là 15, 30 và 60 phút ñể thực hiện một phản ứng tổng hợp. Các hiệu suất của phản ứng (%) ñược trình bày trong bảng sau:
Thời gian (phút) Nhiệt ñộ (°C) Hiệu suất (%)
X1 X2 Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
6
Hãy cho biết yếu tố nhiệt ñộ và thời gian/hoặc yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp? Nếu có thì ñiều kiện nhiệt ñộ 115°C trong vòng 50 phút thì hiệu suất phản ứng sẽ là bao nhiêu?
Phương pháp: HỒI QUY TUYẾN TÍNH ðA THAM SỐ
Trong phương trình hồi quy tuyến tính ña tham số, biến số phụ thuộc Y có liên quan ñến k biến số ñộc lập Xi (i=1,2,...,k) thay vì chỉ có một như trong hồi quy tuyến tính ñơn giản.
Phương trình tổng quát
Ŷx0,x1,...,xk = B0 + B1X1 + ... + BkXk
Bảng ANOVA
Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung
bình Giá trị thống
kê
Hồi quy K SSR MSR=k
SSR F=
MSE
MSR
Sai số N-k-1 SSE MSE =)1( −− kN
SSE
Tổng cộng N-1 SST = SSR + SSE
Giá trị thống kê
Giá trị R-bình phương:
kFkN
kF
SST
SSRR
+−−==
)1(2 ( 81.02
≥R là khá tốt)
ðộ lệch chuẩn:
)1( −−
=kN
SSES ( 30.0≤S là khá tốt)
Trắc nghiệm
• Giá trị thống kê: F
• Trắc nghiệm t:
H0: βi = 0 ↔ Các hệ số hồi quy không có ý nghĩa.
H1: βi ≠ 0 ↔ Có ít nhất vài hệ số hồi quy có ý nghĩa.
F < 2
αt (r-1)(r-2) → Chấp nhận H0
• Trắc nghiệm F
H0: βi = 0 ↔ Phương trình hồi quy không thích hợp.
7
H1: βi ≠ 0 ↔ Phương trình hồi quy thích hợp với ít nhất vài hệ số Bi.
F < Fα(1,N-k-1) → Chấp nhận H0
Bài làm:
� Nhập dữ liệu vào bảng tính
Dữ liệu nhất thiết phải ñược nhập theo cột.
� Áp dụng Regression
Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis
Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK
8
Trong hộp thoại Regression, lần lượt ấn ñịnh các chi tiết:
− Phạm vi của biến số Y (input Y range)
− Phạm vi của biến số X (input X range)
− Nhãn dữ liệu (Labels)
− Mức tin cậy (Confidence level)
− Tọa ñộ ñầu ra (Output range)
− ðường hồi quy (Line Fit Plots),…
9
Các giá trị ñầu ra cho bảng sau:
Phương trình hồi quy: Ŷx1=f(X1)
Ŷx1=2.73 + 0.04X1 (R2=0.21, S=1.81)
10
t0=2.19 < t0.05 = 2.365 (hay Pv2=0.071>α=0.05) => Chấp nhận giả thiết H0
t1=1.38 < t0.05 = 2.365 (hay Pv=0.209>α=0.05) => Chấp nhận giả thiết H0
F=1.95 < F0.05 = 5.590 (hay Fs=0.209>α=0.05) => Chấp nhận giả thiết H0
Vậy cả hai hệ số 2.73 (B0) và 0.04 (B1) của phương trình hồi quy Ŷx1 = 2.73 + 0.04X1 ñều không có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này không thích hợp.
Phương trình hồi quy: Ŷx2 = f(X2)
Ŷx2 = -11.141 + 0.129X2 (R2=0.76,S=0.99)
11
t0 = 3.418 > t0.05 = 2.365 (hay Pv2=0.011 > α=0.05) =>Bác bỏ giả thiết H0
t1= 4.757 > t0.05 = 2.365(hay Pv=0.00206 < α=0.05) =>Bác bỏ giả thiết H0
F= 22.631 > F=5.590(hay Fs=0.00206 < α=0.05) =>Bác bỏ giả thiết H0
Vậy cả hai hệ số -11.141 (B0) và 0.129 (B1) của phương trình hồi quy Ŷx2= -11.141 + 0.129X2 ñều có ý nghĩa thống kê. Nói cách khác phương trình hồi quy này thích hợp.
Kết luận: yếu tố nhiệt ñộ có liên quan tuyến tính với hiệu suất của phản ứng tổng hợp.
Phương trình hồi quy: Ŷx1,x2=f(X1,X2)
Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2 (R2=0.97; S=0.33)
12
t0=11.528 > t0.05=2.365 (hay Pv2=2.260.10-5<α=0.05)=>Bác bỏ giả thiết H0
t1=7.583 > t0.05=2.365 (hay Pv=0.00027<α=0.05) =>Bác bỏ giả thiết H0
F=131.392 > 5.14 (hay Fs=1.112*10-5<α=0.05) =>Bác bỏ giả thiết H0
Vậy cả hai hệ số -12.70 (B0), 0.04 (B1) và 0.13 (B1) của phương trình hồi quy Ŷx1,x2 =-12.7 + 0.04X1 + 0.13X2 ñều có ý nghĩa thống kê. Nói cách khác, phương trình hồi quy này thích hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là thời gian và nhiệt ñộ.
Sự tuyến tính của phương trình Ŷx1,x2 = -12.70 + 0.04X1 + 0.13X2. Có thể ñược trình bày trong biểu ñồ phân tán (scatter plots):
13
Biểu ñồ phân tán
0
1
2
3
4
5
6
7
8
0 2 4 6 8
Y
Y dự ñoán
Nếu muốn dự ñoán hiệu suất bằng phương trình hồi quy Y= -12.70 + 0.04X1 + 0.13X2
chỉ cần chọn một ô, ví dụ như:B31, sau ñó nhập hàm=B28+B29*50+EB30*115 và ñược kết quả như sau:
Vậy hiệu suất phản ứng theo dự ñoán ở 115°C trong vòng 50 phút là 4.3109%.
14
Bài 2: Hai máy cùng gia công một loại chi tiết. Người ta muốn kiểm tra xem hai máy này có ñộ chính xác như nhau hay không? ðể làm ñiều ñó người ta lấy ngẫu nhiên từ mỗi máy 7 chi tiết, ñem ño và thu ñược kết quả sau:
Máy A 135 138 136 140 138 135 139
Máy B 140 135 140 138 135 138 140
Với mức ý nghĩa 0.05 có thể cho rằng hai máy này có ñộ chính xác như nhau hay không?
Biết kích thước chi tiết có phân phối chuẩn.
Phương pháp: so sánh phương sai Nhập dữ liệu vào bảng tính:
Áp dụng “F-Test Two-Sample for Variances”
15
Kết quả và biện luận:
220 : BAH σσ = “Hai máy có ñộ chính xác
như nhau. 22: BAtH σσ < “ðộ chính xác của máy A
cao hơn máy B” 781.0233.0 05.0 =<= FF ⇒Bác bỏ giả
thiết H0
Vậy ñộ chính xác của máy A cao hơn máy B
BÀI 3: Một cửa hàng lớn có bán ba loại giày A,B,C. Theo dõi số khách hàng mua các loại giày này trong 5 ngày, người quản lý thu ñược bảng số liệu sau:
Loại giày A B C 28 35 33 21 42 38 20 32 31 18 25 42 23 27 29
Với mức ý nghĩa α=1% hãy so sánh lượng tiêu thụ trung bình của ba loại giày nói trên. Bài làm: ðây là bài toán phân tích phương sai một yếu tố, mức tiêu thụ ảnh hưởng bởi loại giày Giả thiết H0: µ1 = µ2 = µ3; tức lượng tiêu thụ trung bình là bằng nhau
� Nhập dữ liệu vào bảng tính
� Áp dụng Anova: Single Factor Nhấn lần lượt ñơn lệnh Tools và lệnh Data Analysis. Chọn trương trình Anova: Single Factor trong hộp thoại Data Analysis rồi nhấn nút OK Trong hộp thoại Anova: single factor lần lượt ấn ñịnh
− Phạm vi ñầu vào(input range)
16
− Cách xắp xếp theo hang hay cột(group by) − Nhấn dữ liệu(labels in fisrt row/column) − Phạm vi ñầu ra(output range)
Sau khi nhấn OK xuất hiện bảng Anova:
� Kết luận: Từ giá trị trong bảng Anova: F = 7.5864 > F0.01 = 6.9266 => Bác bỏ H0 => Lượng tiêu thụ của 3 loại giày trên là khác nhau Lượng tiêu thụ trung bình của loại giày A là 22 Lượng tiêu thụ trung bình của loại giày B là 32.2 Lượng tiêu thụ trung bình của loại giày C là 34.6 => Lượng tiêu thụ trung bình: Loại C > Loại B > loại A
17
Câu 4: Với mức ý nghĩa 0.03 hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt ñộng kinh tế của các hộ gia ñình ở một vùng nông thôn trên cơ sở bảng số liệu về thu nhập trung bình của một hộ tương ứng với các ngành nghề nói trên như sau:
1.Cơ sở lý thuyết: ðây là dạng toán phân tích phương sai hai yếu tố (không lặp): Giả thiết: H0 – các giá trị trung bình là bằng nhau ðối giả thiết: H1 – các giá trị trung bình là không bằng nhau. Nhập dữ liệu vào máy tính:
Áp dụng: “Anova: Two – Factor without Replication” a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”. b)Trong hộp thoại Anova:Two – Factor without Replication, lần lượt ấn ñịnh các giá trị: - Phạm vi ñầu vào (input range): chọn bảng tính ta vừa tạo. -Nhãn dữ liệu (labels in first row/column) -Ngưỡng tin cậy: Alpha = 3% = 0.03 -Phạm vi ñầu ra (output Range).
Nghề phụ Nghề chính
(1) (2) (3) (4)
Trồng lúa (1)
Trồng cây ăn trái (2)
Chăn nuôi(3)
Dịch vụ (4)
3.5
5.6
4.1
7.2
7.4
4.1
2.5
3.2
8.0
6.1
1.8
2.2
3.5
9.6
2.1
1.5
18
Sau khi click Ok thì kết quả thu ñược như sau:
FR = 1.9966 < F0.03 = 4.7407 => chấp nhận giả thiết H0 (nghề chính). FC = 0.1106 < F0.03 = 4.7407 => chấp nhận giả thiết H0 (nghề phụ). Vậy, thu nhập của gia ñình giống nhau xét cho nghề chính hay nghề phụ.
19
Bài 5: Với mức ý nghĩa 0.02 hãy phân tích sự biến ñộng của thu nhập ($/tháng/người) trên cơ sở số liệu ñiều tra về thu nhập trung bình của 4 loại ngành nghề ở 4 ku vực khác nhau sau ñây:
Nơi làm việc Loại ngành nghề V1 V2 V3 V4
1
2
3
4
212
222
241
240
200
205
250
228
230
222
245
230
220
225
235
240
Bài làm: Phương pháp: phân tích phương sai hai yếu tố không lặp Nhập dữ liệu vào bảng tính:
Áp dụng: “Anova: Two – Factor without Replication” a)Tại nhóm lệnh Data analysis, chọn Anova:Two – Factor without Replication”. b)Trong hộp thoại Anova: Two – Factor without Replication, lần lượt ấn ñịnh các giá trị: - Phạm vi ñầu vào (Input Range): chọn bảng tính ta vừa tạo. -Nhãn dữ liệu (labels in first row/column) -Ngưỡng tin cậy: Alpha = 2% = 0.02 -Phạm vi ñầu ra (Output Range).
20
Sau khi click Ok thì kết quả thu ñược như sau:
FR = 8.7831 > F0.02 = 5.5097 => bác bỏ giả thiết H0 (loại ngành nghề). FC = 1.2328 < F0.02 = 5.5097 => chấp nhận giả thiết H0 (nơi làm việc). Vậy chỉ có loại ngành nghề ảnh hưởng ñến thu nhập trung bình trên tháng của một người.