sự vi phạm giả thiết của mô hình
-
Upload
cam-thu-ninh -
Category
Data & Analytics
-
view
1.867 -
download
1
Transcript of sự vi phạm giả thiết của mô hình
SỰ VI PHẠM GIẢ THIẾT
CỦA MÔ HÌNH
ThS Nguyễn Thị Kim Dung
Khi dùng 1 bộ số liệu để tìm hàm hồi quy, nếu
số liệu thỏa 5 điều kiện của phương pháp bình
phương nhỏ nhất thì kết quả sẽ đúng.
Nếu số liệu sai ( không thỏa 1 trong 5 điều kiện
trên ) thì kết quả sẽ sai theo 1 trong 3 dạng:
Đa cộng tuyến
Phương sai của sai số thay đổi
Tự tương quan
I. ĐA CỘNG TUYẾN
1. ĐA CỘNG TUYẾN LÀ GÌ?
Trong mô hình hồi quy bội, ta có giả thiết A5:
các biến độc lập trong mô hình không có quan hệ
tuyến tính. Nếu giả thiết này bị vi phạm thì sẽ
dẫn đến hiện tượng đa cộng tuyến.
Đa cộng tuyến là hiện tượng các biến độc lập
trong mô hình phụ thuộc tuyến tính lẫn nhau, thể
hiện được dưới dạng hàm số
2. PHÂN LOẠI ĐA CỘNG TUYẾN
Đa cộng tuyến hoàn hảo:
Đa cộng tuyến không hoàn hảo:
1
0 khoâng ñoàng thôøi baèng 0 sao cho
i
k
ii Xi
1
0
k
iii X Vi
Ví dụ:
X1 X2 X3
10 50 52
15 75 78
18 90 93
24 120 121
11 55 57
• Ta thấy (X2)=5(X1). Vậy xảy
ra đa cộng tuyến hoàn hảo
giữa X2 và X1.
• X3 5(X1) + 2 . Vậy xảy ra
đa cộng tuyến không hoàn
hảo giữa X3 và X1.
3. HẬU QUẢ CỦA ĐA CỘNG TUYẾN
Khi xảy ra đa cộng tuyến hoàn hảo: không xác định được các hệ
số . (Thông thường không xảy ra trường hợp này)
Khi xảy ra đa cộng tuyến không hoàn hảo:
1. Phương sai var(^) lớn khoảng tin cậy các hệ số lớn vẫn
xác được các nhưng không chính xác, dấu có thể sai.
2. Mâu thuẫn giữa kiểm định t và F:
Se (^) lớn t nhỏ, tăng khả năng chấp nhận Ho
Biến X không ảnh hưởng đến Y
R2 cao F lớn bác bỏ Ho của thống kê F
các biến X có ảnh hưởng đến Y
3. Khi thay đổi độ lớn của dữ liệu hoặc khi thêm vào (bớt đi) biến
cộng tuyến, thì mô hình sẽ thay đổi về dấu hoặc độ lớn các hệ số
ước lượng.
0
1
: 0(1)
: 0
i
i
H
H
2
0
2
1
: 0(2)
: 0
H R
H R
4. CÁCH PHÁT HIỆN ĐA CỘNG TUYẾN
Phương pháp 1:
Dấu của ^ mâu thuẫn với lý thuyết kinh tế
Mâu thuẫn : R2 lớn, t nhỏ ( hậu quả thứ 2 của đa
cộng tuyến)
VÍ DỤ 1 Khảo sát chi tiêu, thu nhập và mức độ giàu có,
người ta thu được kết quả sau:
Trong đó: Y: chi tiêu ($), X2: thu nhập ($), X3:
mức độ giàu có ($)
Có cơ sở để cho rằng mô hình trên xảy ra hiện
tượng cộng tuyến không? Vì sao?
Dependent Variable: Y
Variable Coefficient Std. Error t-Statistic Prob.
C 24.77473 6.752500 3.668972 0.0080
X2 0.941537 0.822898 1.144172 0.2902
X3 -0.042435 0.080664 -0.526062 0.6151
R-squared 0.963504
Adjusted R-squared 0.953077
F-statistic 92.40196
Prob(F-statistic) 0.000009
GIẢI
Hệ số hồi quy của biến X3 là (-0,042435) không phù hợp
lý thuyết kinh tế vì …
P_value ứng với X2 = 0,2902
P_value ứng với X3 = 0,6151
X2 và X3 không có ý nghĩa (1)
R2 = 0,963504 , khá lớn mô hình có ý nghĩa (2)
(1) và (2) mâu thuẫn với nhau
Các dấu hiệu này cho thấy có thể có hiện tượng cộng
tuyến xảy ra trong mô hình trên
Để khẳng định có đa cộng tuyến hay không, ta dùng
các phương pháp sau:
Phương pháp 2:
Hệ số tương quan giữa cặp biến giải thích cao
(> 0,7 là xem như có đa cộng tuyến)
Ví dụ 1.1:
Hệ số tương quan giữa X2 và X3 là 0,9989 (rất cao)
đa cộng tuyến gần hoàn hảo
4. CÁCH PHÁT HIỆN ĐA CỘNG TUYẾN
Phương pháp 3. Dùng mô hình hồi quy phụ
Hồi quy giữa 1 biến giải thích Xj với các biến giải
thích còn lại. Tính Rj2 và Fj của mô hình hồi quy
phụ
Kiểm định
Nếu bác bỏ Ho thì có xảy ra đa cộng tuyến.
2
0
2
1
: 0
: 0
j
j
H R
H R
0
1
:
:
khoâng co ùña coäng tuyeán
co ùña coäng tuyeán
H
H
VÍ DỤ 1.2:
Xét mô hình hồi quy phụ sau:
Mô hình hồi quy ở ví dụ 1 có hiện tượng cộng tuyến
hay không?
Dependent Variable: X2
Variable Coefficient Std. Error t-Statistic Prob.
C -0.386271 2.897956 -0.133291 0.8973
X3 0.097923 0.001578 62.04047 0.0000
R-squared 0.997926
Adjusted R-squared 0.997667
F-statistic 3849.020
Prob(F-statistic) 0.000000
GIẢI
Trong mô hình hồi quy phụ X2 theo X3 ta thấy:
Dựa vào F=3849,02 và Prob(F-statistic)=0,000
bác bỏ giả thiết Ho : R2 = 0.
Vậy X3 có ảnh hưởng đến X2 có xảy ra hiện tượng
đa cộng tuyến.
Phương pháp 4: Dùng nhân tử phóng đại phương sai
Trong đó Rj2 là hệ số xác định trong hàm hồi quy phụ
Xj theo các biến giải thích còn lại trong mô hình.
Nếu VIF > 10 thì có đa cộng tuyến.
Ví dụ 1.3:
Tính nhân tử phóng đại phương sai cho ví dụ 1.2 và
đưa ra kết luận về hiện tượng cộng tuyến?
Giải:
VIF rất lớn xảy ra cộng tuyến giữa X2 và X3
j 2
1VIF
1j
R
1VIF 482,1601
1 0,997926
5. KHẮC PHỤC ĐA CỘNG TUYẾN
1. Sử dụng thông tin tiên nghiệm
2. Loại trừ 1 biến giải thích ra khỏi mô hình
3. Thu thập thêm số liệu hoặc lấy mẫu mới
4. Sử dụng sai phân cấp 1
…
5. KHẮC PHỤC ĐA CỘNG TUYẾN
2. Loại trừ 1 biến giải thích ra khỏi mô hình
Xác định các biến cộng tuyến với nhau,
Tìm hệ số xác định hiệu chỉnhR2 của mô
hình: có tất cả biến, không có mặt 1 biến cộng
tuyến.
Dùng hệ số xác định hiệu chỉnhR2 để xác
định biến cộng tuyến nào là biến cần loại bỏ
khỏi mô hình
VÍ DỤ 1.4 Hồi quy Y theo X2:
Hồi quy Y theo X3:
Dependent Variable: Y
Variable Coefficient Std. Error t-Statistic Prob.
C 24.45455 6.413817 3.812791 0.0051
X2 0.509091 0.035743 14.24317 0.0000
R-squared 0.962062
Adjusted R-squared 0.957319
Dependent Variable: Y
Variable Coefficient Std. Error t-Statistic Prob.
C 24.41104 6.874097 3.551164 0.0075
X3 0.049764 0.003744 13.29166 0.0000
R-squared 0.956679
Adjusted R-squared 0.951264
ỨNG DỤNG PHÂN TÍCH BÀI TOÁN
Nghiên cứu xe hơi , ta có 3 biến sau:
Cost: chi phí bảo trì xe
Miles: số dặm chiếc xe đã chạy ( ngàn dặm)
Age: tuổi của chiếc xe từ khi mua lần đầu
Chi phí bảo trì xe phụ thuộc vào 2 biến còn lại.
Xét 3 mô hình sau:
1) Cost = 1 + 2 Age + u1
2) Cost = 1 + 2 Miles + u2
3) Cost = 1 + 2 Age + 3 Miles + u3
Bạn kì vọng dấu của các hệ số trong 3 mô hình trên như thế nào?
Hãy so sánh kì vọng dấu của bạn với kết quả Eview sau đây
Số liệu
Dependent Variable: COST Included observations: 57
Variable Coefficient Std. Error t-Statistic Prob.
C -625.9350 104.1496 -6.009962 0.0000
AGE 7.343478 0.329580 22.28136 0.0000
========================================================
R-squared 0.900265 Adjusted R-squared 0.898451
Dependent Variable: COST Included observations: 57
Variable Coefficient Std. Error t-Statistic Prob.
C -796.0746 134.7449 -5.908011 0.0000
MILES 53.45072 2.926144 18.26661 0.0000
===========================================================
R-squared 0.858491 Adjusted R-squared 0.855919
Dependent Variable: COST Included observations: 57
Variable Coefficient Std. Error t-Statistic Prob.
C 26.18876 114.2012 0.229321 0.8195
AGE 28.01629 2.775576 10.09387 0.0000
MILES -154.6346 20.68817 -7.474543 0.0000
R-squared 0.950980 Adjusted R-squared 0.949165
Nhận xét sự tương quan tuyến tính giữa các biến giải
thích?
Điều gì đã gây nên hiện tượng sai dấu của hệ số ứng với
Miles trong mô hình 3?
Ta nên bỏ biến nào khỏi mô hình 3?
Bạn chọn mô hình nào trong 3 mô hình trên?
II. PHƯƠNG SAI THAY ĐỔI
1. Phương sai của sai số thay đổi là gì?
Theo giả thiết A2: var(Ui) = 2 = const : phương sai của
sai số không đổi
Khi vi phạm giả thiết : var(Ui) = i2 const phương sai
của sai số thay đổi
2. HẬU QUẢ KHI XẢY RA PHƯƠNG SAI THAY ĐỔI
Việc ước lượng, kiểm định mô hình không còn
chính xác.
Các hệ số của hàm hồi quy không chính xác.
Các kiểm định t và F không còn hiệu quả nữa.
2
2Var ar
kikk
iU vS
3. PHÁT HIỆN PHƯƠNG SAI THAY ĐỔI
Phương pháp đồ thị
Dùng đồ thị của 2 biến trong mô hình, hoặc ei , ei2 với
một biến trong mô hình
Dùng Eview: Sau khi tìm được hàm hồi quy, vẽ đồ thị
của resid hoặc resid2 với 1 biến trong mô hình
(quick/graph/scatter), xem xét đồ thị
Các dạng đồ thị có thể gặp:
Phương sai không đổi Phương sai thay đổi
Phương sai không đổi Phương sai thay đổi
Phương sai không đổi Phương sai thay đổi
VÍ DỤ 1
Nghiên cứu tiền lương theo số năm làm việc, người ta thu được
các đồ thị sau. Hãy cho nhận xét về các đồ thị này?
Đồ thị phần dư
Resid2= resid ^ 2
Phương pháp kiểm định White
Xét mô hình hồi quy 3 biến
Bước 1: Ước lượng hàm hồi quy, thu được ei
Bước 2: Ước lượng mô hình sau
1 2 2 3 3 Y X X ui ii i
2
2 2
4 5 6
1 2 2 3 3
2 3 2 3
e X Xi i i
X X X X Vii i i i
4. KIỂM ĐỊNH PHƯƠNG SAI SAI SỐ THAY ĐỔI
BƯỚC 3: kiểm định giả thiết
Ho: “ không có hiện tượng phương sai thay đổi” ;
H1: “ có hiện tượng phương sai thay đổi”,
1) Tính giá trị thống kê (n.R2), trong đó n là cỡ mẫu và R2
là hệ số xác định của mô hình hồi quy phụ ở bước 2.
2) Tra bảng phân phối Chi bình phương, 2 ( ) k
2 2 ( )nR k3) Nếu thì bác bỏ giả thiết Ho, kết
luận có hiện tượng phương sai thay đổi.
0 1 2 6
1
: ... 0
: 0
j
H
H
Phương pháp dùng Eview kiểm định White:
Bước 1: tìm hàm hồi quy dựa trên mẫu cho sẵn.
Bước 2: trong cửa số Equation, View / Residual
Test / White heteroskedasticity (no cross terms)
hoặc White heteroskedasticity (cross terms)
Kiểm tra bằng White test
Ví dụ 1.1: Xác định có hiện tượng phương sai
sai số thay đổi hay không?
TA ĐƯỢC KẾT QUẢ
White Heteroskedasticity Test:
F-statistic 10.66382 Probability 0.000038
Obs*R-squared 19.70117 Probability 0.000053
Ta thấy xác suất rất nhỏ, nhỏ hơn 0,1 bác bỏ Ho có hiện
tượng phương sai sai số thay đổi
5. KHẮC PHỤC PHƯƠNG SAI THAY ĐỔI
Phương pháp bình phương nhỏ nhất có trọng số
Ý tưởng của phương pháp: Bộ dữ liệu thu được ban đầu
có hiện tượng phương sai thay đổi, do đó các ước lượng
không còn chính xác nữa. Để tìm được hàm hồi quy, ta
cần tìm bằng cách tạo một bộ dữ liệu mới = dữ
liệu cũ chia cho trọng số.
Trọng số là số được tạo ra từ nguyên nhân gây ra phương
sai thay đổi
1 2ˆ ˆ,
1 2ˆ ˆ,
Xét mô hình hồi quy 3 biến
Chia cả 2 vế của phương trình này cho i
Ta có
Đặt , w gọi là trọng số
1 2 2 3 3 Y X X ui ii i
2 3/1 2 3
i i i i
X XY ui i i ii
** * *2 3 3
'1 2
i ii iY X X u
2
2 2
* ar1
ii i
i i i
i
V uuVar u Var
1
i
i
w
Cách thực hành trên Eview:
B1: tạo trọng số w hoặc
B2: Khi thực hiện tìm hàm hồi quy, trong cửa sổ Equation,
chọn Option.
B3: Trong cửa sổ Option, chọn Weighted LS/TSLS, trong cửa
sổ Weight điền trọng số W
1
| |i
i
we
1i
i
wX
VÍ DỤ 1.2: HÃY KHẮC PHỤC HIỆN TƯỢNG
PHƯƠNG SAI THAY ĐỔI TRONG VÍ DỤ TRÊN?
B1: tạo trong số w : Genr/ trong cửa sổ Genr gõ câu lệnh
w=1/abs(resid)
B2: Hồi quy biến tienluong theo snlv, ta có cửa sổ
Equation:
Chọn
Option
Nhấn OK ta có :
Chọn phương pháp
bình phương nhỏ
nhất có trọng số
Chọn
trọng số
là w
Nhấn OK,
OK ta có:
Bạn có nhận
xét gì về độ
phù hợp của
mô hình có
trọng số?
ỨNG DỤNG PHÂN TÍCH BÀI TOÁN
Điều tra về chi tiêu cho vận chuyển, người ta thấy chi phí này
phụ thuộc thu nhập cá nhân và dân số. Thực hiện hồi quy, người
ta thu được kết quả sau:
CPDICHUYEN = 1+ 2 *THUNHAP (1)
Dependent Variable: CPDICHUYEN
Method: Least Squares
Included observations: 50
Variable Coefficient Std. Error t-Statistic Prob.
C 0.638222 0.601100 1.061756 0.2938
THUNHAP 0.016967 0.025742 0.659142 0.5130
R-squared 0.751800
Adjusted R-squared 0.741238
Tiến hành kiểm tra phương sai thay đổi, ta có kết quả:
Ta thấy 1 vùng có dân số lớn thì chi phí di chuyển cũng biến đổi nhiều hơn so với vùng ít dân cư. Vậy ta có thể nói chính dân số gây ra phương sai thay đổi cho biến cpdichuyen
Chia phương trình (1) cho biến dân số, ta có:
CPDICHUYEN/DANSO = 1/DANSO+ 2 *THUNHAP/DANSO
=0.738(1/DANSO)+0.059(THUNHAP/DANSO)
PHƯƠNG TRÌNH NÀY ĐƯỢC TẠO BẰNG PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT CÓ TRỌNG SỐ
Vậy thay vì hồi quy biến cpdichuyen và thunhap, người ta sẽ tiến hành hồi quy chi phí di chuyển trung bình trên đầu người theo thu nhập bình quân đầu người.
White Heteroskedasticity Test:
F-statistic 2.490217 Probability 0.035297
Obs*R-squared 11.02821 Probability 0.040824
III. TỰ TƯƠNG QUAN
1. TỰ TƯƠNG QUAN LÀ GÌ?
Khi giả thiết A3 bị vi phạm sẽ dẫn đến hiện
tượng tự tương quan
Tự tương quan (Tương quan chuỗi) là hiện
tượng tương quan giữa các phần dư (sai số)
Khi các sai số có quan hệ phụ thuộc lẫn nhau
tự tương quan
Tương quan chuỗi bậc 1
ut = ρ1 ut-1 + νt
Tương quan chuỗi bậc 2
ut = ρ1 ut-1 + ρ2 ut-2 + νt
ρ < 0: tương quan chuỗi âm
ρ = 0: không có tương quan chuỗi
ρ > 0: tương quan chuỗi dương
2. HẬU QUẢ KHI XẢY RA TỰ TƯƠNG QUAN
Các hệ số của hàm hồi quy không chính
xác.
Việc ước lượng, kiểm định mô hình không
tin cậy được.
Các kiểm định t và F không còn hiệu quả
nữa.
3. PHÁT HIỆN TỰ TƯƠNG QUAN
Phương pháp đồ thị
Vẽ đồ thị phần dư ei theo thời gian
Dùng Eview: Sau khi tìm được hàm hồi quy, vẽ
đồ thị của resid với biến t (quick/graph/scatter),
sau đó xem xét đồ thị
CÁC DẠNG ĐỒ THỊ THỂ HIỆN CÓ TỰ TƯƠNG QUAN
ei
t
ei
t
ei
t
ei
t
VÍ DỤ 1:
Một quốc gia nghiên
cứu về tỉ lệ dân nông
nghiệp từ năm 1948
đến 1991
Sau khi tìm hàm hồi
quy, người ta vẽ đồ thị
phần dư
Nhận xét đồ thị?
4. KIỂM ĐỊNH TỰ TƯƠNG QUAN
Phương pháp Dubin – Watson
Tính d=2(1- ρ) , 0 < d < 4
Quy tắc kết luận theo kinh nghiệm:
Dùng Eview: Sau khi tìm được hàm hồi
quy, dựa vào hệ số Durbin – Watson để kết
luận
Có tự tương
quan dương Không có tự tương
quan Có tự tương
quan âm
0 1 3 4
VÍ DỤ 1.2: DỰA VÀO BẢNG KẾT QUẢ HỒI QUY, CÓ KẾT
LUẬN GÌ VỀ HIỆN TƯỢNG TỰ TƯƠNG QUAN?
Phương pháp 2: Kiểm định Breusch – Godfrey (BG)
Cách thực hiện trên Eview:
B1: Ho “ không tồn tại tự tương quan”
B2: Trên cửa sổ Equation, chọn View / Residual
Test/Serial Corelation LM Test
B3: xuất hiện cửa sổ Lag Secification
Nhập 1 nếu muốn
kiểm tra tương quan
bậc 1, 2 nếu muốn
kiểm tra tương quan
bậc 2
VÍ DỤ 1.3: DÙNG KIỂM ĐỊNH BG, CÓ KẾT LUẬN GÌ VỀ
HIỆN TƯỢNG TỰ TƯƠNG QUAN Ở VÍ DỤ TRÊN ?
5. KHẮC PHỤC TỰ TƯƠNG QUAN
1. Thay đổi dạng mô hình
2. Phương pháp làm trễ pha các biến
Khi thực hiện hàm hồi quy trên Eview, ta thêm vào kí
hiệu của tự tương quan bậc 1 là AR(1)