Multiple Linear Regression

9
1 HỒI QUY TUYẾN TÍNH ĐA BIẾN Lê Tn Phùng * Khái niệm Hi quy tuyến tính đa biến (Multiple Linear Regression, viết tt là MLR) ging như hi quy tuyến tính đơn, chkhác chthay vì chcó 1 biến độc lp thì hi quy tuyến tính đa biến có t2 biến độc lp trlên. Mi biến độc lp có hsđộ dc (slope) riêng ca nó. Phương trình hi quy tuyến tính đa biến có thđược biu din như sau: Y i = β 0 + β 1 X i1 + β 2 X i2 +…+ β n X in + ε i Các bước phân tích MLR Bước 1: Ước lượng phương trình hi quy (model) Bước 2: Đánh giá mô hình. Bao gm: 1. Ý nghĩa thng kê ca mô hình (ANOVA F test) 2. Kho sát ý nghĩa ca tng biến độc lp (X i ) 3. Kim tra giđịnh (assumptions) ca mô hình, còn gi là kim tra tính giá trca mô hình (model validity). Bao gm: a. Phân tích phn dư: Phn dư có tính độc lp, phương sai ging nhau (gi là homoscedasticity), và trung bình bng zero. b. Tính phân phi bình thường ca phn dư c. Multicollinearity 4. Gii thích Adj-R 2 5. Đơn gin hóa mô hình (Parsimony) Bước 3: Tiên đoán, bao gm: - Khong tin cy cho các hs(coefficicent) ca mô hình. - Test githuyết liên quan đến tng biến độc lp - Lượng giá (gauge) nh hưởng ca tng biến độc lp x i lên y: hsβ chun hóa (standardized β) * Bác sĩ, Thc sĩ Y tế công cng

description

Multiple Linear Regression

Transcript of Multiple Linear Regression

Page 1: Multiple Linear Regression

1

HỒI QUY TUYẾN TÍNH ĐA BIẾN

Lê Tấn Phùng*

Khái niệm

Hồi quy tuyến tính đa biến (Multiple Linear Regression, viết tắt là MLR) giống như hồi quy tuyến tính đơn, chỉ khác ở chỗ thay vì chỉ có 1 biến độc lập thì hồi quy tuyến tính đa biến có từ 2 biến độc lập trở lên. Mỗi biến độc lập có hệ số độ dốc (slope) riêng của nó. Phương trình hồi quy tuyến tính đa biến có thể được biểu diễn như sau:

Yi = β0 + β1Xi1 + β2Xi2 +…+ βnXin + εi

Các bước phân tích MLR

Bước 1:

Ước lượng phương trình hồi quy (model)

Bước 2:

Đánh giá mô hình. Bao gồm:

1. Ý nghĩa thống kê của mô hình (ANOVA F test) 2. Khảo sát ý nghĩa của từng biến độc lập (Xi) 3. Kiểm tra giả định (assumptions) của mô hình, còn gọi là kiểm tra tính giá trị của mô

hình (model validity). Bao gồm: a. Phân tích phần dư: Phần dư có tính độc lập, phương sai giống nhau (gọi là

homoscedasticity), và trung bình bằng zero. b. Tính phân phối bình thường của phần dư c. Multicollinearity

4. Giải thích Adj-R2 5. Đơn giản hóa mô hình (Parsimony)

Bước 3:

Tiên đoán, bao gồm:

- Khoảng tin cậy cho các hệ số (coefficicent) của mô hình. - Test giả thuyết liên quan đến từng biến độc lập - Lượng giá (gauge) ảnh hưởng của từng biến độc lập xi lên y: hệ số β chuẩn hóa

(standardized β)

* Bác sĩ, Thạc sĩ Y tế công cộng

Page 2: Multiple Linear Regression

2

Các ví dụ về hồi quy đa biến sử dụng Stata

Hồi quy đa biến được diễn giải thông qua 2 ví dụ với 2 mô hình khác nhau:

- Hồi quy tuyến tính đa biến với các biến độc lập đều là biến liên tục - Hồi quy đa biến với các biến độc lập có chứa cả biến liên tục lẫn biến phân loại

Ví dụ 1: Một khảo sát trên 25 học sinh về điểm học tập cuối khóa sau khi dự 3 bài kiểm tra tại 3 thời điểm khác nhau. Các biến này lần lượt được ký hiệu là final, exam1, exam2, và exam3. Tìm hiểu kết quả học tập cuối khóa có liên quan tuyến tính với điểm số của 3 bài kiểm tra hay không.

Trước hết, cần kiểm tra tính chất quan hệ tuyến tính của các biến với nhau bằng cách vẽ biểu đồ ma trận hình chấm cho 4 biến số này. Trong Stata, sử dụng lệnh graph matrix. Kết quả như hình bên dưới cho thấy quan hệ tuyến tính giữa các biến.

Bước 1: Ước lượng mô hình hồi quy. Chạy hồi quy với Stata, ta có kết quả sau đây:

. regress final exam1 exam2 exam3

Source | SS df MS Number of obs = 25

-------------+------------------------------ F( 3, 21) = 670.09

Model | 13731.5148 3 4577.17161 Prob > F = 0.0000

Residual | 143.445179 21 6.83072279 R-squared = 0.9897

-------------+------------------------------ Adj R-squared = 0.9882

Total | 13874.96 24 578.123333 Root MSE = 2.6136

------------------------------------------------------------------------------

final | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

exam1 | .3559382 .1213889 2.93 0.008 .1034962 .6083802

exam2 | .5425188 .1008495 5.38 0.000 .3327908 .7522467

exam3 | 1.167444 .1030141 11.33 0.000 .9532148 1.381674

_cons | -4.336102 3.764226 -1.15 0.262 -12.16424 3.492034

------------------------------------------------------------------------------

final

exam1

exam2

exam3

100

150

200

100 150 200

40

60

80

100

40 60 80 100

40

60

80

100

40 60 80 100

60

80

100

60 80 100

Page 3: Multiple Linear Regression

3

Bước 2: Đánh giá mô hình, bao gồm:

1. Ý nghĩa thống kê của mô hình: Mô hình hồi quy trên có ý nghĩa thống kê vì test F cho kết quả 670.09 và p = 0.000… (p trong kết quả trên được ký hiệu là Prob > F).

2. Kiểm tra ý nghĩa của các biến độc lập, tức là ý nghĩa của các hệ số gắn với nó. Nhìn vào kết quả hồi quy, ta thấy các hệ số gắn với các biến độc lập exam1, exam2 và exam 3 lần lượt là 0.3559, 0.5425, và 1.1674. Ta giải thích các hệ số này như sau: Khi điểm của bài kiểm tra exam1 tăng lên 1 đơn vị thì điểm cuối khóa (final) của học sinh đó tăng lên 0.3599 điểm với điều kiện là điểm số của exam1 và exam2 giữ không đổi. Các hệ số khác giải thích tương tự.

3. Kiểm tra các giả định của mô hình, đôi khi còn gọi là chẩn đoán hồi quy (Regression Diagnostics): Bao gồm kiểm tra tính chất tuyến tính của biến phụ thuộc với các biến độc lập; kiểm tra phần dư (phân phối bình thưởng, độc lập, có cùng phương sai). o Kiểm tra tính chất tuyến tính của biến phụ thuộc với các biến độc lập. Cách

đơn giản nhất là lập ma trận biểu đồ chấm. Kết quả này đã được thể hiện ở hình trên.

o Kiểm tra phần dư: Để kiểm tra tính phân phối bình thường của phần dư, ta vẽ biểu đồ phân phối kèm theo phân phối chuẩn để so sánh. Trong Stata, lệnh kdensity với option normal sẽ cho biểu đồ như hình dưới đây:

Để kiểm tra tính độc lập, cùng phương sai của phần dư, cách đơn giản là vẽ biểu đồ chấm của phần dư đối với các giá trị tiên đoán (fitted values) của biến phụ thuộc. Cụ thể trong ví dụ này ta vẽ biểu đồ chấm của r (phần dư) với fitted values của final. Stata có lệnh rvfplot để thực hiện biểu đồ này như hình dưới đây:

rvfplot, yline(0)

0.0

5.1

.15

.2D

ensity

-5 0 5 10Residuals

Kernel density estimate

Normal density

kernel = epanechnikov, bandwidth = .85

Kernel density estimate

Page 4: Multiple Linear Regression

4

Ta thấy rằng biểu đồ chấm không cho thấy một hình dạng hay xu hướng đặc biệt nào và các giá trị gần như xoay quanh trị trung bình bằng zero (đường ngang màu đỏ). Biểu đồ này gợi ý một phần dư độc lập, có phương sai bằng nhau và trung bình bằng zero.

4. Kiểm tra multicollinearity: Stata dùng lệnh vif (Variance Inflation Factor) để tính toán giá trị VIF. Kết quả cho thấy cả 3 biến đều có VIF>5. Do đó, cần phải kiểm tra lại các biến độc lập này. Tuy nhiên, thông thường VIF<5 là tốt, VIF từ 5-10 có thể chấp nhận được, nhưng cần phải xem xét lại khi VIF>10.

. vif

Variable | VIF 1/VIF

-------------+----------------------

exam1 | 7.81 0.128093

exam2 | 5.59 0.178990

exam3 | 5.16 0.193750

-------------+----------------------

Mean VIF | 6.19

Bước 3:

- Khoảng tin cậy của các hệ số: Xem bảng kết quả hồi quy ở trên. - Lượng giá tính tác động của từng hệ số: Để xem xét mức tác động của từng biến số

độc lập đối với biến số phụ thuộc, trong hồi quy tuyến tính đa biến, người ta sử dụng hệ số beta chuẩn hóa (standardized coefficient).

Kết quả của stata cho hệ số chuẩn hóa trong ví dụ này (sử dụng tùy biến beta ngay sau lệnh regression) như sau:

-50

510

Re

sid

ua

ls

100 120 140 160 180 200Fitted values

Page 5: Multiple Linear Regression

5

. regress final exam1 exam2 exam3,beta

Source | SS df MS Number of obs = 25

-------------+------------------------------ F( 3, 21) = 670.09

Model | 13731.5148 3 4577.17161 Prob > F = 0.0000

Residual | 143.445179 21 6.83072279 R-squared = 0.9897

-------------+------------------------------ Adj R-squared = 0.9882

Total | 13874.96 24 578.123333 Root MSE = 2.6136

------------------------------------------------------------------------------

final | Coef. Std. Err. t P>|t| Beta

-------------+----------------------------------------------------------------

exam1 | .3559382 .1213889 2.93 0.008 .1817819

exam2 | .5425188 .1008495 5.38 0.000 .2821267

exam3 | 1.167444 .1030141 11.33 0.000 .5712626

_cons | -4.336102 3.764226 -1.15 0.262 .

------------------------------------------------------------------------------

Hệ số beta chuẩn hóa được thể hiện tại cột ngoài cùng bên phải dưới tên cột là “Beta”. Dựa vào hệ số chuẩn hóa này, ta có thể kết luận như sau: o Mức độ tác động của điểm số exam3 lớn hơn exam2 và exam2 lớn hơn exam1

đối với kết quả của điểm số cuối khóa (vì 0.5713>0.2821>0.1818) o Khi điểm số exam1 tăng lên 1 độ lệch chuẩn (chứ không phải 1 đơn vị như

trên) thì điểm số cuối khóa tăng lên 0.1818 độ lệch chuẩn. Cách giải thích tương tự cho exam2 và exam3.

Ví dụ 2: Một phân tích đa biến được thực hiện để tìm hiểu điểm hài lòng của bệnh nhân (trong giới hạn từ 26 đến 130 điểm) đối với các đặc điểm về tuổi, khoảng cách từ nhà đến bệnh viện và tình trạng hôn nhân. Các biến được ký hiệu theo thứ tự như sau: scalescore, age, distance_r, và marital. Khoảng cách từ nhà đến bệnh viện được chia thành 4 mức: từ 5km trở xuống, từ 5-10km, từ >10-20 km, và >20km. Tình trạng hôn nhân được chia làm 4 loại: độc thân, có gia đình, ly dị, góa.

Như vậy trong ví dụ này, các biến độc lập gồm có 1 biến liên tục (tuổi) và 2 biến phân loại (khoảng cách đến bệnh viện và tình trạng hôn nhân).

Để phân tích hồi quy này, điều cần thiết là phải biến đổi các biến phân loại thành nhiều biến nhị phân (dummy variable hoặc còn gọi là indicator variable). Ví dụ như đối với biến tình trạng hôn nhân có 4 giá trị khác nhau, ta có thể tạo thành các biến marital1, marital2, marital3, marital4 đại diện cho 4 giá trị của marital như sau:

Marital1: Có giá trị là 1 nếu độc thân, ngoài ra thì có giá trị là zero

Marital2: Có giá trị là 1 nếu đã có gia đình, ngoài ra thì có giá trị là zero

Marital3: Có giá trị là 1 nếu ly dị, ngoài ra thì có giá trị là zero

Marital4: Có giá trị là 1 nếu góa, ngoài ra thì có giá trị là zero

Việc tạo các biến nhị phân cho biến khoảng cách đến bệnh viện (distance_r) tương tự như trên. Như vậy, từ 1 biến phân loại có n giá trị khác nhau, ta tạo được n biến nhị phân khác nhau, mỗi biến chỉ có giá trị 0 hoặc 1.

Khi phân tích hồi quy, một biến nhị phân đóng vai trò như biến tham chiếu (để so sánh các biến nhị phân khác với biến tham chiếu này).

Page 6: Multiple Linear Regression

6

Trở lại ví dụ trên, phân tích hồi quy cho kết quả như sau:

Bước 1: Xác định mô hình hồi quy

. xi: regress scalescore age i.distance_r i.marital

i.distance_r _Idistance__1-4 (naturally coded; _Idistance__1 omitted)

i.marital _Imarital_1-4 (naturally coded; _Imarital_1 omitted)

Source | SS df MS Number of obs = 830

-------------+------------------------------ F( 7, 822) = 10.82

Model | 10080.4753 7 1440.0679 Prob > F = 0.0000

Residual | 109371.619 822 133.055498 R-squared = 0.0844

-------------+------------------------------ Adj R-squared = 0.0766

Total | 119452.095 829 144.091791 Root MSE = 11.535

------------------------------------------------------------------------------

scalescore | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

age | .0474926 .0276755 1.72 0.087 -.0068304 .1018155

_Idistance~2 | -1.441733 1.065138 -1.35 0.176 -3.532444 .6489789

_Idistance~3 | 3.085925 1.422831 2.17 0.030 .2931151 5.878735

_Idistance~4 | 6.846812 1.019919 6.71 0.000 4.844859 8.848764

_Imarital_2 | 1.3647 1.383331 0.99 0.324 -1.350578 4.079978

_Imarital_3 | 4.039166 4.593545 0.88 0.379 -4.977293 13.05562

_Imarital_4 | 4.446256 2.285178 1.95 0.052 -.039215 8.931728

_cons | 77.98277 1.558111 50.05 0.000 74.92442 81.04111

------------------------------------------------------------------------------

Lưu ý: Lệnh hồi quy trên được thực hiện trên Stata 10. Đối với Stata từ 12 trở đi thì không cần sử dụng tiền tố xi: trước lệnh regression nữa.

Giải thích một số ký hiệu:

Trong ví dụ trên, các biến _Idistance~2, _Idistance~3 và _Idistance~4 được tạo ra từ biến distance_r. Không có sự hiện diện của biến _Idistance~1, vì _Idistance~1 đóng vai trò như biến tham chiếu (reference variable) cho nên không thể hiện trong bảng kết quả. Như vậy, các hệ số kèm theo các biến này thể hiện sự so sánh trực tiếp với biến tham chiếu, có nghĩa là _Idistance~2 so sánh với _Idistance~1, _Idistance~3 so sánh với _Idistance~1, và _Idistance~4 so sánh với _Idistance~1. Tình huống tương tự như vậy đối với biến _Imarital_2, _Imarital_3 và _Imarital_4.

Bước 2:

- Ý nghĩa của mô hình: Dựa vào kết quả trên, ta thấy test F = 10.82, và p = 0.000 (p trong kết quả trên chính là ký hiệu Prob > F). Như vậy, mô hình có ý nghĩa thống kê (p < 0.01).

- Giải thích từng hệ số gắn với các biến độc lập của mô hình: Ổ đây ta có các hệ số tương ứng với tuổi (age), khoảng cách đến bệnh viện (distance_r), và tình trạng hôn nhân (marital). Kết quả trên được giải thích như sau:

o Khi đối tượng (bệnh nhân) tăng lên 1 tuổi thì điểm số hài lòng của người đó tăng lên 0.047 điểm.

o Đối với biến khoảng cách đến bệnh viện (distance_r) thì chỉ có nhóm 3 và nhóm 4 là khác nhau có ý nghĩa thống kê so với nhóm 1 (p = 0,030 và 0,000). Do đó, có thể nói nhóm 3 (từ >10-20km) có điểm hài lòng hơn nhóm 1 (≤5km) là 3.01 điểm; nhóm 4 (>20km) có điểm hài lòng hơn nhóm 1 là 6.85 điểm.

Page 7: Multiple Linear Regression

7

o Đối với biến tình trạng hôn nhân, không có nhóm nào khác với nhóm 1 (độc thân) một cách có ý nghĩa thống kê (p >0.05).

- Giải thích Adj-R2: Kết quả cho thấy R2 = 0.0766, tức là khoảng 7.7 % biến thiên của scalescore được giải thích bởi mô hình này.

- Phân tích phần dư: o Phân phối bình thường của phần dư: Được khẳng định qua hình dưới đây được

thực hiện bởi lệnh kdensity r (r ký hiệu cho phần dư):

o Tính đồng phương sai và độc lập: Được khẳng định qua hình bên dưới thông qua lệnh rvfplot, yline(0):

0.0

1.0

2.0

3.0

4D

ensity

-40 -20 0 20 40Residuals

Kernel density estimate

Normal density

kernel = epanechnikov, bandwidth = 2.55

Kernel density estimate

-40

-20

020

40

Re

sid

ua

ls

75 80 85 90 95Fitted values

Page 8: Multiple Linear Regression

8

- Kiểm tra multicollinearity: Sử dụng lệnh vif như trên sau khi phân tích hồi quy cho thấy không có biến nàoo có VIF>5. Do đó không có hiện tượng multicollinearity,

. vif

Variable | VIF 1/VIF

-------------+----------------------

_Imarital_4 | 2.05 0.487912

_Imarital_2 | 1.76 0.568755

age | 1.33 0.751877

_Idistance~2 | 1.18 0.849218

_Idistance~4 | 1.17 0.851353

_Idistance~3 | 1.14 0.879844

_Imarital_3 | 1.10 0.908484

-------------+----------------------

Mean VIF | 1.39

Bước 3:

- Khoảng tin cậy cho từng hệ số: Xem bảng kết quả hồi quy ở trên. - Lượng giá tính tác động của từng biến độc lập: Dựa trên kết quả chuẩn hóa tương tự

như ví dụ 1. Sử dụng option beta sau lệnh regression sẽ cho kết quả hệ số chuẩn hóa như sau:

. xi: regress scalescore age i.distance_r i.marital,beta

i.distance_r _Idistance__1-4 (naturally coded; _Idistance__1 omitted)

i.marital _Imarital_1-4 (naturally coded; _Imarital_1 omitted)

Source | SS df MS Number of obs = 830

-------------+------------------------------ F( 7, 822) = 10.82

Model | 10080.4753 7 1440.0679 Prob > F = 0.0000

Residual | 109371.619 822 133.055498 R-squared = 0.0844

-------------+------------------------------ Adj R-squared = 0.0766

Total | 119452.095 829 144.091791 Root MSE = 11.535

------------------------------------------------------------------------------

scalescore | Coef. Std. Err. t P>|t| Beta

-------------+----------------------------------------------------------------

age | .0474926 .0276755 1.72 0.087 .0660505

_Idistance~2 | -1.441733 1.065138 -1.35 0.176 -.0490217

_Idistance~3 | 3.085925 1.422831 2.17 0.030 .07717

_Idistance~4 | 6.846812 1.019919 6.71 0.000 .2428217

_Imarital_2 | 1.3647 1.383331 0.99 0.324 .0436584

_Imarital_3 | 4.039166 4.593545 0.88 0.379 .0307896

_Imarital_4 | 4.446256 2.285178 1.95 0.052 .0929658

_cons | 77.98277 1.558111 50.05 0.000 .

------------------------------------------------------------------------------

Kết quả trên cho thấy mức độ tác động của khoảng cách đến bệnh viện >20km là có tác động lớn nhất đến điểm số hài lòng của bệnh nhân (hệ số beta chuẩn hóa là 0.24).

TÀI LIỆU THAM KHẢO CHÍNH

Bài giảng của lớp Phương pháp nghiên cứu định lượng nâng cao (Advanced Qualitative Research Methods), ký hiệu HLN706, Queensland University of Technology, Australia.

Page 9: Multiple Linear Regression

9

Chen, X., Ender, P., Mitchell, M. and Wells, C. (2003). Regression with Stata, from http://www.ats.ucla.edu/stat/stata/webbooks/reg/default.htm