Logistic Regression.pdf

8
1 HI QUY LOGISTIC Lê Tn Phùng * NHỮNG THÔNG TIN CƠ BẢN 1. Mô hình hi quy logistic gm 3 loi chính: - Hi quy logistic nhbiến (binary logistic regression), hay gọi đơn giản là hi quy logistic. Đây là mô hình hay gặp nht và hay sdng nht trong các nghiên cu. Mô hình này có biến phthuc là biến nhphân, có nghĩa là biến chcó 2 giá trmà thôi. Ví dnhư sống hay chết, có bnh hay không có bnh, thành công hay tht bại, phơi nhiễm hay không phơi nhiễm. - Hồi quy logistic định danh (nominal logistic regression): Khi biến phthuc là mt biến định danh có trên 2 giá tr. Ví dnhư biến phthuc là nghnghip thì các giá trcó thcó là nông dân, công nhân, cán bộ, hưu trí. Các giá trnày thường không mang tính xếp loi hoc tht. - Hi quy logistic tht(ordinal logistic regression): Khi biến phthuc có trên 2 giá trvà các giá trnày có tính xếp loi hoc tht. Ví d, biến “nhận thức” có thể phân loi thành cao, trung bình, thp; biến kết quđiều trcó thphân loi tt, trung bình, kém v.v... Hai loi hồi quy sau được gi là hồi quy đa giá tr(polytomous logistic regression). Bài viết này chnói vhi quy logistic nhbiến, thường vẫn được gi tt là hi quy logistic. 2. Hi quy logistic là: - Hồi quy kinh điển nhất, được xây dng cho biến phthuc là biến nhphân. - Liên quan đến xây dng mô hình cho tsut chênh (OR) - Sdng hàm ni là hàm logit (xem hàm ni trong bài Generalized Linear Models), được biu diễn như sau: 3. Cách trình bày kết quhi quy logistic - Thng kê mô t: tlphần trăm, các sđếm khác liên quan đến sliu - Tlgia các nhóm - Không bao gitrình bày hsbeta mà chtrình bày tsut chênh (OR). Tsut chênh này chính là cơ số e lũy thừa beta: OR = e β - Tsut chênh thô (Crude Odd Ratios) - Tsut chênh hiu chnh (Adjusted Odd Ratios) và khong tin cy 95% * Bác sĩ, Thạc sĩ Y tế công cng n n controls cases x x odds odds ... log 1 1 0

description

Logistic Regression

Transcript of Logistic Regression.pdf

Page 1: Logistic Regression.pdf

1

HỒI QUY LOGISTIC

Lê Tấn Phùng*

NHỮNG THÔNG TIN CƠ BẢN 1. Mô hình hồi quy logistic gồm 3 loại chính:

- Hồi quy logistic nhị biến (binary logistic regression), hay gọi đơn giản là hồi quy

logistic. Đây là mô hình hay gặp nhất và hay sử dụng nhất trong các nghiên cứu. Mô

hình này có biến phụ thuộc là biến nhị phân, có nghĩa là biến chỉ có 2 giá trị mà thôi.

Ví dụ như sống hay chết, có bệnh hay không có bệnh, thành công hay thất bại, phơi

nhiễm hay không phơi nhiễm.

- Hồi quy logistic định danh (nominal logistic regression): Khi biến phụ thuộc là một

biến định danh có trên 2 giá trị. Ví dụ như biến phụ thuộc là nghề nghiệp thì các giá

trị có thể có là nông dân, công nhân, cán bộ, hưu trí. Các giá trị này thường không

mang tính xếp loại hoặc thứ tự.

- Hồi quy logistic thứ tự (ordinal logistic regression): Khi biến phụ thuộc có trên 2 giá

trị và các giá trị này có tính xếp loại hoặc thứ tự. Ví dụ, biến “nhận thức” có thể phân

loại thành cao, trung bình, thấp; biến kết quả điều trị có thể phân loại tốt, trung bình,

kém v.v...

Hai loại hồi quy sau được gọi là hồi quy đa giá trị (polytomous logistic regression). Bài viết

này chỉ nói về hồi quy logistic nhị biến, thường vẫn được gọi tắt là hồi quy logistic.

2. Hồi quy logistic là:

- Hồi quy kinh điển nhất, được xây dựng cho biến phụ thuộc là biến nhị phân.

- Liên quan đến xây dựng mô hình cho tỉ suất chênh (OR)

- Sử dụng hàm nối là hàm logit (xem hàm nối trong bài Generalized Linear Models),

được biểu diễn như sau:

3. Cách trình bày kết quả hồi quy logistic

- Thống kê mô tả: tỉ lệ phần trăm, các số đếm khác liên quan đến số liệu

- Tỉ lệ giữa các nhóm

- Không bao giờ trình bày hệ số beta mà chỉ trình bày tỉ suất chênh (OR). Tỉ suất chênh

này chính là cơ số e lũy thừa beta: OR = eβ

- Tỉ suất chênh thô (Crude Odd Ratios)

- Tỉ suất chênh hiệu chỉnh (Adjusted Odd Ratios) và khoảng tin cậy 95%

* Bác sĩ, Thạc sĩ Y tế công cộng

nn

controls

cases xxodds

odds

...log 110

Page 2: Logistic Regression.pdf

2

- Giải thích ý nghĩa

- Vẽ biểu đồ nếu có sự tương tác (interaction).

VÍ DỤ MINH HỌA HỒI QUY LOGISTIC Ví dụ dưới đây sẽ minh họa cho hồi quy logistic sử dụng 2 phần mềm thống kê thông dụng là

SPSS và STATA. Để tiện theo dõi và so sánh, chỉ 1 ví dụ sẽ được phân tích trên 2 phần mềm

khác nhau.

Bộ số liệu có tên hsb2 được download từ trang web của trường UCLA theo địa chỉ dưới đây:

http://www.ats.ucla.edu/stat/data/hsb2.sav

Bộ số liệu tập hợp các thông tin của 200 học sinh cùng điểm số học tập, gồm những biến sau

đây:

id: ID của học sinh

female: Giới tính của học sinh, bằng 1 nếu là nữ, bằng 0 nếu là nam

race: Dân tộc, bao gồm 1: Gốc Tây ban nha, 2: Gốc châu Á, 3: Gốc châu Phi, 4: Da trắng

ses: Điều kiện kinh tế, từ thấp, trung bình, đến cao, tương ứng với các giá trị 1,2,3

schtyp: Loại trường, bằng 1 là trường công, bằng 2 là trường tư

prog: Chương trình học, bằng 1: tổng quát, 2: hàn lâm, 3: dạy nghề

read, write, math, science: Lần lượt là điểm các môn đọc, viết, toán, khoa học

socst: Điểm khoa học xã hội

Ta sẽ tạo một biến mới, đặt tên là honcomp được tạo ra từ biến write với điều kiện những

trường hợp nào có điểm write >=60 thì honcomp nhận giá trị 1, ngược lại sẽ nhận giá trị 0.

(honcomp là viết tắt của từ honors composition, tạm dịch là bài viết tốt). Như vậy honcomp là

biến nhị phân. Biến này sẽ đóng vai trò là biến phụ thuộc cho phân tích logistic regression

tiếp theo.

Câu hỏi đặt ra là tìm hiểu mối liên quan giữa tình trạng bài viết (tốt hay không tốt) với các

yếu tố liên quan là điểm đọc, điểm khoa học và điều kiện kinh tế của học sinh. Có nghĩa là ta

phải tìm mối liên quan giữa biến phụ thuộc là honcomp với 3 biến độc lập là read, science, và

ses. Trong 3 biến độc lập này, biến ses là biến phân loại, còn 2 biến còn lại là biến liên tục.

Phân tích bằng SPSS Sau khi mở file hsb2.sav, tạo mới biến honcomp theo tiêu chuẩn như trên.

Chạy logistic regression bằng cách: Analyze, Regression, Binary Logistic.

Chọn biến honcomp để cho vào khung Dependent. Sau đó chọn lần lượt các biến read,

science, và ses để cho vào khung Covariates.

Page 3: Logistic Regression.pdf

3

Do ses là biến phân loại cho nên ta cần chọn tiếp Categorical từ cửa sổ này. Cửa sổ mới xuất

hiện. Từ cửa sổ mới này, chọn biến ses trong khung Covariates ở bên trái để đưa sang khung

Categorical Covarites ở bên phải. Các mặc định giữ nguyên.

Chọn Continue.

Tiếp tục chọn Option, click chọn vào CI for exp(B). Chọn Continue, cuối cùng chọn OK.

Output của SPSS cho các kết quả sau đây:

Case Processing Summary

Unweighted Casesa N Percent

Selected Cases Included in Analysis 200 100.0

Missing Cases 0 .0

Total 200 100.0

Unselected Cases 0 .0

Total 200 100.0

a. If weight is in effect, see classification table for the total

number of cases.

Bảng trên cho kết quả sơ bộ về bộ số liệu: Có 200 trường hợp được đưa vào phân tích

(Included in Analysis), không có trường hợp nào bị mất số liệu (Missing cases), không có

trường hợp nào không được chọn (Unselected cases)

Dependent Variable Encoding

Original Value Internal

Value

.00 0

1.00 1

Bảng trên thông tin về mã hóa biến phụ thuộc (dependent variable) từ nguồn số liệu (Original

value) và thực tế mã hoá của SPSS (Internal Value). Cả 2 đều mã hoá như nhau.

Categorical Variables Codings

Frequency

Parameter coding

(1) (2)

ses low 47 1.000 .000

middle 95 .000 1.000

high 58 .000 .000

Bảng trên cho thông tin về mã hoá biến phân loại ses, kèm theo tần suất của từng giá trị

(Frequency).

Page 4: Logistic Regression.pdf

4

Block 0: Beginning Block

Classification Tablea,b

Observed Predicted

honors composition Percentage

Correct .00 1.00

Step 0 honors composition .00 147 0 100.0

1.00 53 0 .0

Overall Percentage 73.5

a. Constant is included in the model.

b. The cut value is .500

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 0 Constant -1.020 .160 40.540 1 .000 .361

Variables not in the Equation

Score df Sig.

Step 0 Variables read 47.906 1 .000

science 34.862 1 .000

ses 14.783 2 .001

ses(1) .302 1 .582

ses(2) 8.666 1 .003

Overall Statistics 58.644 4 .000

Ba bảng trên cho thông tin về Block 0, tức là thông tin phân tích khi không có biến độc lập

nào được đưa vào mô hình. Ta sẽ không quan tâm đến các bảng này vì ta đang muốn tìm hiểu

mô hình có đầy đủ 3 biến độc lập. Chính vì vậy, ở các bảng dưới đây sẽ cho kết quả của mô

hình có đầy đủ 3 biến độc lập. Các kết quả này được thể hiện dưới tiêu đề: Block 1. Phương

pháp hồi quy đang dùng là phương pháp Enter, tức là cho toàn bộ 3 biến độc lập vào mô hình

cùng một lúc. Phương pháp này phân biệt với các phương pháp backward, forward, stepwise,

block. Trong nội dung bài viết này, chỉ đề cập phương pháp enter.

Block 1: Method = Enter

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 65.588 4 .000

Block 65.588 4 .000

Model 65.588 4 .000

Bảng trên cho kết quả phân tích các hệ số của mô hình. Step 1 là bước thứ nhất trong chạy

mô hình logistic với SPSS. Vì ta chỉ dùng phương pháp Enter, cho nên chỉ có một bước mà

Page 5: Logistic Regression.pdf

5

thôi. Trường hợp dùng phương pháp block, stepwise thì kết quả sẽ cho thêm những bước

khác (step 2, step 3 v.v...).

Cột Chi-square và Sig. cho kết quả của test Chi bình phương và giá trị p. Tất cả các giá trị

Chi bình phương đều như nhau cho Step, Block và Model vì ta đang sử dụng phương pháp

Enter, không sử dụng phương pháp stepwise hoặc block. Kết quả bảng trên cho thấy giá trị p

nhỏ hơn 0.001 cho nên mô hình có ý nghĩa thống kê.

Cột df là độ tự do của mô hình.

Model Summary

Step

-2 Log likelihood

Cox & Snell R

Square

Nagelkerke R

Square

1 165.701a .280 .408

a. Estimation terminated at iteration number 6 because

parameter estimates changed by less than .001.

Bảng trên cho kết quả tóm tắt của mô hình. Cột “-2 Log likelihood” là giá trị -2 Log

Likelihood của mô hình (thường ký hiệu là -2LL). Giá trị này thường không cho nhiều thông

tin.

Hai cột “Cox & Snell R Square” và “Nagelkerke R Square” là giá trị của R2 giả (pseudo-R

2).

Hồi quy logistic không sử dụng giá trị R2 giả như trong trường hợp hồi quy tuyến tính. Các

giá trị này có thể dùng để so sánh các mô hình khác nhau trên cùng một bộ số liệu, cùng một

biến phụ thuộc để xem mô hình nào tốt hơn. Mô hình tốt hơn sẽ có R2

giả lớn hơn. Thông tin

liên quan đến R2 giả có thể tham khảo từ trang web của UCLA:

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/Psuedo_RSquareds.htm

Classification Tablea

Observed Predicted

honors composition Percentage

Correct .00 1.00

Step 1 honors composition .00 132 15 89.8

1.00 26 27 50.9

Overall Percentage 79.5

a. The cut value is .500

Bảng trên cho kết quả phân tích của biến phụ thuộc honcomp. Cột Observed cho kết quả về 2

giá trị của biến này: 0 và 1. Cột Predicted cho giá trị tiên đoán của biến honcomp dựa trên mô

hình. Bảng này cho giá trị tiên đoán đúng của mô hình so với thực tế quan sát. Như ví dụ trên,

mô hình đã tiên đoán đúng 132 trường hợp đối với honcomp bằng 0 và tiên đoán sai 15

trường hợp. Do đó, kết quả tiên đoán đúng là 89.8% (Cột Percentage Correct). Tương tự như

vậy đối với giá trị 1 của honcomp.

Page 6: Logistic Regression.pdf

6

Overall Percentage cho thấy tỉ lệ tiên đoán đúng của mô hình, trong trường hợp này là 79,5%.

So với kết quả Block 0 ở trên ,ta thấy mô hình tiên đoán tốt hơn (từ 73.5% lên 79.5%).

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

95% C.I.for EXP(B)

Lower Upper

Step 1a read .098 .025 15.199 1 .000 1.103 1.050 1.158

science .066 .027 5.867 1 .015 1.068 1.013 1.127

ses 6.690 2 .035

ses(1) .058 .532 .012 1 .913 1.060 .373 3.010

ses(2) -1.013 .444 5.212 1 .022 .363 .152 .867

Constant -9.561 1.662 33.112 1 .000 .000

a. Variable(s) entered on step 1: read, science, ses.

Bảng trên cho nhiều thông tin về mô hình liên quan đến các biến.

Cột “B” cho thông tin về giá trị của phương trình hồi quy logistic, hay nói cách khác, đó là hệ

số tương ứng với từng biến độc lập. Các giá trị này được tính là log odds, theo phương trình

dưới đây:

443322110)1

log( xbxbxbxbbp

p

Thay vào các giá trị của bảng trên, ta có phương trình logistic cho ví dụ trên:

)2(*013,1)1(*058,0*066,0*098,0561,9)1

log( sessessciencereadp

p

Phương trình trên cho ta biết mối liên hệ giữa biến phụ thuộc và các biến độc lập. Biến phụ

thuộc được tính theo thang đo của hàm logit. Các hệ số này cho ta biết sự tăng (giảm) của log

odds biến phụ thuộc là bao nhiêu khi tăng (giảm) 1 đơn vị của biến độc lập khi các biến độc

lập khác giữ nguyên giá trị. Tuy nhiên, do các hệ số của biến độc lập này được tính theo đơn

vị log odds, cho nên để dễ giải thích, người ta chuyển đổi sang Odds Ratio (OR), được biểu

hiện tại cột Exp(B).

Các cột S.E, Wald, df, Sig. là giá trị của sai số chuẩn (của hệ số), độ tự do, giá trị của test

Wald, và giá trị p.

Áp dụng OR để giải thích kết quả của ví dụ trên:

read: Odds của honcomp sẽ tăng lên 1,103 lần nếu điểm môn read tăng lên 1 đơn vị trong

trường hợp điểm của môn science và tình trạng kinh tế (ses) giữ nguyên giá trị.

Science: Odds của honcomp sẽ tăng lên 1,068 lần nếu điểm của môn science tăng lên 1 đơn

vị trong trường hợp điểm của môn read và tình trạng kinh tế (ses) giữ nguyên giá trị.

ses: Bảng phân tích cho thấy giá trị p của ses có ý nghĩa thống kê. Tuy nhiên, đối với biến ses

là biến phân loại, cách giải thích sẽ hơi khác. Lưu ý trong trường hợp này, biến ses được biến

Page 7: Logistic Regression.pdf

7

đổi thành các dummy variable với giá trị tham chiếu là giá trị 3 (thu nhập cao). Đặt giá trị nào

là giá trị tham chiếu được thực hiện ở mục Reference category (Last hay First) khi chọn mục

“Categorical...” từ cửa số lệnh binary logistic cho biến này.

Tuy nhiên, không có kết quả OR cho ses vì bản thân ses không được đưa vào mô hình do ses

đã được biến đổi thành các dummy variables. Kết quả cho thấy chỉ có ses(2) là khác biệt có ý

nghĩa thống kê so với nhóm tham chiếu là 3 (thu nhập cao). Do đó, có thể giải thích là odds

của honcomp sẽ giảm đi 1-0.867=0.133 lần ở học sinh có thu nhập trung bình so với học sinh

có thu nhập cao trong trường hợp điểm của môn read và môn science giữ nguyên giá trị.

Phân tích bằng STATA Chi tiết giải thích là giống như đã trình bày trong phần phân tích với SPSS. Ở đây sẽ minh

họa lệnh STATA sử dụng (chữ màu đỏ) và trình bày kết quả của STATA.

Xi:logistic honcomp read science i.ses

i.ses _Ises_1-3 (naturally coded; _Ises_1 omitted)

Logistic regression Number of obs = 200

LR chi2(4) = 65.59

Prob > chi2 = 0.0000

Log likelihood = -82.850368 Pseudo R2 = 0.2836

------------------------------------------------------------------------------

honcomp | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

read | 1.102714 .0276551 3.90 0.000 1.049822 1.158271

science | 1.068141 .0290699 2.42 0.015 1.012658 1.126664

_Ises_2 | .3426752 .1800591 -2.04 0.042 .1223538 .9597268

_Ises_3 | .943259 .5022617 -0.11 0.913 .3321907 2.678393

------------------------------------------------------------------------------

Nếu sử dụng STATA version 11 trở lên thì không cần dùng tiền tố xi: phía truớc lệnh

logistic. Kết quả trên được chạy từ STATA version 10.

Lưu ý với kết quả của STATA này, đối với biến ses thì giá trị tham chiếu là 1 (kinh tế thấp)

thay vì 3 như với SPSS. Ta có thể thay đổi bằng cách thêm ib3 vào trước tên biến ses, như

sau (chạy với STATA version 12, mục đích để minh hoạ sự khác biệt giữa 2 version):

. logistic honcomp read science ib3.ses

Logistic regression Number of obs = 200

LR chi2(4) = 65.59

Prob > chi2 = 0.0000

Log likelihood = -82.850368 Pseudo R2 = 0.2836

------------------------------------------------------------------------------

honcomp | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

read | 1.102714 .0276552 3.90 0.000 1.049822 1.158272

science | 1.068141 .0290702 2.42 0.015 1.012657 1.126664

|

ses |

1 | 1.060154 .5645084 0.11 0.913 .3733562 3.010335

2 | .3632885 .1611263 -2.28 0.022 .152309 .8665186

|

_cons | .0000704 .000117 -5.75 0.000 2.71e-06 .0018278

------------------------------------------------------------------------------

Page 8: Logistic Regression.pdf

8

Kết quả hoàn toàn giống với phân tích bằng SPSS ở trên khi sử dụng ses 3 là giá trị tham

chiếu.

Tài liệu tham khảo chính:

Bài giảng của lớp Phương pháp nghiên cứu định lượng nâng cao (Advanced Qualitative

Research Methods), ký hiệu HLN706, Queensland University of Technology, Australia.

http://www.ats.ucla.edu/stat/spss/output/logistic.htm