Survival Analysis

1

PHÂN TÍCH SỐNG CÒN (Survival Analysis)

Lê Tấn Phùng*

NHỮNG KHÁI NIỆM CƠ BẢN

Phân tích sống còn là gì? a) Phân tích sống còn (viết tắt là SA) liên quan đến biến thời gian. Biến này ghi nhận

thời gian từ lúc bắt đầu theo dõi cho đến khi xảy ra biến cố (Trong tiếng Anh thường

sử dụng 2 thuật ngữ: time-to-failure hoặc time-to-event). Các thuật ngữ khác của SA

có thể dùng trong tiếng Anh gồm: duration analysis, transition analysis, failure time

analysis.

- Không giống như hồi quy tuyến tính, SA có biến phụ thuộc là biến nhị biến. Có

nghĩa là biến này chỉ có 2 giá trị. Ví dụ: chết hoặc sống, thành công hay thất bại, tái phát hay không tái phát v.v...

- Không giống như hồi quy logistic, SA liên quan đến việc xây dựng mô hình biến

thời gian – biến cố (modelling the time to an event).

b) Những ưu điểm, thuận lợi của SA

- Có thể giải thích cho những số liệu bị cắt (censored data). Khái niệm này sẽ được

giải thích ở phần sau.

- Có thể so sánh giữa 2 nhóm với nhau

- Có thể đánh giá mối liên quan giữa các biến độc lập và thời gian sống (survival

time).

Số liệu về thời gian – biến cố (time-to-event) Trong nghiên cứu y học, rất hay gặp những trường hợp biến số liên quan đến thời gian. Ví

dụ: thời gian chết, thời gian khỏi bệnh sau khi điều trị, thời gian tái phát v.v... Tất cả các số

liệu liên quan đến những biến số như vậy gọi là số liệu sống còn (survival data), mặc dù thuật ngữ này có vẻ mô tả không chính xác bản chất của số liệu.

Các số liệu dạng “sống còn” rất hay gặp trong nghiên cứu lâm sàng nên SA đôi khi được gọi

dưới tên là “Nghiên cứu lâm sàng” (Clinical Research), mặc dù số liệu sống còn vẫn có thể có trong các nghiên cứu khác.

Khi nào thì sử dụng SA?

- SA được sử dụng trong những phân tích liên quan đến các số liệu về thời gian

- Khi người ta cho rằng một hoặc nhiều biến độc lập là lý do làm cho có sự khác

biệt về thời gian đối với một biến cố.

*Bác sĩ, Thạc sĩ Y tế công cộng

2

- Đặc biệt, SA được sử dụng khi thời gian theo dõi không được hoàn thành hoặc có

sự khác nhau về thời gian theo dõi này.

Những vấn đề gặp phải khi sử dụng SA

- Số liệu bị cắt hay bị xén (Data censoring and truncation): Đây là các số liệu không

hoàn chỉnh. Phần sau sẽ giải thích nội dung này.

- Xác suất có điều kiện (conditional probability): Khi xem xét xác suất để cho một

trường hợp “bị chết” tại một thời diểm nào đó, ta cần phải đặt điều kiện rằng

trường hợp đó “còn sống” cho đến ngay trước thời điểm đó. Ví dụ, để tính xác

suất cho A sẽ “chết” vào ngày 30 thì phải đặt điều kiện rằng đối tượng đó sẽ “còn

sống” cho đến ngày 29.

Số liệu bị cắt (Censoring)

Số liệu bị cắt là những số liệu không hoàn chỉnh (incompleted data). Người ta phân biệt 2 loại số liệu bị cắt: Cắt bên phải và cắt bên trái

a) Cắt bên phải (Right censored data):

- Đây là dạng bị cắt phổ biến nhất trong SA. Hầu hết các số liệu không hoàn chỉnh

trong SA đều thuộc dạng này.

- Dạng số liệu này xảy ra khi một đối tượng nào đó vẫn “còn sống” khi nghiên cứu

đã kết thúc, hoặc bị mất theo dõi (lost-to-follow-up), hoặc bỏ cuộc (withdrawn).

Ví dụ, trong nghiên cứu tái phát nhồi máu cơ tim khi điều trị với loại thuốc A nào

đó trong thời gian 1 năm, những số liệu bị cắt bên phải là những số liệu sau: Bệnh

nhân không bị tái phái sau khi theo dõi đủ 1 năm; bệnh nhân theo dõi không đủ 1

năm vì bệnh nhân di chuyển chổ ở hay vì lý do gì đó mà không thể tiếp tục theo

dõi được; hoặc bệnh nhân không tham gia nghiên cứu này nữa khi chưa đủ 1 năm

theo dõi.

b) Cắt bên trái (Left Censor data): Rất ít gặp. Dạng số liệu này khi “biến cố” đã xảy ra,

trước khi nghiên cứu bắt đầu. Ví dụ, nghiên cứu về theo dõi sự xuất hiện của ung thư

gan, số liệu bị cắt bên trái nếu bệnh nhân tham gia nghiên cứu này đã bị ung thư gan

từ trước (mà vì lý do nào đó nhà nghiên cứu không phát hiện được khi chọn nhóm

nghiên cứu).

Số liệu bị xén (Truncation)

a) Xén bên trái (Left truncation): Số liệu dạng này khá thường gặp trong SA, đôi khi còn

gọi là số liệu trễ (delayed entry). Ví dụ: Một nghiên cứu về nguy cơ mắc một bệnh

nào đó vào thời kỳ mãn kinh. Một đối tượng nào đó tham gia nghiên cứu khi đã mãn

kinh 2 năm về trước. Số liệu của đối tượng này là số liệu bị xén bên trái.

b) Xén bên phải: Rất hiếm gặp, xảy ra khi toàn bộ mẫu nghiên cứu đã có “biến cố”

nghiên cứu rồi.

Ví dụ về số liệu bị cắt

3

Sơ đồ của 5 trường hợp dưới đây diễn tả một nghiên cứu kéo dài 12 tháng với 5 đối tượng

theo dõi, từ A đến E. Các trường hợp này có ý nghĩa như sau:

Tháng

2 4 6 8 10 12

A T = 5

x

B T = 12

Hết NC

C T = 3

Rút khỏi NC

D T = 8

Hết NC

E T = 6

Mất theo dõi

F

x

Các đối tượng không xảy ra “biến cố”: B, C, D, E

Theo dõi không hoàn thành:

• Mất theo dõi: E

• Không tham gia nghiên cứu nữa: C

Bị cắt bên phải:

• B và C (vì nghiên cứu đã kết thúc);

• C và E (vì mất theo dõi hay rút khỏi nghiên cứu)

Phân phối thời gian sống còn (distribution of survival time) Một số khái niệm và ký hiệu sau đây sử dụng trong SA:

f(t) ký hiệu cho xác suất sống còn tại một thời điểm t nào đó

F(t) ký hiệu cho xác suất sống còn cộng dồn (cumulative probability)

Ví dụ: f(23) là xác suất sống còn tại ngày thứ 23; còn F(23) là xác suất sống còn đến ngày

thứ 23 và cả ngày 23.

Tuy nhiên, trong SA, người ta quan tâm nhiều hơn đến xác suất mà đối tượng nào đó còn

“sống” khi qua khỏi một mốc thời gian nhất định. Do đó, hàm số quan tâm ở đây là hàm sống

còn (Survival function) S(t), và hàm Hazard h(t).

4

Hàm sống còn S(t) xác định xác suất “còn sống” lâu hơn thời điểm t. Ví dụ, xác suất sống lâu

hơn 1 năm.

)(1)()()( tFduuftTPtSt

−==>= ∫∞

Hàm Hazard, h(t) là nguy cơ tức thì (instantaneous) của biến cố tại thời điểm t

)(

)()(

tS

tfth =

PHÂN TÍCH SỐNG CÒN

Đặc điểm: SA sẽ cho những kết quả phân tích sau đây:

- Các thống kê mô tả thông thường (trung bình, mode, độ lệch chuẩn, phương sai...)

- Phân tích nhị biến (univariate)

- Phân tích đa biến (ví dụ như Hồi quy Cox)

Đường biểu diễn sống còn Kaplan-Meier - Kaplan-Meier là ước lượng (estimator) của đường biểu diễn sống còn

- Nó còn được gọi là công thức product-limit (product limit formula)

- Là phương pháp phi tham số (non-parametric), do đó không cần giả định phân

phối (distribution assumptions) cho biến thời gian.

- Có thể giải thích cho các số liệu bị cắt

- Tạo nên một biểu đồ dạng “bậc thang” đặc trưng

- Không thể lý giải cho nhiễu hay tương tác (confounding or effect modification) do

các biến độc lập khác

- Đường biểu diễn được giải thích là xác suất “còn sống” (tức là không xảy ra biến

cố) tại một thời điểm t nào đó. Giải thích này sẽ được nói rõ hơn trong ví dụ tiếp

theo.

Ví dụ minh họa Một nghiên cứu tại Khoa tim mạch, trường Đại học Y khoa Massachusetts nhằm tìm hiểu các

yếu tố liên quan đến các biến chứng và tỉ lệ sống ở bệnh nhân sau khi nhập viện do nhồi máu

cơ tim. Số liệu được theo dõi 13 năm trong khoảng thời gian theo dõi từng năm một. Nguồn

số liệu có thể truy cập tại http://www.umass.edu/statdata/statdata/stat-survival.html. Bộ số

liệu trích 500 trường hợp để phân tích minh họa.

Ở bộ số liệu này, ta quan tâm đến 2 biến:

Biến thời gian: Là tổng thời gian theo dõi, ký hiệu là lenfol (Total length of follow up)

5

Biến biến cố (biến phụ thuộc): Là tình trạng sống hay chết trong quá trình theo dõi, giá trị bằng 1 nếu chết và giá trị bằng 0 nếu còn sống. Biến này ký hiệu là fstat (vital status at last

follow-up).

Với SPSS

Chạy phân tích SA trên SPSS : Vào Amalyze, chọn Survival, chọn Kaplan Meier..., cho biến

lenfol và khung time, cho biến fstat vào khung Status. Sau đó chọn Define Event, đánh vào 1

cho khung single value, chọn Continue, chọn OK.

SPSS cho kết quả đường biểu diễn Kaplan Meier như sau:

Means and Medians for Survival Time

Meana Median

Estimate Std. Error

95% Confidence Interval

Estimate Std. Error


Lower Bound Upper Bound Lower Bound Upper Bound

1417.215 48.137 1322.867 1511.562 1627.000 159.555 1314.271 1939.729

a. Estimation is limited to the largest survival time if it is censored.

Percentiles

25.0% 50.0% 75.0%

Estimate Std. Error Estimate Std. Error Estimate Std. Error

2353.000 79.465 1627.000 159.555 295.000 63.223

A

6

Thống kê mô tả:

Ví dụ, muốn tìm thời gian còn sống trung bình trong số 50% bệnh nhân còn sống, ta vẽ đường thẳng góc với trục tung tại điểm 50%, cắt đưởng Kaplan Meier tại điểm A, sau đó nối

vuông góc từ điểm A đến trục hoành. Giá trị tại trục hoành tương ứng với thời gian còn sống

trung bình (xem hình trên, các mũi tên màu đỏ). Đây cũng chính là cách giải thích cho đường

biểu diễn Kaplan Meier.

Ngoài ra, SPSS còn cho kết quả tính toán trung bình, median, và bách phân vị (2 bảng trên).

Do thời gian sống còn (survival times) lệch dương (positively skewed), cho nên thay vì chọn

trung bình, ta chỉ chọn median. Nhìn bảng trên, ta thấy thời gian sống trong số 50% bệnh

nhân còn sống là 1.627 (ngày). Nói cách khác, Có 50% số người sống đến ít nhất 1.627 ngày.

Bảng bách phân vị được giải thích như sau:

Có 25% bệnh nhân sống đến ít nhất 2.353 (ngày)

Có 50% bệnh nhân sống đến ít nhất 1.627 (ngày)

Có 75% bệnh nhân sống đến ít nhất 295 (ngày)

Với STATA:

Muốn chạy SA trên STATA, trước hết phải khai báo biến thời gian và biến cố nghiên cứu

bằng lệnh: stset timevar, failure (event). Trong ví dụ trên, chạy lệnh sau:

. stset lenfol,failure(fstat)

Sau đó, chạy lệnh sts đển cho đường biểu diễn Kaplan Meier, chạy lệnh stdescribe và stsum

để cho các thống kê mô tả.

. sts

. stdescribe

. stsum

So sánh Kaplan Meier giữa 2 nhóm

Với SPSS

Tiếp tục ví dụ trên, ta so sánh Kaplan Meier giữa 2 nhóm nam và nữ. Trong ví dụ này, ta

chọn Log rank test là test phi tham số để so sánh 2 nhóm nam và nữ. Lưu ý Log rank test chỉ nên sử dụng cho so sánh 2 nhóm mà thôi.

Trên SPSS, sau khi đã hoàn thành các thao tác như phần trên, chọn biến gender để đưa vào

mục factor. Sau đó chọn Compare Factor..., chọn Log rank (test hay dùng nhất). Chọn

Continue, chọn OK.

7

Kết quả tại các bảng bên dưới cho thấy 50% bách phân vị của nam là 2.160 ngày và của nữ là

1.317 ngày. So sánh chung (bảng: Overall comparisons) cho thấy test Log rank có ý nghĩa

thống kê với χ2 = 7.791 và p = 0.005. Ta kết luận rằng thời gian sống giữa nam và nữ khác

biệt có ý nghĩa thống kê.

Means and Medians for Survival Time

gender

Meana Median

Estimate Std. Error


Estimate Std. Error


Lower Bound Upper Bound Lower Bound Upper Bound

.00 1448.506 55.852 1339.035 1557.976 2160.000 . . .

1.00 1260.208 75.267 1112.684 1407.732 1317.000 177.039 970.004 1663.996

Overall 1417.215 48.137 1322.867 1511.562 1627.000 159.555 1314.271 1939.729

a. Estimation is limited to the largest survival time if it is censored.

Percentiles

gender

25.0% 50.0% 75.0%

Estimate Std. Error Estimate Std. Error Estimate Std. Error

.00 2160.000 . 354.000 109.695

1.00 2353.000 176.168 1317.000 177.039 151.000 84.201

Overall 2353.000 79.465 1627.000 159.555 295.000 63.223

Overall Comparisons

Chi-Square df Sig.

Log Rank (Mantel-Cox) 7.791 1 .005

Test of equality of survival distributions for the different levels of gender.

8

Với STATA

Với ví dụ trên, chạy lệnh sts test gender. Phần option để trống thì mặc định của STATA là

Log rank test. Sau đó chạy lệnh stsum,by(gender) để có số liệu thống kê mô tả.

. sts test gender

. stsum,by(gender)

Lưu ý: Để có thể kết luận rằng thời gian sống của 2 hoặc nhiều nhóm là khác nhau có ý nghĩa

thì các đường biểu diễn Kaplan Meier không được cắt nhau.

PHÂN TÍCH SỐNG CÒN ĐA BIẾN Phần trước đã đề cập đến SA với Kaplan Meier, chỉ dành cho phân tích nhị biến, giữa 1 biến

thời gian và một biến độc lập khác (ví dụ như biến giới tính ở ví dụ trên).

Trong trường hợp SA với 2 hay nhiều biến độc lập, ta không thể dùng Kaplan Meier với Log

rank test mà phải dùng một mô hình khác. Mô hình hay gặp nhất là hồi quy proportional

hazard Cox (Cox proportional hazards Regression), hay gọi tắt là hồi quy Cox.

Hồi quy Cox sử dụng ước lượng Maximum likelihood (MSE). Do đó, có thề sử dụng MSE để giải thích kết quả, tương tự như áp dụng trong hồi quy tuyến tính tổng quát hoá (generalized

linear regression).

Chúng ta sẽ bỏ qua những công thức toán phức tạp của mô hình để đi thẳng vào ví dụ minh

hoạ cho mô hình này.

Trở lại ví dụ trên, ta muốn tìm hiểu tác động của kiểu nhồi máu cơ tim (MI type, tên biến là

mitype) và BMI đối với thời gian sống.

Đầu tiên, ta xem xét các phân tích nhị biến đối với từng biến này (univariate analysis hay còn

gọi là bivariate analysis). Sau đó, gộp cả 2 biến độc lập vào mô hình để xem xét xem:

- Cả hai biến độc lập có giúp cho mô hình tăng ý nghĩa thống kê không

- Có biến nào đóng vai trò như yếu tố gây nhiễu hay không

Lưu ý rằng mitype là biến phân loại, chỉ có 2 giá trị; còn biến BMI là biến liên tục và trong

trường hợp này gọi là biến không phụ thuộc vào thời gian (time-independent).

Với SPSS

Bước đầu tiên, chạy SA với từng biến độc lập một. Đầu tiên với biến mitype, sau đó với biến

bmi.

Phân tích với biến mitype

Chọn Analyze, chọn Survival, chọn Cox-Regression...

Các bước chọn biến thời gian và biến event (status) giống như trên.

9

Sau đó, chọn biến mitype để đưa vào khung Covariates. Vì mitype là biến phân loại

(categorical) cho nên chọn tiếp Categorical để đưa biến mitype từ khung Covariates sang

khung Categorical Covariates. Giữ nguyên các mặc định khác. Chọn Continue.

Vào Option để click chọn CI for exp(B) (Khoảng tin cậy cho hazards ratios). Chọn Continue

và kết thúc bằng OK.

Các giải thích sẽ được trình bày dưới mỗi bảng sau đây.

Case Processing Summary

N Percent Cases available in analysis Event

a 215 43.0%

Censored 285 57.0%

Total 500 100.0%

Cases dropped Cases with missing values 0 .0%

Cases with negative time 0 .0%

Censored cases before the earliest event in a stratum 0 .0%

Total 0 .0%

Total 500 100.0%

a. Dependent Variable: lenfol

Trong số 500 người, có 215 người bị trụy tim (heart attack). Như vậy còn 285 bị censored

(Lưu ý khái niệm này khác với khái niệm số liệu bị cắt ở trên. Censor ở đây là những người

còn sống chưa bị trụy tim).

Categorical Variable Codingsc

Frequency (1)b

mitypea .00 347 1

1.00 153 0 a. Indicator Parameter Coding

b. The (0,1) variable has been recoded, so its coefficients will not be the same as for indicator (0,1) coding.

c. Category variable: mitype

Bảng này cho kết quả thống kê của biến mitype. SPSS đã code biến này ngược với code trong

bộ số liệu (từ 0 thàng 1 và ngược lại).

Variables in the Equation

B SE Wald df Sig. Exp(B)

95.0% CI for Exp(B)

Lower Upper

mitype .660 .167 15.585 1 .000 1.935 1.394 2.685

Vì chỉ có 1 biến mitype mà thôi cho nên ta đi thẳng vào bảng “Variables in the Equation”.

Trong trường hợp này, hệ số beta có ý nghĩa đồng nghĩa với mô hình có ý nghĩa. Bảng trên

cho thấy hệ số beta có ý nghĩa (dựa trên Wald test), có nghĩa rằng nguy cơ của 2 nhóm là

khác nhau (different hazards). Tỉ số harzard (hazard ratios), được ký hiệu ở bảng trên là

Exp(B), là khác 1 có ý nghĩa thống kê.

10

Nói cách khác, những người có nhồi máu cơ tim kiểu không phải sóng Q (non-Q wave) có

1,935 lần cơ hội chết so với những người nhồi máu cơ tim dạng sóng Q; hoặc những người có

nhồi máu cơ tim kiểu không phải sóng Q có 93,5% chết cao hơn những người sóng Q.

Phân tích với biến bmi

Tương tự như trên, nhưng lần này đưa biến bmi vào khung Covariates mà không có bước

chọn Categorical.. Chọn OK.



95.0% CI for Exp(B)

Lower Upper

bmi -.098 .015 44.425 1 .000 .906 .881 .933

Ta có Exp(B) = 0.906, có ý nghĩa thống kê. Giải thích: Tăng lên 1 đơn vị bmi, nguy cơ chết giảm đi (1 – 0,906) x 100% = 9,4%.

Phân tích đa biến với cả 2 biến trên

Trong phân tích đa biến này, ta xem mitype là biến độc lập mà ta muốn khảo sát tác động của

nó, và xem bmi là biến có khả năng là biến nhiễu (confounder). Ta sẽ xem xét xem hệ số beta

có thay đổi hơn 10% (hoặc 20%) hay không.

Lưu ý là trong phân tích trên, ta có hệ số beta của mitype là 0.66.

Để chạy mô hình này, ta chỉ cần đưa 2 biến mitype và bmi vào khung Covariates. Lưu ý đối

với mitype vẫn phải thực hiện bước chọn Categorical... như trên. Chạy mô hình trên cho kết quả như sau:

Omnibus Tests of Model Coefficientsa

-2 Log

Likelihood

Overall (score) Change From Previous Step Change From Previous Block

Chi-square df Sig. Chi-square df Sig. Chi-square Df Sig.

2393.473 56.590 2 .000 61.685 2 .000 61.685 2 .000

a. Beginning Block Number 1. Method = Enter

Mô hình này là có ý nghĩa



95.0% CI for Exp(B)

Lower Upper

mitype .589 .168 12.228 1 .000 1.802 1.295 2.506

bmi -.094 .015 41.121 1 .000 .910 .884 .937

Cả hai biến đều có hệ số beta có ý nghĩa. Lưu ý hệ số beta bây giờ là 0,589. Như vậy, khi

phân tích với mô hình đa biến, biến đổi hệ số beta của mitype là (0,66 – 0,589)/0,66 x 100%

11

= 10,76%. Sự thay đổi này là trên 10%. Do đó, có thể xem bmi là biến nhiễu trong mối quan

hệ giữa nhồi máu cơ tim và thời gian sống.

Chúng ta cũng có thể kiểm tra tính tương tác (effect modification) của 2 biến này trong mô

hình bằng cách thêm vào khung Covariates tương tác này (mitype*bmi). Để phân tích tương

tác, chọn cả 2 biến bmi và mitype (bấm giữ phím Ctrl) và click vào ô >a*b> để đưa 2 biến

này vào khung Covariates.

Với STATA

Các bước tuần tự như trên với phân tích đơn biến trước cho từng biến, sau đó phân tích cho

đa biến. Lưu ý tùy chọn nohr sau lệnh stcox để cho kết quả là hệ số beta. Nếu không có tùy

chọn này, kết quả sẽ là hazard ratio (tương đương với exp(B) ở trên) thay vì hệ số beta.

. stcox mitype,nohr

failure _d: fstat

analysis time _t: lenfol

Iteration 0: log likelihood = -1227.579




Refining estimates:


Cox regression -- Breslow method for ties

No. of subjects = 500 Number of obs = 500

No. of failures = 215

Time at risk = 441218

LR chi2(1) = 17.45

Log likelihood = -1218.8517 Prob > chi2 = 0.0000

------------------------------------------------------------------------------

_t | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

mitype | -.6599313 .1671666 -3.95 0.000 -.9875718 -.3322909

------------------------------------------------------------------------------

. stcox bmi,nohr

failure _d: fstat






Refining estimates:






LR chi2(1) = 48.16


12

------------------------------------------------------------------------------


-------------+----------------------------------------------------------------

bmi | -.0982665 .0147431 -6.67 0.000 -.1271625 -.0693705

------------------------------------------------------------------------------

. stcox mitype bmi,nohr

failure _d: fstat






Refining estimates:






LR chi2(2) = 61.69


------------------------------------------------------------------------------


-------------+----------------------------------------------------------------

mitype | -.5886423 .1683352 -3.50 0.000 -.9185733 -.2587112

bmi | -.0940669 .0146691 -6.41 0.000 -.1228178 -.0653161

------------------------------------------------------------------------------

Tham khảo: Tham khảo chủ yếu từ bài giảng của lớp Phương pháp nghiên cứu định lượng

nâng cao (Advanced Qualitative Research Methods), ký hiệu HLN706, Queensland

University of Technology, Australia.

Survival Analysis

Documents

Transcript of Survival Analysis