2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 )

48
2005 년 4 년 9 년 년 년 년 ( 년년년년년 년년년년 )

description

연구를 위한 통계학적 자료 분석을. 어떻게 접근할까. 2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 ). 참 값 = 관측값 + “ 오차 ”. Random error. Systematic error. +. Bias. Reliability. Validity. 有意수준 下에서. 자료수집. 연구설계. 연구설계. 연구설계. 연구설계. 연구설계. 연구결과 해석 및 고찰. 자료분석. - PowerPoint PPT Presentation

Transcript of 2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 )

Page 1: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

2005 년 4 월 9 일 강 대 룡 ( 연세대학교 의과대학 )

Page 2: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

참 값 = 관측값 + “ 오차”

Randomerror

Reliability

Systematicerror

Bias

Validity

+

Page 3: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

연구설계 연구설계 연구설계 연구설계 연구설계 자료분석 연구결과 해석 및 고찰

통계적 해석 :

“ 보건학적” , “ 의학적” 해석

통계적 檢定 (Testing) : 歸無가설 硏究가설

자료수집

有意수준 下에서

記述통계 : 조사된 모든 변수에 대해 “기초 기술통계량”을 구하면서 , “Data cleaning” N, Missing value, Outlier 확인 , 범주의 Regrouping 고려 , …  

推論통계 ( 일 : 일 , 일 : 다 , sub-group)

“P-value” 로 의사결정

유의성 有無 ( 차이 , 연관성 , 선형적인 상관성 , 혼란변수 “통제”하에서 영향력 )

Page 4: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Categories of statistical procedures used to assess the statistical content in the articles

* 비모수적 방법

Source : Emerson JD, Colditz GA, Use of Statistical Analysis in The New England Journal of Medicine.

N. Engl. J. Med. 1983 ; 309, 709-13.

Page 5: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

보건학의 주 연구대상은

인간이다 !

윤리적 문제 연구설계상의 한계 연구 설계상 한계로 인한 문제들

Page 6: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

연구자의 성급함이 연구결과를

왜곡시킬 수 있다 !

연구자의 성급한 마음 혹은 부정한 의도 “ 농부와 노인” ( 전우택 , 사회의학연구방법론 )

고찰없는 연구 결과

Page 7: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

연구자가 수집한 최초의 자료는

여러가지 잡음이 뒤섞여 있다 !

이상점

결측치

잡음이 없는 자료는 없다 !

Page 8: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

자료분석에서

부적합한 통계분석을 사용하였을 때

사용한 자료가 통계방법의 가정에 위배되는 것이라면 ?

이런 연구결과가 사람의 생명과 주어진 보건문제에

직접적으로 관여하는 것이라면 ?

Page 9: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

분명한 ‘연구주제’와 ‘연구설계’는 앞서

설명하였기 때문에

지금부터는 수집한 자료를 어디서부터

어떻게 접근하면서 분석할지 생각해보자 .

어떻게 접근할까 ?

Page 10: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

1.수집한 자료를 어떻게

간결하게 표현할까 ?

Page 11: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

• 한국인 남자에서 지방산섭취가 Ischemic Heart Disease (IHD) 와

관련성이 있는가를 알아보고자 함

• 환자 - 대조군 연구를 통해 자료를 수집 (Suh et al, 2001)

• 환자군 : 세브란스병원에서 1995 년부터 1996 년 기간동안 처음으로

발생한 acute myocardial infarction 또는

angina pectoris 로 진단된 환자

• 대조군 : 동일 시기 세브란스 정형외과 / 안과 내원한 사람

• 식이섭취 조사 : Food Frequency Questionnaire(FFQ) 를 이용

• 기타 일반적인 특성 및 건강관련 행위 내용조사

예제자료 1

Page 12: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 통계 1-1] • 논문에서 언급할 변수들의 분포를 최대한 분석할 필요가 있다

• 측정한 변수가 “연속형” 변수면 대표값 ( 산술평균 , 중위수 등 ) 과

산포도 ( 표준편차 , 사분위수 범위 등 ) 로 ,

• 측정한 변수가 “범주형” 변수면 각 범주의 빈도와 백분율을 보여주면 OK!

• 물론 연속형 변수도 경우에 따라 범주화하여 빈도를 보여줄 수 있다

• 물론 여러 가지 형태의 그림 ( 히스토그램 , Box plot 등 ) 을 통해

분포를 볼 수 있다

Page 13: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Table 1-1. Distributions of age and education for study population

Unit : person(%)

Variable Cases(n=108) Controls(n=142)

Age

<50 38 (35.2) 52 (36.6)

50-59 37 (34.3) 49 (34.5)

≥60 33 (30.6) 41 (28.9)

Education  

≤ 9 28 (25.9) 56 (39.4)

10-12 44 (40.7) 45 (31.7)

≥13 36 (33.3) 41 (28.9)

Page 14: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Table 1-2. Mean intakes (SDs) of energy from specific nutrients

Variables(unit) Cases(n=108) Controls(n=142)

   energy (kcal) 2359.8 (730.8) 2223.4 (632.6)

   carbohydrate (g) 357.5 (109.6) 354.5 (101.3)

   protein (g)   85.1 ( 29.6)   78.0 ( 28.0)

   total fat (g)   60.3 ( 28.5)   50.2 ( 22.3)SDs : standard deviations

• 총열량 섭취 : 환자군 ( 평균 136 kcal) > 대조군

• 총지방산 섭취 : 환자군 ( 평균 10 g) > 대조군

• 전체적으로 평균에 비해 표준편차가 매우 큼

- 이상점 (outlier) 이 있는가 ?

- 분포가 오른쪽으로 치우쳐 있는 형태인가 ?

Page 15: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 통계 1-2]

• 분포 모습 제시할 때는 확인 , 정리된 자료로 분석해야 함 !

• 자료 확인을 철저히 하지 못하면 논문을 무사히 (?) 끝내고 난 뒤에도

두고두고 마음이 편치 않을 것이다

• 자료를 깨끗이 정리하고 확인 - 확인하는 방법뿐이다 도움 되는 방법[ 사례 1] 각 변수에 입력오류는 없는가 ?

[ 사례 2] 무응답자의 자료는 제대로 결측치로 분석되었는가 ?

[ 사례 3] 각 변수의 기술통계량으로 파악하면 이상한 자료가 없는데

여러 변수를 동시에 고려하니 이상한 자료가 발생할 수 있는가 ?

종합정리 1-1 본격적인 연구가설 분석 전에 반드시 자료 확인 !

Page 16: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

종합정리 1-2 자료의 요약 및 정리

기술통계량 (descriptive statistics)

표나 그림을 이용한 자료의 정리

● 대표값 (central tendency and location) ․ 산술평균 (arithmetric mean) ․ 중위수 (median) ․ 최빈수 (mode) ․ 기하평균 (geometric mean) ․ 가중평균 (weighted mean)

● 산포도 (variability) ․ 표준편차 (standard deviation) ․ 사분위수 범위 (interquartile range) ․ 범위 (range) ․ 변이계수 (coefficient of variation)

․ 히스토그램 (histogram) ․ 돗수분포표 (frequency table) ․ 막대그래프 (bar graph) ․ 원 그래프 (pie raph) ․ 산점도 (scatter plot) ․ 줄기 -잎 그림 (stem-leaf diagram) ․ 상자그림 (box plot)

Page 17: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

2. 단순분석을 일차적으로 먼저 시행해보자 !

Page 18: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 가설 2-1]

지방산 섭취가 환자군과 대조군 간에 차이가 있는가 ?

( 또는 총 열량에 대한 지방산 섭취 비율이 차이가 있는가 ?)

통계적 가설검정의 여러 가지 방법들에 들어가기에 앞서 통계적

가설검정의 기본적인 원리에 대해 간단하게 알아보자 !

앞의 기술통계량에서 환자군은 총 지방산섭취가 60.3g, 대조군은 50.2g 이었다 . 즉 , 환자군의 총 지방섭취가 대조군 보다 10.1g 더 많이 섭취하고 있다 .

Page 19: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

의문 2-1 우리는 이 10.1g 의 차이를 어떻게 받아들여야 할까 ?

의문 2-2 동전을 던져 나오는 앞면과 뒷면으로 의사결정을 한다면 ?좋은 정보를 이용하여 의사결정 한다면 어떤 정보가 좋은 정보 ?

[ 통계 2-1]통계적 가설검정이란 주어진 자료의 좋은 정보를 이용하여 귀무가설 또는

대립가설 중 어떤 것을 선택하는 것이 좋을 지에 대한 의사결정 과정이다 .

[ 통계 2-2]그러나 좋은 정보를 이용하여 의사결정을 하더라도 의사결정의 오류가 존재한다 . 왜 존재할까 ? 모집단과 표본의 차이라고 생각할 수 있을까 ?

Page 20: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

H0 이 사실 H1 이 사실H0 채택 (don't

reject) 오류가 없음 제 2 종의 오류

H1 채택 (H0 를 reject)

제 1 종의 오류 오류가 없음[ 통계 2-3] 통계학적 의사결정은 제 1종의 오류를 유의수준 내에서 허용하고

제 2종의 오류를 최소화하는 방법을 사용

[ 통계 2-4]

유의확률 < 유의수준 ( 일반적으로 0.05) ☞ 대립가설 H1 채택

유의확률 > 유의수준 ( 일반적으로 0.05) ☞ 귀무가설 H0 고수

의사결정에 따른 오류

Page 21: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

자 료 의 형 태 에 따 라 어 떤 통 계 적 방 법 을 적용하면 되는지 알아보자 .

변수 구분 !1. 측정수준에 따라 : 연속형 변수와 범주형 변수

2. 설명관계의 방향성에 따라 : 종속변수 ( 또는 반응변수 ) 와 독립변수 ( 또는 설명변수 )

3. 측정자료에 독립성이 있는지의 여부도 통계적 방법을 선택하는데 주요한 기준이 됨 !

Page 22: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 사례 2-1] “ 경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경 구피임약을 복용 하 는 100 명과 복용 하 지 않은 100 명의 수축기혈압을 비교하고자 한다 .

• 종속변수 : 연속형으로 측정한 수축기혈압

• 독립변수 : 두 집단 ( 경구피임약 복용군 / 비복용군 ) 을 구별하는 이분형 범주형 변수

• 가설을 일반화하면 “독립된 두 모집단의 수축기혈압의 평균을 비교” [ 통계적 분석방법 ]

독립된 두 집단의 t-검정 ( 모수적 방법 ), 윌콕슨 순위합 검정 ( 비모수적 방법 )

[ 의문 2-1]

두 집단은 경구피임약 복용여부 외에는 다른 요인 ( 특히 수축기혈압에 영향을

미치는 요인 ) 의 분포에 대해 동질적인가 ?

동질적이지 못하다면 t-검정의 결과는 의미가 없을 수 있다

Page 23: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 사례 2-2] “ 경구피임약을 복용하면 혈압이 증가한다”는 가설을 검정하기 위해 경구피임약을 복용하지 않는 100명을 대상으로 수축기혈압을 측정하고 일정기간 경구피임약을 복용하게 한 후 다시 혈압을 측정하여 복용전과 후의 혈압을 비교하고자 한다 .

• 종속변수 : 연속형으로 측정한 전과 후의 수축기혈압

• 독립변수 : 두 집단 ( 경구피임약 복용군 / 비복용군 ) 을 구별하는 이분형 범주형 변수

• 가설을 일반화하면 “짝을 이룬 쌍에서 ( 전과 후의 ) 차에 대한 모평균이 0인가” [ 통계적 분석방법 ]

paired t-검정 ( 모수적 방법 ), 윌콕슨 부호순위 검정 ( 비모수적 방법 )

[ 의문 2-2]

관심있는 개입 ( 이 경우 경구피임약 복용 ) 기간 동안 다른 개입은 없었는가 ?

다른 개입이 있다면 이 결과의 신뢰성에 문제를 제기할 수 있다 .

Page 24: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 사례 2-3] “흡연력에 따라 폐기능에 차이가 있는가”를 알아보기 위해 흡연력을 6개의 집단 (nonsmoker, passive smoker, non-inhaling smoker, light smoker, moderate smoker, heavy smoker) 으로 구분하고 FEF(forced expiratory flow) 를 측정하여 6개 집단간의 평균을 비교하고자 한다 .

• 종속변수 : 연속형으로 측정한 FEF

• 독립변수 : 6 집단을 구별하는 범주형 변수 • 가설을 일반화하면 “독립된 여러 (세 집단 이상 ) 모집단의 평균을 비교”

[ 통계적 분석방법 ]

일요인 분산분석 ( 모수적 방법 ), 크루스칼 -월리스 검정 ( 비모수적 방법 )

[ 의문 2-3]

집단 들은 흡연력 상태 외에는 다른 요인 ( 특히 FEF 에 영향을 미치는 요인 ) 의

분포에 대해 동질적인가 ?

Page 25: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 사례 2-4] " 약품 A 와 B 의 복용에 따른 부작용에 차이가 있는가“를 알아보기 위해 1,000 명을 대상으로 500 명씩 A 와 B 를 각각 일정기간 동안 복용하게 한 후 부작용의 유무를 조사하여 부작용의 비율에 차이가 있는가를 비교하고자 한다 .

• 종속변수 : 부작용 여부에 따른 범주형 변수

• 독립변수 : 치료군을 구별하는 범주형 변수

• 가설을 일반화하면 “두 범주형 변수간에 관련성 ( 동일성 , 독립성 ) 이 있는가”

[ 통계적 분석방법 ]

카이제곱 검정 (x2-검정 ), Fisher 의 정확도 검정 (exact test)

[ 의문 2-4]

두 치료법에서 다른 요인 ( 특히 부작용에 영향을 미치는 요인 ) 의 분포에 대해

동질적인가 ? 각 칸의 ( 기대 ) 빈도수가 너무 작지 (5 미만 ) 않은가 ?

Page 26: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 사례 2-5] “ 열량섭취가 많으면 비만할까”를 알아보기 위하여 200 명의 성인을 대상으로 식이섭취를 통한 총 열량섭취와 비만도 (kg/m2) 을 조사하여 그 관련성을 알아보았다 .

• 종속변수 : 비만도 (kg/m2) 인 연속변수

• 독립변수 : 총 열량섭취인 연속변수

• 가설을 일반화하면 “두 연속형 변수간에 선형적 관련성이 있는가”

[ 통계적 분석방법 ]

상관분석 , 단순회귀분석

[ 의문 2-5]

총 열량섭취와 비만도의 관계에 영향을 미치는 다른 혼란변수는 없는가 ?

두 변수간에 선형적 관련성이 있는가 ( 상관분석 ) 가정한 회귀모형이 적합한가 ?

Page 27: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

모수적 방법과 비모수적 방법의 적용

• 모수적 방법이란 표본이 추출된 모집단의 확률분포에 대하여

특정분포를 가정하고 그 가정된 분포의 모수 (parameter) 에 대한

검정문제를 생각하는 방법

• 모집단의 분포 ( 정규분포 ) 를 가정하므로서 검정통계량의 분포를

알 수가 있음

• 그러나 정규분포를 따르지 않거나 특정분포를 가정할 수 없는 경우 ,

특히 표본의 수가 작은 경우는 순위 (rank) 에 기초한 비모수적

(nonparametric) 방법을 사용하는 것이 바람직하다

Page 28: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[종합정리 2-1]

측정한 변수를 종속변수와 독립변수 , 측정수준에 따라 범주형과 연속형 , 그리고 자료의 독립성 여부에 따라 t-검정 (독립된 두 집단 , 짝을 이룬 두 집단 ), x2-검정 , 일요인 분산분석 , (피어슨 ) 상관분석 , 단순회귀분석 등을 구분하여 적용할 수 있다

모집단의 분포를 가정할 수 없는 경우 비모수적 방법으로 윌콕슨 순위합 검정 , 윌콕슨 부호순위 검정 , 크루스칼 -왈리스 검정 , 스피어맨 상관분석 등을 각각 적용할 수 있다

자료의 특성에 맞게 검정방법을 선택하고 제시된 유의확률을 이용하여 귀무가설과 대립가설 중 하나를 선택하면 된다

Page 29: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 예 제 자 료 1] 의 가 설 을 밝 혀 나 가 는 데 이제까지 언급한 방법들을 어떻게 적용하고 또한 이를 표로 정리하는지 알아보자 !

Page 30: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 단계 2-1] 주 연구가설에 대한 통계학적 가설검정을 시행하자 !

Table 2-1. Mean (SDs) intake  of energy from specific nutrients

Variables (unit) Cases (n=108) Controls (n=142) t-value

total fat (% of energy)

22.4 (5.9) 19.9 (5.2) 3.7***

PUFAs (% of energy)   4.4 (1.3)   4.1 (1.2) 2.2*

MUFAs (% of energy)

  7.5 (2.9)   6.4 (2.5) 3.1**

SFAs (% of energy)   6.8 (2.5)   5.9 (2.2) 3.1**

SDs : standard deviations ; PUFAs : polyunsaturated fatty acids ;

MUFAs : monounsaturated fatty acids ; SFAs : saturated fatty acids

  *: p < 0.05, ** : p <0.01, *** : p < 0.001

Page 31: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 단계 2-2] 주 연구가설에 대해 통제할 다른 변수는 없는가 ?

Table 2-2. Distributions of smoking status, history of hypertension and

history of hyperlipidemia in cases and controlsUnit : person(%)

Variable Cases(n=108) Controls(n=142) x2-value

Body mass index       <25 54 (50.0) 97 (68.3) 7.8*

      ≥25 54 (50.0) 45 (31.7)  

Smoking status       >1 pack/d 28 (25.9) 10 ( 7.0) 21.6**

     ≤1 pack/d 42 (38.9) 59 (41.6)  

      ex-smoker 28 (25.9) 40 (28.2)  

     never smoked 10 ( 9.3) 33 (23.2)  

History of hypertension

       yes 41 (38.0) 20 (14.1) 19.4**

       no 59 (54.6) 103 (72.5)  

     unknown 8 ( 7.4) 19 (13.4)  

History of hyperlipidemia

       yes 29 (26.8) 18 (12.7) 9.3*

       no 42 (38.9) 76 (53.5)  

     unknown 37 (34.3) 48 (33.8)

* : p < 0.01, ** : p <0.001 

Page 32: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 의문 2-6 ]

주 연구가설을 밝히는데 위의 비만도 , 흡연력 , 고혈압과 고지혈증 등의 영향을 통제하지 않으면 어떤 문제가 있는가 ?

[종합정리 2-1]

통계적 가설을 설정하고 , 연구자의 가설이 지지되는지 일차적으로 단순한 분석을 시행하자 !

Page 33: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

통계 검정 방법들 분류 기준 및 검토 사항종속변수가 연속형인 경우

● 모수적 방법 ․ t-검정 (독립 또는 짝을 이룬 자료 ) ․ 분산분석 ․ 피어슨 상관분석 ․ 단순회귀분석

● 비모수적 방법 ․ 윌콕슨 검정 (독립 또는 짝을 이룬 자료 ) ․ 크루스칼 왈리스 ․ 스피어맨 상관분석 ․ 단순회귀분석

종속변수가 범주형인 경우 ․ 카이제곱 검정 ․ Fisher 의 정확도 검정 (exact test)

․ 종속변수의 측정수준은 어떤가 ? ․ 종속변수가 연속형인 경우 정규분포를 가정할 수 있는가 ?

․ 집단간 평균을 비교하고자 하는가 ?

․ 비교하고자 하는 집단은 몇 개인가 ?

․ 자료의 독립성을 가정할 수 있는가 ?

․ 범주형 자료분석에서 범주의 표본수가 너무 적지 않는가 ?

Page 34: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

3. 여러 요인의 영향을

동시에 분석하자

- 회귀분석적 방법 ?

Page 35: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 통계 3-1]• 여러 요인의 영향을 동시에 분석 또는 혼란변수를 통제하기

위해서는 회귀분석적 방법을 많이 사용

• 회귀분석 방법은 종속변수와 독립변수들 간의 함수모형을

설정하고 ( 회귀모형 ) 그 모형을 통해 관련성을 밝히는 방법

• 종속변수가 연속형인 경우는

다중 회귀분석 (multiple regression) 을 많이 사용

• 종속변수가 범주형인 경우는

다중 로지스틱 회귀분석 (logistic regression) 을 많이 사용

Page 36: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

예제자료 2

• 납제련소 부근에 사는 144 명의 어린이들 대상

• 혈중농도 측정하여 위험군 (≥40mg/ml) 과 정상군으로 분류하고 신경학적인

기능에 차이가 있는가를 알아보고자 10 초간 finger-wrist tab (MAXFWT) 을

측정 . 연령을 포함하여 이와 관련 있는 여러 가지 요인들 조사

• 변수

Group : 1=exposed, 2=normal

Sex : 1=male, 2=female

Age : years

Page 37: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 의문 3-1] 연령 (age) 과 성 (sex) 의 영향을 통제한 후 위험군과 정상군 두 군간에 MAXFWT 의 차이가 있는가 ?

[ 통계 3-1] 다중 회귀분석 모형

• 회귀모형 :

• 회귀계수의 의미 : 다른 요인을 통제하였을 때 ,

: exposed 집단에 비해 normal 집단이 MAXFWT 가 평균적으로 만큼 높다 .

: male 에 비해 female 집단이 MAXFWT 가 평균적으로 만큼 높다 .

: 연령이 1살 증가하면 MAXFWT 가 평균적으로 만큼 증가한다

1

2

3

1 2 3

MAXFWT f(group, sex, age)

(group) (sex) (age) error

1

2

3

Page 38: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Table 3-1. Multiple regression model comparing mean MAXFWT between exposed and  normal after controlling for age and sex

Variable Estimate Standard error p-value

Intercept 34.1 3.1 0.0001

group -5.1 1.6 0.0014

age 2.4 0.2 0.0001

sex -2.4 1.5 0.1172

Page 39: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[ 의문 3-2 ]비만도와 흡연력 , 그리고 총 열량의 영향을 통제한 후 total fat intake 가 증가할 때 IHD 의 위험이 증가하는가 ?

[ 통계 3-2] 다중 로지스틱 회귀분석 모형

• 회귀모형 :

• 회귀계수의 의미 (odds ratio 로 해석 ) : 다른 요인 (x) 을 통제하였을 때 ,

: 총열량에 대한 total fat 이 1% 증가하면 IHD 에 걸릴 위험이 증가

1 2

pl og dl i pi d (x)

1 p

11e

Page 40: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Table 3-2. Adjusted odds ratios and 95% CIs of developing ischemic heart disease for selected risk factors from logistic regression analysis

Variable Odds ratio95% Confidence

interval

total fat  (1% of energy intake) 1.08 1.02-1.14

energy   (Kcal) 1.01 1.00-1.02

body mass index ≥25    2.26 1.27-4.01

<25    1.00  

smoking status >1 pack/d 10.51 3.61-30.56

≤1 pack/d 2.40 1.03-5.62

exsmoker 2.67 1.09-6.55

never smoker 1.00  

Page 41: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[종합정리 3-1]자료의 특성에 맞는 회귀분석을 시행하므로서 여러 독립변수들의 영향을 동시에 알아보고 서로의 영향을 통제한 후의 독립적인 관련성을 알아볼 수 있다 !

보건학에서 많이 사용하는 회귀분석의 종류 분류 기준 및 검토 사항● 다중회귀분석● 로지스틱 회귀분석 ● 조건부 로지스틱 회귀분석 ● 포아송 회귀분석 ● Cox’s 비례위험 회귀분석

․ 종속변수의 측정수준은 어떤가 ? ․ 독립변수의 측정수준은 어떤가 ? ․ 독립변수가 범주형이면 가변수처리를 하였는가 ? ․ 독립변수들 간에는 다중공선성 (multicolinearity) 의 문제는

없는가 ? ․ 다중 회귀분석의 기본가정을 검토하였는가 ? ․ 정규분포성 , 선형성 , 등분산성 , 이상점 , 모형의 적합성

등 ․ 로지스틱 회귀분석에서 종속변수의 범주의 수는 몇 개인가 ? ․ 로지스틱 회귀분석에서 대상자가 matching 되어 있는가 ? ․ 사건 발생에 대한 추적관찰된 시간 ( 또는 인년 person-year

s) 의 자료인가 ?

Page 42: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

[종합정리 3-2] 회귀모형을 구축하는 전략

• 간단한 분석 ( 단일변량분석 ) 을 통해서 변수간의 정보를 파악하자 ! - 단일변량분석을 통해 유의확률이 0.3미만인 독립변수는 위험요인의 가능성이 있다 .

- 독립변수간의 상호작용 (영향 ) 을 고찰하자

• 단일변량분석에서 어느 정도 관련성을 보이는 독립변수 (p<0.3 or p<0.2) 또는 이 연구에서 관심을 갖는 독립변수 , 그리고 혼란변수를 모형에 포함하여 자료의 특성에 맞는 회귀분석을 시행하자 !

• 선택한 회귀분석 모형의 기본가정이 만족되는가 ?

• 최종적으로 가능한 간단한 모형이면서도 설명력이 높은 모형을 찾도록 노력하자 !

Page 43: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

감 사 합 니 다

Page 44: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Thomas Bayes (1702-1761)

Blaise Pascal (1623-1662)

Francis Galton (1822-1911)

Gregor Mendel (1822-1884)

Karl Pearson (1857-1936) : 상관분석법

Ronald Aylmer Fisher (1890-1962) : 의학실험계획법 , 분산분석법 (ANOVA)

Jerzy Neyman (1894-1981) : 통계적 가설검정법 , “ 현대통계학” 시작

Erasmus Darwin (1731-1802)

Charles Darwin (1809-1882)

( ) 1 ( )P A P A

regression to the “mediocre”

( ) ( / ) ( ) ( / ) ( )( / )

( ) ( ) ( / ) ( ) ( / ) ( )

P A B P B A P A P B A P AP A B

P B P B P B A P A P B A P A

Page 45: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Classification of BP(1993~2003)

JNC 5, 1993 JNC 6, 1997 JNC, 2003

Category SBP DBP Category SBP DBP Category SBP DBP

Optimal <120 <80 Normal <120 and <80

Normal <130 <85 Normal <130 <85 Prehypertension 120-139 or 80-89

High-normal 130-139 85-89 High-normal 130-139 85-89

Hypertension Hypertension Hypertension

stage 1 140-159 90-99 stage 1 140-159 90-99 stage 1 140-159 or 90-99

stage 2 160-179 100-109 stage 2 160-179 100-109 stage 2 >160 or >100

stage 3 180-209 110-119 stage 3 >180 >110

stage 4 >210 >120

Page 46: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Categorization of BP / JNC6

80

140 SBP120

90

DBP

130

85

C1 C2

C5 C6

C9

C13

C10

C14

C3 C4

C7 C8

C11 C12

C15 C16

Page 47: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )

Categorization of BP / JNC7

80

140 SBP120

90

DBP

C1 C2

C5C4

C3

C6

C7 C8 C9

Page 48: 2005 년   4 월  9 일   강 대 룡  ( 연세대학교 의과대학 )