제4장 회귀분석 -...

41
제4장 회귀분석 제4장 회귀분석

Transcript of 제4장 회귀분석 -...

Page 1: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

4장

회귀분

4장

회귀분

Page 2: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

회귀의 역사 래(historical origin of the regression)

4장 회귀분

§ 회귀(regression)라는 용어는 학자Francis Galton(1886)에 의해 처음 사용

데 래함.

§ 그의 논 에 “비 상 로 크거나 작부모의 아이들 키는 체 인구의 평균

신장을 향해 움직이거나 회귀(regression)하는 경향이 있다.”고 주장

Page 3: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

회귀의 역사 래(historical origin of the regression)

4장 회귀분

§ 한 그의 친구 Karl Pearson(1903)1,000명 이상의 자료를 집하여 Galton의 보편 회귀의 법칙(law of universal regression)을 다음과 같이 확인함.

§ 키가 큰 아버지 집단의 아들의 평균 신장아버지보다 키가 작았고, 키가 작 아

버지 집단의 아들의 평균 신장 아버지보다 키가 컸다. 즉, 아들의 키는 아버지의 키 상 없이 체 남자들의 평균 신장을 향해 회귀한다는 것임.

Page 4: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

회귀분 의 개요(the nature of regression analysis)§ 자연 사회 상의 여러 가지 요인들을 자료분 의 에변 (variable)라 규 하고, 이러한 변 들 간의 상 을찾 고 시도하는 경우가 많이 있음.

§ 어떤 변 가 다른 변 에 향을 주고 는 경우 향을 주는 변를 독립변 ( 명변 : independent variable)라 하고, 향

을 는 변 를 종속변 ( 응변 : dependent variable or response variable)라고 하며, 이 두 변 간의 계식, 계 도에 심을 갖게 .

§ 이 같이 변 들 간의 을 식을 통하여 표 할 있다면 한 변 의 변화로부 다른 변 의 변화를 (prediction)할 있음.

§ 한 어떤 변 가 다른 변 의 변화에 향을 주고 있는가도단할 있게 .

4장 회귀분

Page 5: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

회귀분 의 개요(the nature of regression analysis)§ 회귀분 (regression analysis)이란 하나의 종속변 하나는 2개 이상의 독립변 들 간의 을 규명할 있는 학

모 을 변 들의 자료로부 회귀식을 추 하는 통계 법임.

§ 회귀분 본질 로 인과 계가 있는 두 변 간의 함 식을분 상 로 하며, 다음과 같이 두 가지 면에 이용 .

• 첫째, 두 변 의 값을 로 두 변 간의 함 계가 립하는지, 만약 함 계가 립한다면 어떤 특징을갖는 함 계( : 1차 계)인지 이해하는데 이용 .

• 둘째, 그 값이 알 진 독립변 를 로 종속변 의 값을추 는 하는 데 이용 .

§ 결국 회귀분 “종속변 가 하나 이상의 독립변 에 어떻게의존하고 있는가를 분 ”하는 과 을 의미함.

4장 회귀분

Page 6: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

회귀분 의 개요(the nature of regression analysis)§ 종속변 에 하여 독립변 가 하나이면 단 회귀모 (simple

regression model), 독립변 가 2개 이상인 경우에는 다 회귀모 (multiple regression model)이라 함.

§ 독립변 가 하나인 단 회귀모 (simple linear regression model) 다음의 식과 같이 나타낼 있음( =1차함 ).

yi=β0+β1xi+εi, i=1, 2, ×××, n

여 β0, β1 자료로부 추 해야 할 모 (parameter)로 β0

는 편(intercept), β1 울 (slope)이며 εi는 차항(error term), n 자료의 를 나타냄.

§ 식의 차항 εi는 독립 로 평균이 0이고 분산이 σ2인 규분포를 른다고 가 함[N(0, σ2)].

4장 회귀분

Page 7: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 모집단의 회귀 에 β0, β1을 구할 는 없고, 단지 두변 x, y의 표본값 로부 회귀계 (regression coefficient)를추 해야 함.

§ β0, β1의 추 량을 각각 β0, β1이라 하며, yi의 추 값 yi 로, 이는 다음의 식과 같음.

yi=β0+β1xi

§ 식 모집단 회귀직 에 추 식이며, 이를 추 회귀직(estimated regression line) 는 최소 곱 회귀직 이라고 함.

§ 그리고 β0, β1 추 회귀계 임.

4장 회귀분

^ ^ ^

^ ^ ^

^ ^

Page 8: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 가

• 회귀분 의 핵심 회귀계 (regression coefficient)를 구하고, 한 이 회귀계 가 통계 로 어느 도 의미가 있는지를 악하는 데 있음.

• 회귀분 에는 다음과 같 가 (assumption)이 있음.

• 각 독립변 간에는 상 계가 없음.

• 만일 상 계가 존재하게 면 각 독립변 의 회귀계 는 왜곡 어 의미를 상실할 가능 이 큼.

• 독립변 종속변 간에는 통계 로 의한 인과계가 있어야 함.

• 즉, 인과 계가 존재하지 않거나 존재하더라도의하지 못한 회귀식 의미가 없음.

4장 회귀분

Page 9: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 가

• 모든 회귀계 가 의한지를 검 한 후 해당 회귀식을해 해야 함.

• 만일 회귀계 에 어느 하나라도 통계 로의하지 않 면 해당 독립변 가 종속변 에 미

치는 인과 계는 거의 없음.

• 독립변 종속변 간에는 통계 로 의한 인과계가 있어야 함.

• 즉, 인과 계가 존재하지 않거나 존재하더라도의하지 못한 회귀식 의미가 없음.

• 차항(error term) εi는 독립 로 평균이 0이고 분산이 σ2인 규분포를 른다고 가 함[N(0, σ2)].

4장 회귀분

Page 10: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀계 의 추

• Excel에 회귀계 (regression coefficient)를 구하는 법두 가지임.

• 함 마법사에 ‘통계-INTERCEPT’ ‘통계-SLOPE’ 함 를 이용하는 법

® 이 법 단 회귀모 의 분 에만 사용이 가능함.

• 데이 -데이 분 의 분 도구에 ‘회귀 분 ’을 이용하는 법

4장 회귀분

Page 11: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 함 마법사를 클릭하고 ‘통계-INTERCEPT’ 함 를 택함(β0).

4장 회귀분

^

Page 12: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ Known_y’s에는 y변 지 , Known_x’s에는 x변 지

4장 회귀분

Page 13: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 산 도에 의한 회귀모 의 추

• 데이 역 체를 지 한 후 삽입-차트-분산 을

4장 회귀분

Page 14: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 산 도에 의한 회귀모 의 추

• 산 도의 한 을 찍 후 마우스 른쪽 클릭-추 추가

4장 회귀분

Page 15: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 함 마법사를 클릭하고 ‘통계-SLOPE’ 함 를 택함(β1).

4장 회귀분

^

Page 16: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ Known_y’s에는 y변 지 , Known_x’s에는 x변 지

4장 회귀분

Page 17: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ Excel의 메뉴에 데이 -데이 분 을 클릭한 후 ‘회귀 분 ’을 택하고 확인 버튼을 름.

4장 회귀분

Page 18: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀 분 에 각 변 (Y, X) 지 , 이름표(L) 사용, 신뢰 (F)

, 잔차(y-y)를 택한 후 확인 버튼 름.

4장 회귀분

^

Page 19: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 화상자에 체크 스의 내용 다음과 같음.

• 상 에 0을 사용 : 편이 없는(원 통과) 회귀 을 의미함.

• 신뢰 : 입 신뢰 (여 는 95%)에 라회귀계 의 신뢰구간을 구함.

• 잔차 : 잔차 y-y를 출 함.

• 잔차도 : 잔차를 x축에 라 도시, 모 의 합 과 차의독립 을 검토함.

• 표 잔차 : 표 잔차를 도시, ±3 범 를 는 이상값을검색함.

• 합도 : 값과 추 값을 도시함.

• 규확률도 : 차항(잔차항)이 규분포를 르는가를검토하고, 직 에 가까우면 규분포라고

단함.

4장 회귀분

^

Page 20: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• F-검 (F-test)

• F-검 t-검 과는 달리 회귀식 체에 한 의을 검 함.

• 즉, t-검 의 경우는 각 독립변 가 개별 로 의한지를 보고자 하는 것임.

• 회귀식 체가 의한지 여부를 검 한다는 것 “모든회귀계 가 0”이라는 귀 가 (H0)의 각 여부를 검하는 것임.

• 라 귀 가 이 각 지 않고 채택 다면 해당 회귀식 의미가 없게 .

4장 회귀분

Page 21: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• F-검 (F-test)

• 를 들어 F-검 을 하는 쉬운 법 “ 의한 F-값”이0.05(95% 신뢰 ) 는 0.01(99% 신뢰 )보다 큰지 는 작 지 여부를 보면 .

• α=0.05(or 0.01)< 의한 F-값 : 귀 가 (H0) 채택

® 해당 회귀식 의하지 않음(의미가 없음).

• α=0.05(or 0.01)³ 의한 F-값 : 귀 가 (H0) 각

® 해당 회귀식 의함(의미가 있음).

4장 회귀분

Page 22: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• t-검 (t-test)

• 회귀계 의 t-값이 의미하는 는 해당 회귀계 가 통계 로 얼마나 의한지를 나타내는 지표임.

• 만일 해당 회귀계 의 t-값이 의하지 않 면 통계로 그 회귀계 는 사실상 0 로 간주 .

• 회귀계 의 t-값을 검하는 것을 t-검 (t-test)이라고하며 다음과 같이 가 을 검 하는 것임.

• 귀 가 H0 : βi=0

• 립가 H1 : βi¹0

여 βi=0는 i번째 독립변 를 나타냄.

4장 회귀분

Page 23: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• t-검 (t-test)

• 일 로 t-검 을 하는 경우 95% 신뢰 을 가함. 즉, 의 을 5%로 함(α=0.05).

• 이 같 가 을 검 하는 것 양 검 (two-tailed test)을 의미하 때 에 략 t-값(t-통계량)의 값이 2 비슷하거나 작 면(크면) 귀 가 (H0)을 채택( 각)함.

• |2|>|t-값(t-통계량)| : 귀 가 (H0) 채택

® 해당 회귀계 는 의하지 않음(의미가 없음).

• |2|<|t-값(t-통계량)| : 귀 가 (H0) 각

® 해당 회귀계 는 의함(의미가 있음).

4장 회귀분

Page 24: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• t-검 (t-test)

• 다른 회귀계 에 한 검 법 로는 다음과 같음.

• α=0.05<P-값 : 귀 가 (H0) 채택

® 해당 회귀계 는 의하지 않음(의미가 없음).

• α=0.05³P-값 : 귀 가 (H0) 각

® 해당 회귀계 는 의함(의미가 있음).

4장 회귀분

Page 25: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• 결 계 (coefficient of determination)

• 결 계 R2는 주어진 자료에 의하여 추 회귀식이해당 자료를 얼마나 잘 명하고 있는지 여부를 보여주는 값임.

• 이 값 0과 1 사이의 값 로 나타나는데 1에 가까울 록 추 회귀식이 해당 자료를 잘 명하고있다고 할 있음(0£R2£1).

• 단 회귀분 의 경우 결 계 는 독립변 x 종속변 y의 상 계 의 곱과 같음.

4장 회귀분

Page 26: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

• 조 결 계 (adjusted R2)

• 일 로 결 계 값 그 자체보다는 조 결 계값 로 단함.

• 회귀모 에 독립변 의 가 많을 록 결 계 값이증가할 것이며, 그 결과 가장 좋 모 로 여겨질 우

가 있음. 이 같 단 을 보완하 해 독립변의 가 증가함에 라 벌칙을 부과하도록 고안한 것이조 결 계 임.

• 그리고 조 결 계 값이 크다고 조건 좋 것도아님. 왜냐하면 결 계 값 독립변 의 가 많아도증가하며, 더욱이 독립변 간에 상 계가 존재하더라도 커지 때 임.

4장 회귀분

Page 27: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

통계학(Y)

학(X)

857476908587949881917674

655055655570657055705055

4장 회귀분

여 x y는 회귀직 의 의미가 있는지를 검 함.두 변 간 직 계가 존재하면 βi가 0이아닐 것이고, 직 계가 없 면 β1는 0임.회귀식에 한 검

H0 : βi=0 vs. H1 : βi¹0

회귀계 에 한 검H0 : β0=0 vs. H1 : β0¹0H0 : β1=0 vs. H1 : β1¹0

yi=30.043+0.897xi

r2=0.7438

^

Page 28: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

4장 회귀분

Page 29: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

매출액(y) 고비(x)

425370200580620650700490610290320350400518545

232116343236403735202021232130

yi= 10.59 + 16.89xi, r2=0.7949

(0.1573) (7.0973) d.f.=13

[0.8774] [0.0000] F-통계량[F(1, 13)]=50.372

( )안 t-통계량, [ ]안 P-값임.

^

4장 회귀분

Page 30: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

단 회귀모 의 추 (estimation of simple regression)§ 회귀분 의 결과에 한 해

4장 회귀분

Page 31: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 자연 사회 상을 명하는데 있어 종속변 의 변화가 하나의 독립변 만 로 충분히 명할 없는 경우가 많음.

§ 라 독립변 를 히 여러 개 택하여 이들의 함 로종속변 를 명하는 것이 더 확할 있음.

§ 이 경우의 회귀모 을 다 회귀모 이라 하며, 이는 다음의 식과 같이 나타낼 있음

yi=β0+β1x1i+β2x2i+ ××× +βkxki+εi, i=1, 2, ×××, n

여 β0, β1, β2, ×××, βk는 추 해야 할 회귀계 이고, εi는 독립로 N(0, σ2)을 르는 차항임.

§ 다 회귀모 에 도 회귀계 들의 추 값 β0, β1, β2, ×××, βk는 최소 곱법(least square method)에 의해 구할 있고, 각 회귀계

들에 한 검 도 단 회귀모 에 동일하게 진행 .

4장 회귀분

^ ^ ^ ^

Page 32: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ Excel의 메뉴에 데이 -데이 분 을 클릭한 후 ‘회귀 분 ’을 택하고 확인 버튼을 름.

4장 회귀분

Page 33: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 회귀 분 에 각 변 (Y, X) 지 , 이름표(L) 사용, 신뢰 (F)

, 잔차(y-y)를 택한 후 확인 버튼 름.

4장 회귀분

^

Page 34: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 회귀분 의 결과에 한 해

4장 회귀분

yi=53.68 +0.61x1-1.93x2

r2=0.8289

^

회귀계 들 x1변 ( 학)에 한 P-값 0.014

로 α=0.05보다 작 므로 귀가 ‘H0 : β1=0’을 각하

여 종속변 (통계학 )에의하게 향을 미치지만,

x2변 (결 횟 )에 한 P-값 0.064로 α=0.05보다크므로 귀 가 ‘H0 : β2=0’을 각할 없어 결 횟는 통계학 에 의하게

여하지 못하고 있음.

분산분 표에 F-값 21.80이고, 이에응하는 P-값( 의한 F) 0.0003

로 의 α=0.05보다 작 므로 귀가 ‘H0 : β1=β2=0’을 각하여 독

립변 들 어도 하나 이상의 변는 종속변 를 명하는데 의하게

여함.

Page 35: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 다 공 (multicollinearity)

• 회귀모 에 종속변 의 변동을 명하거나 하해 사용 독립변 들 실 로 부분 로 독립이 아님.

• 이 같이 다 공 이란 독립변 들 간에 한 상계가 존재하는 것을 말하며, 이 같 경우에는 독립변의 계 가 확히 추 지 못하는 가 생함.

• 를 들어 y=1+2x의 회귀모 에 x 동일한 변 인 z를 포함시킨 후 추 하게 면 y=1+1.5x+0.5z 는y=1-1.3x+3.3z 등과 같이 x z계 의 합이 2가 는

식 모두 추 회귀 로 사용 있음.

• 이 같이 로 한 계에 있는 변 들의 계는 확히 추 할 없을 뿐만 아니라 는 달리

의 부 를 갖는 추 치를 얻는 경우도 종종 있음.

4장 회귀분

Page 36: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 다 공 (multicollinearity)

• 다 공 이 존재하는 경우 z가 포함 상태에 는 x가 y의 변동을 추가 로 명할 것이 없 므로 독립변 모두를 외시킬 는 없지만 그 하나는 다른변 가 회귀모 에 포함 어 있는 한 외시킬 있음.

• 다 공 이 존재하는 경우 확한 추 치를 구하는법 계량경 학 교재를 참고하 람.

• 여 는 할 있는 법 다 공 이 있는 변 들에 분 자의 단에 라 일부의 변 를 외시키

는 법임.

• 그리고 변 를 외시킨 후 다시 회귀계 에 한 가검 을 해야 함.

4장 회귀분

Page 37: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 더미변 를 포함한 회귀분

• 지 까지 회귀분 에 의 독립변 는 그 값의 크 를할 있는 량 변 들(quantitative variables)이었음.

• 그러나 경우에 라 는 종속변 의 값 개별 상이속하는 집단의 특 에 의해 도 향을 도 함.

• 즉, 범주 변 들(categorical variables)인 계 (seasons), 월(months), 지역(regions) 등과 같 자료의 경우임.

• 이 같이 특 요인들(범주 변 들)에 의하여 향을는지를 살펴보고자 할 때 더미변 (가변 : dummy variable)를 사용함.

• 더미변 를 포함하는 경우 다 회귀모 다음과 같음.

y=β0+β1x1+β2D+ε

4장 회귀분

Page 38: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 더미변 를 포함한 회귀분

• : 건국 학교 주변 폰 리 자료를 가 함.

4장 회귀분

분산분 표에 F-값 69.84이고, 이에응하는 P-값( 의한 F) 0.0002로의 α=0.05보다 작 므로 귀 가‘H0 : β1=β2=0’을 각하여 독립변

들 어도 하나 이상의 변 는 종속변 를 명하는데 의하게 여함.

x1(훈 시간)의 계 에 한 검 결과 귀가 을 각하여 y에 의하게 향을 미치지만, 더미변 D의 계 에 한 검 결과귀 가 을 각할 없음. 즉, 더미변 가회귀모 에 포함 어 있더라도 y의 변동을

명하는 데는 x1이 필요하지만 x1이 포함상태에 D는 y의 변동에 추가 로 명할것이 없음을 의미함.y=8.8056+0.4356x1+1.778D

Page 39: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 여러 개의 더미변 를 포함한 회귀분

• 앞의 에 같이 범주 변 의 범주가 2개인 경우 1개의 더미변 를 이용하여 분 할 있었음.

• 즉, 건국 학교 근처이면 1, 아니면 0의 값을 가짐 로써폰 리 들을 구분할 있었음.

• 그러나 만일 변 의 범주가 3개 이상이면 하나의 더미변로는 모두를 구분할 없음.

• 를 들어 지역이 A, B, C이면 2개의 더미변 를 사용

• A지역이면 “D1=1, D2=0”

• B지역이면 “D1=0, D2=1”

• C지역이면 “D1=0, D2=0”

• 라 회귀식 y=β0+β1x1+β2x2+β3D1+β4D2+ε이 .

4장 회귀분

Page 40: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 여러 개의 더미변 를 포함한 회귀분

4장 회귀분

• 지역 분류가 3곳이므로 더미변 는 다음과같이 2개를 사용함.

• A지역이면 “D1=1, D2=0”

• B지역이면 “D1=0, D2=1”

• C지역이면 “D1=0, D2=0”

• 라 매출액(y) 고비(x1), 보 스(x2), D1, D2의 독립변 로 표 있음.

• 즉, 회귀식 다음과 같음.

y=β0+β1x1+β2x2+β3D1+β4D2+ε

Page 41: 제4장 회귀분석 - elearning.kocw.netelearning.kocw.net/contents4/document/lec/2013/Konkuk/Leegiseong/4.pdf · §회귀분석의결과에대한해석 ... 증가할것이며, 그결과가장좋은모형으로여겨질우

다 회귀모 의 추 (estimation of multiple regression)§ 여러 개의 더미변 를 포함한 회귀분

4장 회귀분

분산분 표에 F-값 91.638이고, 이에 응하는 P-값( 의한 F)0.0000 로 의 α=0.05보다 작 므로 귀 가 ‘H0 :

β1=β2=β3=β4=0’을 각하여 독립변 들 어도 하나 이상의변 는 종속변 를 명하는데 의하게 여함.

모든 독립변 들의 회귀계의 t-값이 2의 값보다 큰 값을 가지며, P-값도 α=0.05보다작 므로 귀 가 을 각하여 y에 의하게 향을 미치는 것 로 나타남.

y=471.57+1.38x1+0.82x2-261.14D1-201.54D2

A지역의 경우(D1=1, D2=0)

y=471.57+1.38x1+0.82x2-261.14(1)-201.54(0)

B지역의 경우(D1=0, D2=1)

y=471.57+1.38x1+0.82x2-261.14(0)-201.54(1)

C지역의 경우(D1=0, D2=0)

y=471.57+1.38x1+0.82x2-261.14(0)-201.54(0)