23장. 상관분석

24
제 23 제 . 제제제제

Transcript of 23장. 상관분석

Page 1: 23장. 상관분석

제 23 장 . 상관분석

Page 2: 23장. 상관분석

상관 분석 - 2

두 변수의 상호 의존관계

- 이들간에는 무슨 관계가 있을까 ? - 이들간에는 얼마나 강한 관계가 있을까 ?

- 이들간에는 어떠한 관계가 있을까 ?

지능지수 VS. 학업성적

흡연량 VS. 폐암발생률

공정온도 VS. 제품강도

두 변수의 상호 의존관계를 산점도와 상관분석을 통하여 해결할 수 있다 .

Page 3: 23장. 상관분석

상관 분석 - 3

• 산점도 (Scatter Plot) 는 두 변수 사이의 관계를 도표를 통해 쉽게 파악할 수 있으며 서로 대응하는 자료를 좌표평면 상의 점들로 나타낸 것이다 . 다음의 예를 산점도로 그려보자 .

예 : 학생들의 과목별 성적

학생번호 1 2 3 4 5 6 7 8 9 10

수 학 60 64 48 46 78 60 90 50 66 70

물 리 70 68 46 48 84 64 92 52 68 72

음 악 80 70 88 66 76 86 84 74 60 78

두 변수의 관계 파악 I - 산점도

Page 4: 23장. 상관분석

상관 분석 - 4

40

50

60

70

80

90

100

40 50 60 70 80 90 100

수 학

40

50

60

70

80

90

100

40 50 60 70 80 90 100

수 학

산점도 (Scatter Plot)

수학점수가 증가 하면 물리점수도 증가함을 알 수 있다 .

수학점수가 증가하더라도 음악점수의 증가여•부를 알 수 없다.

Page 5: 23장. 상관분석

상관 분석 - 5

열로입력열로입력

미니탭 활용 : Scatter plotsStep 1. 데이터 입력

Page 6: 23장. 상관분석

상관 분석 - 6

미니탭 활용 : Scatter plots

Simple 선택 각각의 Y, X variables 입력

Step 2. Graph > Scatterplot…

Page 7: 23장. 상관분석

상관 분석 - 7

미니탭 활용 : Scatter plotsStep 3. 결과확인

Page 8: 23장. 상관분석

상관 분석 - 8

산점도의 다양한 형태

• 다음의 그래프는 다양한 형태의 산점도를 보여 주고 있다 .

Page 9: 23장. 상관분석

상관 분석 - 9

산점도를 통해서는 두 변수간의 관계를 대략적으로 밖에 알 수 없다 .

두 변수들간의 관계를 수치로 나타낼 수 있는 무언가가 필요하다 .

두 변수의 관계 파악 II - 상관분석

상관계수 (Correlation Coefficient ) 가

이러한 문제를 해결해 줄 수 있을까 ?

Page 10: 23장. 상관분석

상관 분석 - 10

)()(

),(

YVarxVar

YXCov

상관계수 (Correlation Coefficient)

두 변수들간의 관계를 수치로 나타낸 측도가 바로 상관계수이다 .

일반적으로 로 표시하며 그 범위는 1 1 이다 .

Cov (X,Y) 는 X 와 Y 의 공분산을 나타낸다 .

Var(X) 와 Var(Y) 는 X 와 Y 의 분산을 나타낸다

.

Page 11: 23장. 상관분석

상관 분석 - 11

22 )()(

))((ˆ

yyxx

yyxxr

ii

ii

상관계수의 추정

일반적으로 의 정확한 값은 알 수 없으며 , 따라서 샘플로부터

추정한 값 r 을 사용한다 . r 은 다음 식에 의해 구해지며 -1

r 1 이다 .

Page 12: 23장. 상관분석

상관 분석 - 12

r 값이

r 이 -1 에 근접 r 이 +1 에 근접

상관계수의 성질

(+) 이면 양 ( 정 ) 의 상관관계

() 이면 음 ( 부 ) 의 상관관계

0 에 가까우면 상관관계 없음

Page 13: 23장. 상관분석

상관 분석 - 13

상관계수의 성질

• r 값이 ±1 에 가까울수록 상관관계가 높다 .

-1.0-1.0 00 +1.0+1.0

음의음의 상관계수상관계수

양의양의 상관계수상관계수

““r”” 무상관계수무상관계수

의사 결정점 의사 결정점

상관관계의 존재 유•무를 나타내는 의사결정점은 어떻게 계산되나 ?

Page 14: 23장. 상관분석

상관 분석 - 14

n n

17 0.482 100 0.196

5 0.878 18 0.4686 0.811 19 0.4567 0.754 20 0.444

8 0.707 22 0.4239 0.666 24 0.404

10 0.632 26 0.38811 0.602 28 0.37412 0.576 30 0.36113 0.553 40 0.31214 0.532 50 0.279

15 0.514 60 0.25416 0.497 80 0.22

의사결정점 의사결정점 ``

상관표상관표는 샘플의 크기 (n) 에 따라 상관관계 (+ 또는 -) 의 존재 유•

무를 통계적으로 결정하는데 사용되는 의사 결정점의 표이다 .

두 변수의 상관계수의

절대값이 상관표에

있는 의사결정점

이상이면 상관 관계가

있다고 판정한다 .

상관관계의 존재 유•무는 상관계수와 샘플의

크기 (n) 에 따라

결정된다 .

Page 15: 23장. 상관분석

상관 분석 - 15

산점도와 상관관계

강한 양의 상관관계 약한 양의 상관관계 중간정도의 양의 상관관계

| r | = 0.936 | r | = 0.560 | r | = 0.339

강한 음의 상관관계 약한 음의 상관관계 중간정도의 음의 상관관계

Page 16: 23장. 상관분석

상관 분석 - 16

상관분석을 위해 반드시 필요한 것은 :

이변량 데이터 : 두개의 계량형 데이터를 의미한다 .

수학적으로 표현하면 , 이변량 데이터는 쌍을 이룬다 .

- 이것을 X 와 Y 로 부르자 . (X, Y)

X 는 입력 변수 , 그리고 Y 는 출력 변수에 해당한다 .

X (입력 )

X1

X2

X3

.

.

.

Xn

Y (출력 )

Y1

Y2

Y3

.

.

.

Yn

( 반응 ) ( 요인 )

상관 데이터 요건

Page 17: 23장. 상관분석

상관 분석 - 17

미니탭 활용 : 상관분석

열로입력열로입력

Step 1. 데이터 입력

Page 18: 23장. 상관분석

상관 분석 - 18

수학점수와 물리점수가 입력된 열을 지정한다 .

미니탭 활용 : 상관분석Step 2. Stat > Basic Statistics > Correlation…

Page 19: 23장. 상관분석

상관 분석 - 19

수학과 음악 성적 사이의 상관계수 r =0.978 이고 P-Value 가 0.000

이므로 두 과목의 성적은 상관관계가 있다 .

미니탭 활용 : 상관분석Step 3. 결과확인

Page 20: 23장. 상관분석

상관 분석 - 20

상관계수의 검정에서 귀무가설과 대립가설은 다음과 같다 .

즉 , H0 : 수학과 물리의 상관관계는 존재하지 않는다 .

H1 : 수학과 물리는 상관관계가 존재한다 .

귀무가설 H0 : = 0

대립가설 H1 : ≠ 0

결론 : 앞의 가설검정과 동일하게 P-Value 값이 유의수준 보다 작으면 대립가설을 채택한다 . 즉 , 두 변수간에 상관관계가 존재한다 .

상관분석의 가설검정

Page 21: 23장. 상관분석

상관 분석 - 21

상관계수의 남용과 오용

두 변수 사이의 상관관계가 존재한다는 것을 검정했다고 해서

반드시 한 변수가 다른 변수의 원인이 되는 것은 아니다 .

두 변수 모두에게 영향을 끼치는 제 3 의 변수가 숨어 있을 수도

있다 .

즉 , 두 변수사이에 상관관계가 존재한다고 결론짓는 것이 곧

한 변수가 다른 변수의 원인이 되는 것은 아니다 .

상관관계가 곧 인과관계를 의미하는 상관관계가 곧 인과관계를 의미하는 것은 것은 아니다아니다 !!

Page 22: 23장. 상관분석

상관 분석 - 22

우리는 향후 대학교 학점이나 주가지수를 예측할 수 있다.

우리는 향후 대학교 학점이나 주가지수를 예측할 수 있다.

예측 모델을 결정할 수 있다면 , 많은 도움이 될 수 있다

대학교 학점 = 0.5*a +0.01*b-2.7*c단 , a = 고교내신 성적 b = 수능 점수 c = 동아리 수

또는 ,

주가지수 = 3.8*a - 2.5*b + 1.7*c단 , a = 총 판매량 b = 환율 c = 실업률

회귀분석

상관분석과 회귀분석

Page 23: 23장. 상관분석

상관 분석 - 23

심화학습Minitab 을 활용하여 수학 , 물리 및 음악의 상관관계를 한번에

확인할수 있다 .

수학과 물리의 상관계수

수학과 물리의 P-Value 값

수학과 물리를 제외한 나머지 과목들 사이에 상관관계가 존재하지 않는다 .

Page 24: 23장. 상관분석

상관 분석 - 24

순도와 촉매량의 상관계수를 구하고 상관관계가 존재하는지를 알아

보라 . 또한 산점도를 그려라 .

화학공정에서 순도 (Y) 에 영향을 미치는 입력변수로 촉매량 (g) X 이

있다 . 촉매량에 따라 순도가 어떻게 변화하는지를 알아보기 위해

실험을

실시하였다 . 촉매량을 1g 에서 8g 까지 변화시키면서 실험하였고

이에 따라 얻어지는 순도를 측정하였다 .

x 1 2 3 5 6 7 8

y 83 84 86 88 89 92

94

자율학습문제