연구학교 데이터분석

엑셀을 활용한 통계분석 맛보기

청성초등학교 교사 김성훈

효과성 검증 ?!

6 희귀분석5 상관관계분석

4 ANOVA

3 t-test

2 척도와 분석1 기초통계개념

3

통계분석

1. 모집단과 표본 I. 기초통계개념

모집단 표본

모수(parame-

ter)

통계량(statis-

tics)

표본추출(sam-pling)

4

추론통계

I. 기초통계개념

5

분류 목적 및 이용분석 방법

기술통계 몇 개의 대표되는 숫자로 자료 전체를 요약하여 자료를 양적으로 축소하거 나 , 정리된 표나 그래프를 통하여 자료의 특징을 파악하는 방법=> 빈도분석 , 기술통계분석 등 이용

추론통계둘 혹은 셋 이상의 집단 간에 차이가 있는지 , 변수 간에 상관 혹은 영향관 계가 있는지를 표본자료로 파악하여 모집단에 적용하는 분석방법 .이 결과의 적용에 오류가 있을 수 있으며 , 이를 확률적으로 파악함 .=> 교차분석 , t-test 분석 , 분산분석 , 상관관계 , 회귀분석 등 이용

2. 기술통계와 추론통계

3. 가설I. 기초통계개념

1) 개념 분류 내용귀무 가설 “ 아무런 차이가 없다” 또는 “전혀 효과가 없다”는 내용을 의미하는

주장 대체로 연구에서는 귀무가설을 거부하기 위해 설정

대립 가설 “ 차이가 있다” 혹은 “효과가 있다”는 귀무가설의 반대개념 귀무가설이 기각되고 대립가설이 받아들여지면 자료는 “ 통계적으로 유의하다”고 표현예 ) 아프리카 원주민의 한국 정당 선호비율은 ?

-> 아무 것도 모르기 때문에 3 개 정당이면 33%, 33%, 33% 로 나타날 것이다 ( 무작위 결과 )

예 ) 영유아의 경제력과 행복과의 관계-> 영유아는 경제 ( 돈 ) 에 대한 관념이 형성되지 않 았기 때문에 돈이 많은 것과 행복은 별개

귀무가설과 대립가설의 관계는 피고인의 무죄와 유죄와의 관계와 유사하다 . 무죄( 귀무 ) 라는 사실에 입각하여 증거가 많아질수록 유죄 ( 대립 ) 로 간다 .

6


차이의 가설 귀무가설 : 소득수준에 따라서 선호하는 자동차 유형은 차이가 없다 . 대립가설 : 소득수준에 따라서 선호하는 자동차 유형은 차이가 있다 .

상관 관계의 가설

영향 관계의 가설귀무가설 : 소득수준이 선호하는 자동차 유형에 영향을 미치지 않을 것이다 . 대립가설 : 소득수준이 선호하는 자동차 유형에 영향을 미칠 것이다 .

귀무가설 : 소득수준에 따라서 선호하는 자동차 유형은 관계가 없다 . 대립가설 : 소득수준에 따라서 선호하는 자동차 유형은 관계가 있다 .

7

2) 귀무가설과 대립가설 설정


가설 검정표본으로부터 얻은 사실에 근거하여 , 모집단에 대한 가설이 맞는지 틀리는지를 통계적으로 검정하는 방법

가설 기각실제 표본의 관측치와 이론치와의 차이가 확률적인 오차의 범위를 넘 어 오류라고 판단되는 것

가설 채택관측치와 이론치의 차이가 신뢰수준 범위내에 존재하는 것

8

3) 가설의 기각과 채택


4) 유의수준과 임계치유의수준

(significant level)

제 1 종 오류를 범할 확률을 유의수준이라고 하여 α 로 표시보통 유의수준 (α) 은 0.10, 0.05, 0.01 등으로 정하는 경우가 많다 .

임계치(critical value)

주어진 유의수준에서 귀무가설의 채택과 기각에 관한 의사결정을 할 경우 , 그 기준이 되는 점 ( 기각치 ).

검정통계량

귀무가설 ( 영가설 :HO)채택대립가설 ( 연구가설 :H1) 채택신뢰수준 95%

귀무가설의중심유의수준

(α )=0.05(5%)임계치

α/2=0.025

α/2=0.025

9

전교 학생들의 평균 총점을 추정한 값은 300 점이다 . 그러나 다른 의견이 있어 표본 25 명을 선발해 조사했더니 평균 총점이 310 점이 나왔다 . 이때 어느 의견이 더 타당한지 유의수준 5% 에서 검정하시오 . ( 단 총점의 모표준편차는 30 이다 .)


5) 가설검정의 예예 ) A 반 100 명의 평균은 75 점 ( 표준편차 10), B 반 100 명의 평균은 80 점 ( 표준편차 16) 이라고 할 때 , 두 반의 평균차이가 유의한지 가설을 설정하고 검증하여라 ( 신뢰수준 95%)

• 귀무가설 : 두 반의 평균은 다르지 않다 . ( 두 반의 성적은 차이가 없다 .)• 대립가설 : 두 반의 평균은 다르다 . ( 두 반의 성적은 차이가 있다 .)

검정통계량

t 값 = 1.03: 귀무가설 채택t 값 = 2.35: 대립가설 채택신뢰수준 95%

차이가 없다유의수준

(α)=0.05(5%)

임계치

검정통계량의 의미 귀무가설로부터 약 몇배 떨어져 있다α/2=0.025

α/2=0.025

11


귀무가설 / 대립가설의사결정대안 설정

유의수준 (α) 선택 및 기각 영역 설정

표본통계량 ( 검정통계량 ) 계산 도출

표본통계치를 이용한 가설 검정 및 최선의 대안 선택

H0: 수업방식의 변화가 평균점수의 변화에 영향을 미치지 않을 것이다 .H1: 수업방식의 변화가 평균점수의 변화에 영향을 미칠 것이다 .

유의수준 0.05( 신뢰수준 95) 에서 가설채택 여부

대립가설 채택 , 즉 수업방식이 시험성적에 긍정적 영향을 미침최선 대안 : 새로운 방식의 수업을 지속적으로 실시함

통계량 t-value=3.134, p=0.001

12

4. 가설검정의 순서


13

분석방법 독립 - 종속 귀무가설 (H0)/ 대립가설 (H1) 검정통계량 p

교차분석 범주 - 범주 H0: 독립변수에 따라 종속변수에는 차이가 없다 . H1: 독립변수에 따라 종속변수는 차이가 있다 .

ᵡ2 P<0.05→ 대립독립표본t-test 범주 - 연속 H0: 독립변수에 따라 종속변수에는 차이가 없다 .

H1: 독립변수에 따라 종속변수는 차이가 있다 . t-valueP<0.05→ 대립

분산분석 범주 - 연속 H0: 독립변수에 따라 종속변수에는 차이가 없다 . H1: 독립변수에 따라 종속변수는 차이가 있다 . F-value

P<0.05→ 대립상관관계

분석 연속 - 연속 H0: 독립변수와 종속변수는 상관관계가 없다 . H1: 독립변수와 종속변수는 상관관계가 있다 . r(rho)

P<0.05→ 대립

회귀분석 연속 - 연속 H0: 독립변수는 종속변수에 영향을 미치지 않는다 . H1: 독립변수는 종속변수에 영향을 미친다 .

F-value t-value

P<0.05→ 대립

5. 분석방법과 통계량


4 ANOVA

3 t-test


14

SPSS 중급통계분석

1. 4 가지 척도 Ⅱ. 척도와 분석방법

15

척도 / 자료의 종류가 무엇인가에 따라 분석방법이 결정 됨 . 따라서 척도의 자료의 종류를 이해하는 것은 분석에 앞서 매우 중요함 . 척도란 사물이나 사람의 특성을 하나의 기준으로 숫자를 부여한 것 .

종류 정의 ( 예 ) 구분 분석방법명목척도 측정대상 ( 응답자 ) 을 단지 분류할 목

적으로 숫자를 부여한 척도 성별범주형 자료 빈도분석서열척도 측정대상 ( 응답자 ) 간에 순서 /

서열적 의미 ( 높고 낮음 ) 가 있는 척도

학력

등간척도 측정대상 ( 응답자 ) 간에 순서 뿐만 아 니라 숫자의 간격이 동일하여 양적 인 정도를 알 수 있는 척도

온도연속형 자료 기술통계

비율척도 등간척도와 유사하나 , 0 의 의미가‘ 실제로 없다’고 말할 수 있는 척도 소득

Ⅱ. 척도와 분석방법

척도와 분석간의 관계독립변수

범주형 자료 연속형 자료

종속변수범주형 자료 교차분석

로지스틱 회귀분석 프로빗 분석

판별분석 , 군집분석

연속형 자료 t-test분석분석 (ANOVA)

상관관계분석 회귀분석 경로분석 SEM 분석

2. 척도와 척도의 분석방법

16


17

2. 척도와 척도의 분석방법1) 교차분석

독립변수와 종속변수가 모두 범주형인 경우 두 변수간의 관계를 파악하는 통계분석방법 .

교차분석의 예

문 1. 귀하의 성별은 ?

① 남성 ② 여성문 2. 귀하가 선호하는 패밀리레스토랑은 ?

① TGI ② 베니건스 ③ VIPS ④ 아웃백

구분 TGI 베니건스 VIPS 아웃백 전체

남 30 30 30 30 120 명여 25 25 30 50 130 명

전체 55 55 60 80 250 명


18

2. 척도와 척도의 분석방법

t-test 와 분산분석의 예

문 1. 귀하의 성별은 ?① 남성 ② 여성

문 2. 귀하의 연령대는 ?① 20 대 이하 ② 30 대 ③ 40 대 이상

문 3. 귀하께서는 TGI 에 얼마나 만족하십니까 ?① 매우 불만족 ② 불만족 ③ 보통 ④ 만족 ⑤ 매우 만족

2) t-test 와 분산분석

독립변수가 범주형이고 , 종속변수가 연속형 자료 독립변수 범주가 2 개 : t-test 독립변수 범주가 3 개 이상 : 분산분석구분 N( 명 ) 평균 표준편차

남 120 3.4 0.23

성별 여 130 3.2 0.3

20 대 이하 80 3.4 0.3

연령대 30 대 90 3.2 0.27

40 대 이상 80 3.3 0.29

전체 250 3.3 0.31


19

3) 상관관계분석과 회귀분석2. 척도와 척도의 분석방법

독립변수와 종속변수가 모두 연속형인 경우 두 변수간의 관계를 파악하는 통계분석방법 . 두 변인간 상관 정도를 파악하는 분석 :상관관계분석 독립변수가 종속변수에 미치는 영향 분석 :회귀분석

상관관계분석

회귀분석

변수 TV광고 횟수

라디오 광고횟수

신문광고 횟수

온라인 광고횟수

매출액 0.343** 0.304** 0.294** 0.283**

변수비표준화계수 표준화

계수 t pb S.E. β

TV 0.232 0.085 0.343 2.729 0.000***

라디오 0.193 0.097 0.310 1.990 0.032*

신문 0.094 0.092 0.293 1.022 0.432

온라인 0.087 0.088 0.292 0.989 0.842

R²=0.325, F=76.422, p=0.000***

기간 TV 광고 횟수

라디오 광고횟수

신문광고 횟수

온라인 광고횟수

매출액2009.1 4 12 23 23 12.5억2009.2 5 13 24 32 12.9억2009.3 4 15 25 46 12.6억2009.4 5 13 30 45 13.5억2009.5 6 12 34 57 14.5억2009.6 6 17 15 65 16.5억2009.7 5 18 32 43 15.4억

··

··

··

··

··

··

2011.12. 7 19 25 56 18.3억

Ⅱ. 척도와 분석방법2. 척도와 척도의 분석방법4) 로지스틱 회귀분석 / 판별분석 / 군집분석 5) 기타 통계분석 독립변수가 연속형이고 , 종속변수가 범주형 자 료 독립변수가 종속변수에 미치는 영향 분석

: 로지스틱 회귀분석• 신체관련 변수 ( 연령 , 키 , 몸무게 , bmi 등 ), 건강행위 관련 변수 (흡연정도 , 음주정도 등 ) 중 어떠한 변수가 암발생 ( 정상/환자 ) 에 영향을 미치는가 ?

종속변수 집단을 판별하는 주요한 변수 분석: 판별분석• 고객분류 (VIP 고객 / 우수고객 / 일반고객 ) 을 분류하는 소비 행위변수 (쇼핑횟수 , 시간 , 지출액 등 ) 은 무엇인가 ?

기준변수를 설정하여 유사한 특성을 보이는 소비 집단 (군집 ) 을 파악하여 마케팅 조사에서는 특히 ‘시장세분화’에 많이 사용되는 분석: 군집분석• 고객소비특성에 따른 Heavy User, Middle User, Light User는 ?• 제품관여도 / 라이프스타일에 따른 소비군집은 ?

신뢰도 및 요인분석 : 다항목으로 한 개념을 측정하고자 할 때 , 척도의 타당도와 신뢰도를 측정하는 방법 .특히 요인분석은 군집분석과 결합하여 사용( 요인분석→군집화 기준변수 →군집분석 )• 고객만족도를 조사하기 위하여 5 개 문항은 타당한가 ?• 패션관심도 , 외모관심도 , 웰빙관심도 3 개 요인으로 도출되어 군집분석

20

컨조인트분석 : 결합분석이라고도 하며 , 대안의 컨셉 / 제품 / 카피 안에 대한 최적의 조합을 찾아 내고 , 세분시장별 중요 요인을 파악하고 , 시장점유율을 예측하는 방법• 가격 (300/400 원 ), 디자인 ( 전문적 / 전통적 ), 기능 (옵션 /노옵션 ) 의 최적의 조합 컨셉 ?

대응분석과 다차원척도법 : 지각도 작성 (포지셔닝맵 ) 방법• 경쟁사들과 자사에 대한 소비자의 지각형성도는 ? 자사의 경쟁업체는 ?• 어떤 포지셔닝 전략이 현실적 ( 단기적 ), 이상적 ( 중장기적 )인가 ?


4 ANOVA

3 t-test


21


Ⅲ.t-test

22

1. 개념과 통계량9✓ 개념

➢ 기네스맥주회사과학자고셋 (Gosset)이

1908 년에고안한분석방법

➢ 두표본집단간에평균의차이를

검증하기 위해사용

➢ 독립변수 (2 개집단 ), 종속변수 ( 연속형자료 )

➢ 일반적으로 t-test 분석이라함은독립표본

t-test 를말함

✓ 통계량

➢ t-value : t-test 분석의검정통계량

• 집단간에평균차이가얼마나있는가를

계산한결과

➢ 유의확률 (p) : 검정통계량을 t분포상에

위치한확률값

• t 값을확률적값으로변환한값

Ⅲ.t-test

23

2. t-test 의 종류일표본 t-test 특정한 평균을 기준으로 해당 표본의 평균이 같은지를 검정• 예 1) 우리 학교 학생의 영어성적은 전국 영어평균과 다른가 ?• 예 2) 서울의 집값은 선진국에 비해 높은가 ?독립표본 t-test 두 개의 독립적인 표본 간에 하나의 종속변수의 평균이 동일한가를 검증• 예 1) 남녀직원들 간에 회사에 대한 만족 수준은 같은가 ? 다른가 ?• 예 2) 결혼한 사람과 결혼하지 않은 사람 중 누가 더 행복한가 ?대응표본 t-test 동일한 표본의 A 시점의 점수화 B 시점의 점수 변화 차이를 검증• 예 1) 영상학습법 적용 이후 학생들의 성적은 올랐는가 ?• 예 2) 결혼 전과 결혼 후 남성들의 인생관이 달라지는가 ?

Ⅲ.t-test

3. 일표본 t-test1) 사용목적 표본의 평균이 어떤 수와 같은가를 검증 하기 위해 사용 알려진 평균 VS 표본데이터의 평균 비교

2) 가설검정과 검정통계량 귀무가설 : 중간영어점수는 80 점이다 . 대립가설 : 중간영어점수는 80 점과 차이 가 있다 . 검정통계량 : t-value, 자유도 (df),

이를 고려하여 -> 유의확률 (p) 의 계산

구분 명수 평균 표준 편차

표준 오차

중간 영어점수

36 72.19 20.324 3.39

중간영어점수 : 80점

24

Ⅲ.t-test

25

4. 독립표본 t-test1) 사용목적

두 표본 집단 간에 평균의 차이를 검증하기 위해 사용 독립변수 (2 개 집단 ), 종속변수 ( 연속형 자료 )

2) 가설검정과 검정통계량 귀무가설 : 통제집단과 실험집단의 중간영어

성취도점수는 차이가 없다 . 대립가설 : 통제집단과 실험집단의 중간영어

성취도점수는 차이가 있다 . 검정통계량 : t-value, 자유도 : df,이를 고려하여 -> 유의확률 (p) 의 계산구분 명수 평균 표준

편차표준 오차

통제집단 20 71.40 20.41 4.56

실험집단 16 73.19 20.84 5.21

Ⅲ.t-test

26

5. 대응표본 t-test1) 사용목적

두 변수 간의 평균 차이를 분석 사전점수 - 사후점수 , 중간고사 -기말고사 , 만족도 - 중요도 등의 차이 분석

2) 가설검정과 검정통계량 귀무가설 : 사전점수와 사후점수 간에는 차이가 없다 . 대립가설 : 사전점수와 사후점수 간에는 차이가 있다 . 검정통계량 : t-value, 자유도 : df, 이를 고려하여 -> 유의확률 (p) 의 계산구분 명수 평균 표준

편차표준 오차

사전점수 100 78.4 10.3 1.03사후점수 100 82.3 11.2 1.12


4 ANOVA

3 t-test


27


1. 분산분석의 개념

28

1) 개념과 통계량 개념

세 집단 이상 간의 평균차이 분석 독립변수 (3 집단 이상 ), 종속변수 ( 연속형 변수 )

2) 가설검정과 검정통계량 귀무가설 : 인문 / 이공계 / 상경계 학생들 간에는 월평균 용돈에 차이가 없다 . 대립가설 : 인문 / 이공계 / 상경계 학생들 간에는 월평균 용돈에 차이가 있다 . 검정통계량 : F-value, 자유도 : df, 이를 고려하여–> 유의확률 (p) 의 계산

구분 명수 평균 표준 편차

왜도 첨도 표준오차

인문계 100 34.3 8.42 1.23 0.54 0.842사후점수 100 36.4 9.43 2.43 0.94 0.943

상경계 100 39.4 7.54 1.95 1.31 0.754

[ 집단 기술통계 ]

Ⅳ. 분산분석(ANOVA)

2. 분산분석의 SPSS

분석 -> 평균비교 -> 일원배치 분산분석으로 들어간다 .

요인에 범주형 독립변수를 , 종속변수에 연속형 종속변수를 각각 넣는다 .

전시관만족도 .sav


29


옵션에서 ‘기술통계량’ 을 클릭한다 . 사후분석에서 Scheffe 또는 Duncan 방법을 체 크한다 .

( 선택하지 않으면 각 집단별 평균 등이 나오지 않는다 .)


30


31

사후검정을 왜 하는가 ? 분산분석의 귀무가설과 대립가설은 다음과 같다 . 귀무가설 : 집단 (A,B,C) 간 평균 차이는 같다 (A=B=C) 대립가설 : 집단 (A,B,C) 간 평균 차이는

다르다 (A≠B 또는 B≠C 또는 C ≠A)

즉 , 대립가설은 단 2 개의 집단간에만 차이가 나타나도 채택된다 . 따라서 어떤 집단 간에 차이가 나타나는지는 평균만으로는 부족하다 .

Scheffe 와 Duncan 일반적으로 집단의 표본수를 통제하지 못하는 서베이에서는 Scheffe 의 방법을 실험연구처럼 표본수를 동일하게 할 경우는 Duncan 방법을 선호한다 .



3. 분산분석의 결과 정리와 해석결과 해석

관람객 집단 간에 전시환경만족도에 차이가 있는지를 파악하기 위해서 일원배치분산분석을 실시한 결과 , 통계적으로 유의한 차이가 나타났다 (p<0.05). Scheffe 의 사후검증 결과 , 선생님의 만족도가 5.92 점으로 가 장 높은 반면 , 학생 ( 초등학생 , 중학생 , 고등학생 ) 및 학부모의 만족도가 낮았다 . 기타 집단은 그 중간 정도로 파악되었다 .

32


4 ANOVA

3 t-test


33


1. 개념1) 개념 두 연속형 변수 간의 상관 정도를 파악 상관계수 (-1~+1) 를 통해 표준화된 상관관계를

도출 주로 회귀분석을 하기 전에 독립↔종속 간의

상관이 있는지 탐색적 목적

2) 가설검정과 검정통계량 귀무가설 : 공부시간 / 지능지수와 성적 간에는

상관관계가 없다 . 대립가설 : 공부시간 / 지능지수와 성적 간에는

상관관계가 있다 . 검정통계량 : 상관계수 (r), 자료수 (n) 를 고려하여-> 유의확률 (p) 의 계산

구분 공부시간 지능지수 성적공부시간 1 .123 .435

지능지수 .123 1 .343성적 .435 .343 1

상관계수 의미0.2 이하 두 변수 간 상관이 거의 없음0.2~0.4 약한 상관관계가 존재0.4~0.6 강한 상관관계가 존재0.6 이상 매우 밀접한 상관관계

Ⅴ. 상관관계분석

[ 상관분석하는 이유 ](1) 회귀분석을 하기 위함(2) 독립변수간 상관관계가 낮음을 확인 (탐색적 성격 )

독립 변수종속 변수

독립변수들간의 상관관계는 낮을수록 좋음-> 그렇지 않으면 다중공선성 문제 발생-> 이 경우 독립변수 둘 중 하나를 빼야 함

(예: GDP, GNP -> 행복에 미치는 영향)

34

1. 개념3) 상관관계 적용의 예 예 1) 회사의 광고지출비용과 매출과는 상관이

있는가 ? 광고지출비용이 높은 월에 매출이 높고 , 광고 지출비용이적 은 월에는 매출이 낮은 경향을 보 이는지 ,

예 2) 소득과 행복간에는 상관이 있는가 ? 소득이 높은 사람은 행복점수가 높다고 응답하 고 , 반대로 소득이 낮은 사람은 행복점수가 낮다 고 응답하는지

4) 상관계수와 산점도Ⅴ. 상관관계분석

35


분석 -> 상관분석 -> 이변량상관관계로 들어간다 .

연속형 변수를 모두 이동시킨다 . 확인을 누르면 분석 결과가 나타난다 .

상관및회귀 .sav

Ⅴ. 상관관계분석

36

Ⅴ. 상관관계분석3. 상관관계분석의 결과 정리와 해석결과 해석

포도크기 , 숙성기간과 포도판매가격 간의 상관관계를 파악하기 Pearson 의 상관관계를 실시한 결과 , 종속 변수인 판매가격은 포도크기 및 숙성기간과 모두 유의한 정 (+) 의 상관관계를 보이고 있다 (p<0.05). 즉 포도 크기가 클수록 , 숙성기간이 길수록 판매가격이 높아지는 경향이 존재하여 , 포도크기와 숙성기간이 판매가 격에 미치는 영향관계가 성립될 수 있음을 의미한다 .

반면 , 독립변수인 포도크기와 숙성기간 간의 상관관계는 0.512 로 유의하게 나타나고 있으나 일반적으로 독립변수 간에 지나친 상관으로 인해 나타날 다중공선성 (collinearity) 의 기준인 상관관계 0.8 보다는 낮게 나타나고 있어 , 이러한 문제는 제기되지 않는다고 판단된다 .

37

Ⅴ. 상관관계분석3. 상관관계분석의 결과 정리와 해석결과 해석Cf) 자료가 5, 7 점 척도가 아닌 연속적으로 범위가 큰 경우에는 상관이 높아도 선형이 아닐 수 있음 ex) BMI 와 윗몸 일으키기따라서 반드시 그래프를 확인해 봐야 함

⇒ SPSS 메뉴의 그래프 → 레거시 대화상자 → 산점도 / 점도표 → 단순 산점도 : X 축 / Y 축에변수 설정⇒ 그래프 더블클릭 → 요소 → 전체적합선 클릭⇒ 그래프의 점 클릭 → R-click → 데이터 설명보이기⇒ 그래프의 직선 클릭 → 회귀선 적합 확인

38


4 ANOVA

3 t-test


39


1. 개념

40

1) 개념과 목적 연속형 원인변수가 연속형 결과변수에 영향을

미치는지를 파악하기 위함

원인변수와 결과변수 간에 영향관계 ( 인과관계 ) 가 성립되는지가 가장 중요

‘ 영향을 미치는가’ 와 ‘얼마나 영향을 미치는가’ 를 파악하는 것이 핵심

2) 가설검정과 검정통계량 귀무가설 : 공부시간 / 지능지수는 성적에

영향을 미치지 않는다 . 대립가설 : 공부시간 / 지능지수는 성적에

영향을 미친다 . 검정통계량 : 모형 F 검증 / 변수 t 검증 -

>유의확률 (p) 의 계산

Ⅵ.회귀분석

1. 개념

41

공부시간 / 지능지수가 성적을 설명하는 정도 ( 설 명력 / 결정계수 ): 71.2%공부시간과 지능지수 중 성적에 유의한 영향을 미치는 변수 : 공부시간 둘 중 더 큰 영향을 미치는 변수 : 공부시간(t=3.242) > 지능지수 (t=-0.351)

3) 단일회귀분석과 다중회귀분석 단일회귀분석: 원인변수 1 개가 결과변수에 영향을 미치는가를

파악하는 분석 . 다중회귀분석: 원인변수 2 개 이상이 결과변수에 영향을 미치

는가를 파악하는 분석 . 다중회귀분석에서는 여러 원인변수에서 ‘어느 변수가 결과변수에 더 중요한 (큰 ) 영향을 미치는 가’를 파악하는 것이 목적 ( 상대적인 영향력 )

4) 결과예시회귀분석 결과예시 : ‘ 공부시간과 지능지수가 성적에 미치 는 영향’

Ⅵ.회귀분석

요인 비표준화 계수

표준오차 T-value p

공부시간 4.427 1.365 3.242 0.014

지능지수 -0.101 0.288 -0.351 0.736

𝑅2=0.712 F=8.636 P=0.012

비표준화계수 : 독립변수단위가 1 증가할 때 종속변수가 변하는 정도

1. 개념

42

F-value 와 p 값: 회귀모형이 적합한가 ( 통계적으로 유의한 모형

인가 ) 를 검증한 통계량 . F 값은 클수록 , p 값은 0.05 보다 작으면

통계적 으로 유의한 모형 .

5) 주요통계량 (1)

𝑅2( 설명력 / 결정계수 ): 독립변수가 종속변수를 설명하는 정도

0~1 사이의 값을 가지며 1 이면 100% 의 설명 력을 의미함

Ⅵ.회귀분석

자유도 제곱합 제곱 평균 F 비 유의미한 F회귀 3 81.282 27.094 40.161 0.000

잔차 396 267.158 0.675

계 399 348.400

회귀분석 통계량다중상관계수 0.483

결정계수 (𝑅2) 0.233

조정된 결정계수 0.227표준오차 0.821

관측수 400

- 𝑅2 은 ‘설명력’용어로 주로 사용 , 가장 중요한 개념- 𝑅2 이 20~30% 가 되어야 일반적 , 거시경제 /주식에 서는 5% 도 안나옴

1. 개념

43

5) 주요통계량 (2) t-value 와 p 값: 각 원인변수가 결과변수에 영향을 미치는가를

검증한 통계량 . t 값은 클수록 , p 값은 0.05 보다 작으면

통계적으 로 유의한 영향을 미침 .

Ⅵ.회귀분석

계수 표준 오차 t 통계량 P- 값Y절편 2.450 0.266 9.196 0.000

제품만족도 0.246 0.058 4.240 0.000

직원만족도 0.125 0.059 2.114 0.035

이미지만족도 0.229 0.064 3.595 0.000

2. 회귀분석의 SPSS 분석 → 회귀분석 → 선형으로 들어감

Ⅵ.회귀분석 종속변수에 ‘판매가’ , 독립변수에 ‘숙성기간’을 각각 투입함 ,

44

3. 회귀분석의 결과 정리와 해석 Ⅵ.회귀분석결과 해석 모형요약 → 독립변수가 종속변수를 설명하는 정도 ( 설명력 / 결정계수 ): 84.5% 분산 분석 → ‘회귀계수가 0 이다 ( 독립변수 변화에 따라 종속변수의 변화경향이 존재하지 않는다 )’ 는 귀무가설에 대 한 검증 결과 . F=310.019, p=0.000 으로서 대립가설 ‘회귀계수는 0 이 아니다 . 즉 기울기가 존재한다’가 채택 . 계수 → 독립변수인 숙성기간은 판매가에 유의한 정 (+) 의 영향을 미치는 것으로 나타남 .

회귀식 : y( 판매가 ) = -2.891 + 2.492*X( 숙성기간 )[ 비표준화계수 ]

- 상수 : Y 절편- B: 독립변수가 1 증가할 때 종속변수의 변화정도 , 즉 , 회귀식의 기울기를 의미- 표준오차 : 다른 표본일 때의 오차- 검정량

(F):𝑜𝑜 차이 관계의 값 = 𝑜𝑜 차이 관계의 값𝑆

��

=표준오차2.492.142 = 310.019

45

- 회귀식 : Y = 2.492X – 2.891

감사합니다 .

46

연구학교 데이터분석

Education

Transcript of 연구학교 데이터분석