How to use SPSS Chapter 3

9. 표본평균 검정표본평균의 검정이란 일정한 기준(임계값)에서 평균에 대한 가설을 채택할 것인가 혹은 기각할 것인가를 결정하는 절차이다. 가설이란 모집단의 특성을 잠정적으로 기술한 것으로 이것을 검정하는 절차가 가설검정이다. 통계적 추론의 목적은 표본에서 얻어진 정보를 근거로 하여 모수에 대하여 유추하는 데 있다. 가설검정은 모수를 유추하는 방법이다.

표본평균의 가설검정은 크게 단일 표본문제와 두 표본문제로 나눌 수 있다.- 단일표본은 하나의 모집단에서 추출된 하나의 표본에 대해서 검정하는 것이다.- 두 표본의 평균차이에 대한 가설검정은 독립적인 두 모집단으로 부터 각각 추출된 두 표본의

경우와 동일한 모집단으로부터 추출된 두 표본의 경우로 나눌 수 있다.두 표본의 비교문제는 학문적인 연구나 일상생활에서의 단일 표본문제보다 더 많이 사용되는데,

: 두 종류의 산업에서 기업들의 평균 성장률이나 임금의 차이를 비교: 광고를 하기 전과 한 후의 고객들의 반응을 비교: 식이요법 전후의 체중을 비교하여 식이요법효과를 분석하는 문제

9.1 단일표본

단일표본의 추론은 모분산 을 아는 경우와 모르는 경우로 나누어 한다. 여기서 신뢰구간을 이용하여 설명하는데, 신뢰구간이란 일정한 확률범위 내에 모수가 포함될 가능성이 있는 구간을 뜻한다.

① 을 아는 경우∈ ± ×

② 을 모르는 경우∈ ± ×

③ 을 모르고, 소표본인 경우(모집단 정규분포 가정)∈ ± ×

단일 표본의 평균에 관한 검정을 설명하기 위하여, time(시간)에 대한 것을 예로 들어보자.연구자가 응답자의 주당 평균 사교육 시간이 9시간인지 여부를 검정하려면, 다음과 같은 가설을 세운다.

, ≠

이 가설을 검정하려면, 다음과 같은 절차를 시행하면 된다. 분석(A)

평균 비교(M)

일표본 T 검정(S)

모든 통계적 검정방법과 마찬가지로, T-검정은 귀무가설이 옳다는 가정 하에 두 모집단으로부터 추출된 표본들로부터 검정통계량에 근거하여 귀무가설을 부정할 만한 상당한 근거를 보이면 귀무가설을 기각하고, 그렇지 않은 경우에는 귀무가설을 받아들이게 된다.두 표본에 대한 검정절차를 살펴보면, 귀무가설 하에서 두 모집단의 표본평균(samlple mean)간의 차이는 표본오차(sample error)에서 기인한 것이라고 간주한다. 즉, 두 표본평균간의 차이가 표본을 잘못 추출한 데서 비롯된 것이라고 가정한다. 그런 후 T-검정통계량을 계산하여 두 표본평균간의 차이가 귀무가설 하에 있을 확률, 즉, 표본오차로 인해 차이가 발생할 확률(유의확률 ; -값)을 계산한다.

일표본 T-검정을 위한 화면을 선택하면 다음과 같다.이 검정화면에서 오른쪽에 T 검정변수 상자에 time(사교육시간)을 선택하고,검정값(Test Value)에 ‘9’를 입력한다.

옵션(Options)에서는 디폴트로 95%의 신뢰구간을 나타내고 자세한 사항은 다음과 같다.키 워 드 내용 설명

신뢰구간 : 95%95%의 신뢰구간이 기본으로 설정되었다. 연구자가 임의로

신뢰수준을 입력할 수 있다.

결측값 아래 항목 중에서 하나를 선정하면 된다.

◎ 분석별 결측값 제외 해당검정과 관련된 변수에 대해 결측값이 있는 케이스를 제외시킴

◎ 목록별 결측값 제외 분석시 변수에 대한 결측값이 있는 케이스 제외시킴

[결과] 단일표본의 평균 검정

유의확률(양쪽)이 0.190이고 이 값은 0.05보다 크므로, 귀무가설은 채택된다(기각되지 않는다). 따라서

표본 응답자의 주당 평균 사교육 시간은 9시간이라고 할 수 있다. 그리고 귀무가설의 수치(9시간)와 표

본평균(9.82시간) 간의 차이에 대한 95% 신뢰구간을 살펴보면, [-0.41 ~ 2.05]가 된다. 이 신뢰구간이

0값을 포함하고 있으므로 귀무가설 채택을 지지하게 된다.

만약 계산된 확률이 귀무가설을 기각하기로 설정한 유의수준(일반적으로 5%)과 같거나 작다면 귀무가설을 기각하고 대립가설을 채택하게 된다.T-검정은 두 모집단의 독립여부에 따라 “독립 2표본 T-검정”과 “대응 2표본 T-검정”으로 나눌 수 있다.

9.2 독립적인 두 표본 문제독립적인 두 표본의 T-검정 대화상자를 열기 위해서 분석(A)

평균 비교(M)

독립표본 T 검정(T)

여기에서 성별(gender)에 따른 연간 사교육비(total)의 차이를 분석하고자 한다.

왼쪽의 변수 상자에서 검정할 변수 total(년 평균 사교육비)을 선정하여, 오른쪽 검정변수(TestVariable)란에 저장하고, 집단변수(GroupingVariable)란에 명목척도인 gender(성별)를 지정하였다.

집단변수를 정의하기 위해 [집단정의(D)] 단추를 선택하면, Group : 1과 Group : 2를 지정할 수 있다. 즉, 두 개의 비교집단으로 한정한다.

만일 변수들이 두 집단 이하이면 실행되지 않는다. gender(성별)을 정의한 값으로 Group : 1에는 1(남자), Group : 2에는 2(여자)를 입력하면 되고, 집단정의 창의 키워드는 다음과 같다.

키 워 드 내용 설명 ◎ 지정값 사용 (Use specified values)

사용자 정의 기본설정으로 집단화한 변수 집단 1과 집단 2의 값을 입력한다.

◎ 분리점 (Cut point)

분리값을 지정하면, 분리값보다 작은 코드가 한집단에, 분리점보다 크거나 같은 코드는 다른 집단에 속하게 된다.

[결과] 두 독립표본 검정 결과

집단 통계량의 결과남자 : 표본수 50명, 평균 3381.74, 표준편차 2133.056, 평균의 표준오차 301.660여자 : 표본수 42명, 평균 4232.79, 표준편차 1928.716, 평균의 표준오차 297.607

gender(성별)의 1집단, 연간 사교육비는 남자 1850명, 연간 사교육비의 평균은 3381.74이며 표준편차는 2133.056이고 표준오차는 301.660이다. 여기서 표준오차는 표준편차를 관찰개수의 제곱근, 즉 으로 나눈 값이다. 여자도 동일하게 설명된다.

[Levene 등분산 검정 : F=1.336, 유의확률 : 0.251]

독립표본 T-검정을 위해서는먼저, 두 집단의 분산의 동질성 가정을 검정하여야 한다. 이러한 분산의 동질성 여부는 Levene의 검정, 즉 F 값을 이용한다.

, ≠

F값이 1.336이고 유의확률 = 0.251>0.05이므로 두 모집단의 분산이 동일하다는 귀무가설이 기각하지 못하게 되어, 등분산 가정 하에서 T-검정을 실시한다.

[평균차이 : -851.046]제시된 통계량에서 남자의 연간 사교육비의 평균과 여자의 연간 사교육의 평균 차이는 -851.046(-1700.371, -1.721)이다. 유의확률(양쪽) = 0.05 ≤ 0.05이므로, 아래의 귀무가설은 기각된다.

, ≠

따라서, 남자와 여자간의 연간 사교육비의 평균 차이 -851.046은 통계적으로 유의하다. 그리고 이 평균차이의 95% 신뢰구간을 계산하면 [-1700.371, -1.721]이다. 신뢰구간이 0을 포함하고 있지 않으므로

귀무가설이 기각됨을 알 수 있다.

9.3 동일 모집단의 두 표본 문제- 광고효과를 통한 매출액 차이를 검정- 판매실험에 사용한 시약의 효과를 검사- 다이어트 프로그램의 효과 검사- 교육훈련의 효과를 조사

: 이런 경우에 대해서는 앞의 독립적인 두 표본 검정을 할 수 없다. 이러한 경우 대응표본 T-검정(Paired samples t-test)을 사용한다.

어느 회사는 자사가 개발한 한달 간의 식이요법 프로그램이 효과가 있는지 여부를 분석하기로 하였다. 식이요법 프로그램에 참가한 10명의 몸무게가 다음과 같다고 하였을 때, 이 식이요법은 효과가 있다고 할 수 있는가?

회원 1 2 3 4 5 6 7 8 9 10

요법 전 70 62 54 82 75 64 58 57 80 63

요법 후 68 62 50 75 76 57 60 53 74 60

동일모집단의 두 표본의 T-검정 대화상자를 열기 위해서 분석(A)

평균 비교(M)

대응표본 T 검정(P)

왼쪽변수상자에서 분석하려는 변수 쌍(before, after)를 선택하면 현재선택(Current Selections)에

Variable 1 : afterVariable 2 : before

가 나타난다. 이 둘을 선택하면 오른쪽 대응변수(Paired Variable)란에 `after-before'가 나타난다.

대응표본 통계량(Paired Samples Statistics)을 살펴보면,

식이요법 이전의 평균 몸무게가 66.5Kg이고, 식이요법 이후의 평균 몸무게가 63.5Kg으로 약 3Kg 정도 감소한 것을 알 수 있다.

대응표본 상관계수(Paired Samples Correlations)는 0.944로 매우 강한 상관을 보이고 있다.

식이요법 이전의 평균몸무게와 이후의 평균몸무게의 차이가 3Kg(66.50-63.50)이며 표준편차는 3.23Kg, 표준오차는 1.02이다. 이 평균차이의 95% 신뢰구간은 [0.69, 5.31]이며, 이것은 0을 포함하고 있지 않으므로 식이요법의 효과는 있다라고 할 수 있다. 그리고 T-검정을 하여보면 Sig = 0.017 < 0.05이므로, 유의수준 0.05에서 두 집단간의 평균차이는 유의하다라고 할 수 있다. 따라서 식이요법 프로그램은 효과가 있다고 결론을 내릴 수 있다.

- 두 종류의 치료법을 개발하여 환자를 두 집단으로 나누어 실험을 하였다.이 경우, 한 치료법을 받은 환자그룹의 평균치가 다른 치료법을 받은 환자그룹보다 높아서 전자의 효과가 좋다고 하자. 그러나 전자의 집단이 후자의 집단보다 더 젊거나 건강하다면 두 치료법의 효과는 명확히 판단할 수 없다. 이 경우에는 나이와 건강상태가 가은 두 사람을 한 쌍으로 하여 실험하여야 한다. 이렇게 하여 여러 쌍에 대하여 실험을 계속하면, 치료효과를 제외한 나이나 건강과 같은 외생효과를 제거할 수 있다.

예제 1] 미국의 야구선수 베이브루스의 15년간 홈런기록을 크기 순서대로 나열한 자료이다. 홈런개수가 정규분포를 따른다고 가정했을 때, 연평균 홈런수가 40보다 크다고 말할 수 있는지 유의수준 5%에서 검정하여라.

22 25 34 35 41 41 46 46 46 47 49 54 54 59 60

예제 2] 한 제조회사에서 두 가지 색상의 쿠키제품 포자에 대한 판매효과를 평가하고자 한다. 월간매출이 유사한 20개 점포를 선정하고, 이들 점포를 무작위로 10개씩 두 개의 집단으로 나눈 다음, 한 집단에는 적색포장만을 진열하고, 다른 집단에는 청색포장만을 진열하였다. 이를 2주간 조사하였더니 다음과 같은 결과를 얻었다. 두 포장 집단간의 쿠키판매량이 차이가 있는지를 검정하여라.

적색포장 청색포장

점포 1 70 점포 11 60

점포 2 68 점포 12 65

점포 3 82 점포 13 55

점포 4 78 점포 14 58

점포 5 72 점포 15 67

점포 6 68 점포 16 59

점포 7 67 점포 17 61

점포 8 68 점포 18 68

점포 9 88 점포 19 77

점포 10 60 점포 20 66

예제 3] 한 회사에서 16명의 사원을 임의로 추출하여 이들에게 정규컴퓨터 교육을 실시한 후, 개개인의 사원에 대해 교육전후의 업무효율성을 측정하였다. 이때 교육 전후의 업무효율성이 차이가 있는가를 검정하여라.

일련번호 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

교육전 업무효율성 75 83 96 77 81 90 82 67 94 85 78 82 96 80 87 81

교육후 업무효율성 80 90 92 75 86 90 81 70 89 88 82 79 91 90 78 89

10. 단일변량 분산분석단일변량 분산분석은 독립변수들에 효과를 분석하는데 사용되는 방법이다. 일반적으로 독립변수의 수에 따라 분산분석의 종류가 나뉘게 되는데, 단일요인과 양적인 종속변수와의 관계는 일원배치 분산분석이 된다.

두 표본평균의 차이에 대한 검정과 달리 실제 생활이나 학문연구에서는 두 개 이상의 여러 모집단을 한꺼번에 비교하는 경우가 있다.

- 교육수준별로 월급여액을 조사하는 경우; 교육수준을 고졸, 전문대졸, 대졸 등으로 구분한 후에 각 집단별 월급액을 비교 연구할 때 단일변량 분산분석(Analysis of Variance : AVONA)기법을 이용할 수 있다. 이 기법은 두 개 이상의 모집단 평균차이를 한 번에 검정 할 수 있게 해준다.

단일변량 분산분석은 독립변수들에 대한 효과를 분석하는데 기본적으로 사용하는데, 교육수준은 독립변수가 되며, 월급액은 종속변수가 된다. 그리고 독립변수를 요인(factor)이라고 부른다. 한 요인내에서 실험개체에 영향을 미치는 여러 가지 특별한 형태를 요인수준(factor level) 또는 처리(treatment)라고 한다. 교육수준을 요인이라고 하면, 고졸, 전문대졸, 대학졸은 한 요인내의 요인수준 또는 처리가 된다.

단일변량 분산분석은 독립변수의 종류에 따라 여러 종류로 나눌 수 있다.월급액과 교육수준사이의 관계를 분석하는 것을 일원분산분석(one-way ANOVA)이라고 한다. 이 모형에 성별요인을 추가하여 두 요인이 월급액에 미치는 영향을 조사한다면 이원분산분석(two-way ANOVA)가 된다. 요인의 수가 늘어나면 종속변수에 대한 영향력을 더 정밀하게 분석 할 수 있다.

10.1 분석 절차1) 모든 요인수준의 평균들이 같은가를 결정한다.

: : 세 평균이 반드시 같지는 않다.

제곱합(SS) 자유도(DF) 평균제곱(MS) F

그룹간

그룹내

합계

검정통계량(F)이 임계값보다 작으면 귀무가설을 채택하고, 평균들이 같다고 결론을 내린다. 반대로 F값이 임계값보다 커서 귀무가설을 기각시키는 경우에는 다음 단계로 진행한다.

2) 만일에 모평균들이 같지 않다면, 신뢰구간을 이용하여 얼마나 다른가를 조사하며 그리고 그 차이가 의미하는 것은 무엇인가를 규명한다.

의 신뢰구간 : ±

여기서,

이고, 는 각 요인수준의 관찰값의 개수이다.

10.2 일원배치 분산분석의 실행일원배치 분산분석을 실시하면 다음과 같다. 분석(A)

평균 비교(M)

일원배치 분산분석(O)

왼쪽 변수상자에서 연간 사교육비(total)을 지정한 후, 종속변수(Dependent List)에 이를 입력하고, 독립변수에 해당하는 변수인 지역(location)을 하단의 요인(Factor)란에 입력한다.

- 사후 분석

만일 지역에 따라 연간 사교육비에 차이가 존재한다면, 과연 5가지 지역들 간에 어떻게 차이가 존재하는지를 세부적으로 검토가 필요하다. 이러한 추가분석을 사후분석(Post Hoc Multiple Comparisons) 또는 다중비교(Multiple Comparisons)라 한다.

각 수준의 평균값들을 비교하여 대소관계를 파악하는 방법을 다중비교하고 하며 이는 등분산인 경우 분산분석표에서 검정한 결과가 평균의 차이를 인정한 경우나 이분산인 경우 `Brown-Forsythe'와 `Welch'의 검정에서 둘 다 유의한 경우에만 실시하는 절차이다.

[결과 : 요인수준의 기술 통계량]

연간 사교육비에 대하여 지역(강남, 강북, 광역시, 중소도시, 읍면지역)에 따른 각 집단의 사례수(N), 평균(Mean), 표준편차(Std.Deviation), 표준오차(Std. Error), 95% 신뢰구간(95% Confidence Interval for Mean)을 나타내고 있다.

[결과 : 모분산의 동질성 검정]

분산분석이 유용하기 위해서는 표본이 무작위적으로 추출되었으며 모집단은 동일한 분산을 가지고 있다는 가정을 충족시켜야 한다. 현재 분석하고 있는 자료가 이러한 가정을 충족시키는지를 알아보기 위해 Levene 통계량을 사용한다. Levene 통계량 값이 0.304로써 P=0.874 > 0.05 이어서 모집단의 분산이 동일하다는 귀무가설이 채택된다. 따라서 다음의 계속적인 분석이 가능하다.

[결과 : 분산분석표]

분산분석의 결과는 분산분석표를 통하여 제시하기 때문에 이를 각 통계값이 산출되는 과정을 이해하는

것이 중요하다. 집단간(Between groups) 자유도는 4(요인수준의 수 -1 )로 구해지며, 집단내(Within groups) 자유도는 87(전체관찰수 - 요인수준의 수)이다. 평균제곱은 각각 제곱합을 각 원천별로 자유도로 나눈 값이 되며, F 통계량은 그룹간 평균제곱을 그룹내 평균제곱으로 나눈 값이다.

F 분포에서 F(4, 87, 0.05)의 임계값은 2.48인데, F 통계량 = 4.009 > 3.35이므로, 세 요인수준의 평균이 동일하다는 귀무가설이 기각된다. 이것을 F 분포의 확률로 설명해도 마찬가지인데, F 유의도 p = 0.005 < 0.05 이므로 귀무가설을 기각한다. 따라서 평균차이는 유의한 차이를 나타낸다고 할 수 있다. 다음은 사후분석 결과이다.

[결과 : 사후분석 - 다중비교]

Bonferroni 방법으로 계산된 사후검증을 보면 유의수준 0.05에서 강남과 강북, 강남과 광역시, 강남과 읍면지역간의 연간 사교육비의 평균차이가 유의함을 알 수 있다.

[결과 : 평균도표]

지역에 따른 연간 사교육비를 그래프로 나타내 시각적으로 의사결정을 할 수 있게 해준다. 지역에 따라 연간 사교육비의 차이가 나타남을 알 수 있다. 이때 강남지역의 평균이 가장 높고, 읍면지역의 평균이 가장 낮다.

10.3 이원배치 분산분석의 실행이원배치 분산분석(two-way ANOVA)은 2개 이상의 요인(독립변수)을 이용하여 집단별로 평균 차이를 분석한다. 일원배치 분산분석과의 차이는 몇 가지 있다.

첫째, 요인 혹은 독립변수의 수가 두 개다.둘째, 독립변수간의 상호작용 여부를 알아내야 한다.셋째, 이 상호작용을 고려하여 동시에 설명할 것인지 아니면 통제할 것인지 여부를 결정하여야 한다.

예를 들어, 평균월급 차이를 설명하기 위해 교육수준과 성별이라는 두 개의 요인을 동시에 채택하는 경우, 각 요인별 평균차이뿐만 아니라 두요인간의 상호작용 효과도 동시에 고려해야 한다.이원배치 분산분석을 실시하면 다음과 같다. 분석(A)

일반선형모형(G)

일변량(U)

종속변수(dependent Variable)란에 연간 사교육비(total)를 지정하고, 모수요인(Fixed Factors)란에 지역(location)과 성별(gender)를 지정한다.

종속변수와 모수요인, 변량요인(Random Factors), 공변량(Covariate), WLS 가중값(WLS Weight)는 다음과 같다.

지정창 내용 설명종속변수 해당 값을 예측하거나 요약하려는 변수

모수요인모수요인의 수준에는 해당결과를 구하려는 모든 수준, 기술적으로미리 정해진 대부분의 요인

변량요인변량요인의 수준들은 결과를 구하려는 가능한 수준들의 확률표본에 해당됨,수준의 선택이 무작위로 이루어지기 때문에 의미가 없음

공변량 공변량은 분산분석의 효과를 확실히 하기 위한 양적인 독립변수

WLS 가중값가중된 최소제곱 분석에 대한 가중값이 있는 숫자변수를 나열한다.가중값이 0, 음수, 결측값 등일 때는 분석케이스에서 제외됨.

1) 모형(Model)

특정 모형을 사용자정의(Custom)으로 설정하고, 왼쪽의 요인 및 공변량 상자로부터 지역(location), 성별(gender)을 지정하여, 항설정(Build Term)의 화살표를 선택하여 모형란에 보낸다. 제곱합(Sum of squares)은 제 III유형(Type III)을 지정한다.

2) 도표

수평축(Horizontal Axis)에 지역(location)을 같은 방법으로 선구분 변수(Seperate Lines)에 성별(gender)을 지정하고, 도표(Plot)란에 있는 추가(Add)를 선택한다.

3) 사후분석

사후검정변수에 지역(location), 성별(gender) 변수를 지정하고 다중비교 통계량 중 LSD(Least Significant Different, 최소유의차)를 선택한다.

4) 옵션

일변량 옵션창의 출력란에 기술통계량(Descriptive Statistics)과 동질성검정(Homogeneity tests)을 지정한다.

[결과 : 두 요인수준들의 평균값]

전체 표본의 연간 사교육비 평균은 3770.26이며 분석대상은 92명이다. 지역(location)으로는 요인 1(강남)의 연간 사교육비 평균이 5198.63이며, 요인 2(강북)의 연간 사교육비 평균은 3335.44이다. 또한 성별(gender)을 기준으로 보면 각각 3381.74, 4232.79로 남자보다는 여자의 연간 사교육비 평균이 높다는 것을 알 수 있다.

[분산의 동질성 검정]분산분석이 유용하기 위해서는 표본이 무작위적으로 추출되었으며 모집단은 동일한 분산을 가지고 있다는 가정을 충족시켜야 한다. 현재 분석하고 있는 자료가 이러한 가정을 충족시키고 있는지를 알아보기 위해서 Levene 통계량 값이 0.787로써 충분히 크고, 유의확률 = 0.629 > =0.05이어서 모집단의 분산이 동일하다는 귀무가설이 채택된다.

[이원분산 분석표]

지역(location)에 따른 연간 사교육비 평균의 차이는 F = 4.444, 유의확률 = 0.003로 유의하고, 성별(gender)에 따른 연간 사교육비 평균의 차이는 F = 5.481, 유의확률 = 0.022로 유의한 것으로 나타났다. 즉, 귀무가설을 기각하게 된다.R 제곱( )은 회귀분석에서 결정계수와 같은 것으로 실험요소에 의해서 설명되어질 수 있는 종속변수의 총변동비율을 위미한다.앞의 결과를 이용하여 계산하면,

이다.

location과 gender의 상호작용효과(2-Way Interaction)를 살펴보면, 유의확률이 0.05보다 크기 때문에 유의하지 않은 것으로 나타났다. 여기서는 따로 첨부하지는 않는다.

[최소유의차를 이용한 사후검정]

(I) 최종학력 (J) 최종학력 간에 평균차(I-J)에서 강남과 강북의 평균차이는 1863.19이고, 유의확률은 0.004로 유의하기 때문에 귀무가설을 기각한다. 강남과 광역시, 강남과 읍면지역 역시 각각 유의확률이 0.002, 0.001로 유의미한 차이를 보인다.

[결과 : 평균도표]

지역과 성별에 따른 연간 사교육비의 평균을 그래프로 나타내 시각적으로 의사결정을 할 수 있게 해준다. 남자보다는 여자의 연간 사교육비의 평균이 높고 지역에따라 연간 사교육비의 평균이 다르다는 것을 알 수 있다. 특히 강남이 제일 높고 읍면지역이 제일 낮다는 것을 알 수 있다.

How to use SPSS Chapter 3

Documents

Transcript of How to use SPSS Chapter 3