Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을...

37
저작자표시-비영리-변경금지 2.0 대한민국 이용자는 아래의 조건을 따르는 경우에 한하여 자유롭게 l 이 저작물을 복제, 배포, 전송, 전시, 공연 및 방송할 수 있습니다. 다음과 같은 조건을 따라야 합니다: l 귀하는, 이 저작물의 재이용이나 배포의 경우, 이 저작물에 적용된 이용허락조건 을 명확하게 나타내어야 합니다. l 저작권자로부터 별도의 허가를 받으면 이러한 조건들은 적용되지 않습니다. 저작권법에 따른 이용자의 권리는 위의 내용에 의하여 영향을 받지 않습니다. 이것은 이용허락규약 ( Legal Code) 을 이해하기 쉽게 요약한 것입니다. Disclaimer 저작자표시. 귀하는 원저작자를 표시하여야 합니다. 비영리. 귀하는 이 저작물을 영리 목적으로 이용할 수 없습니다. 변경금지. 귀하는 이 저작물을 개작, 변형 또는 가공할 수 없습니다.

Transcript of Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을...

Page 1: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

저 시-비 리- 경 지 2.0 한민

는 아래 조건 르는 경 에 한하여 게

l 저 물 복제, 포, 전송, 전시, 공연 송할 수 습니다.

다 과 같 조건 라야 합니다:

l 하는, 저 물 나 포 경 , 저 물에 적 된 허락조건 명확하게 나타내어야 합니다.

l 저 터 허가를 면 러한 조건들 적 되지 않습니다.

저 에 른 리는 내 에 하여 향 지 않습니다.

것 허락규약(Legal Code) 해하 쉽게 약한 것 니다.

Disclaimer

저 시. 하는 원저 를 시하여야 합니다.

비 리. 하는 저 물 리 목적 할 수 없습니다.

경 지. 하는 저 물 개 , 형 또는 가공할 수 없습니다.

Page 2: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

이 사 논

Excel VBA를 이용

다변량분 도구 개

Application Frame for Multivariate

Analysis with Excel VBA

2014 2월

울 원

통 계 과

이 원

Page 3: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

Excel VBA를 이용

다변량분 도구 개

지도 조 신

이 논 이 사 논 출함

2014 2월

울 원

통 계 과

이 원

이 원 이 사 논 인 함

2014 2월

원 장 희 (인)

부 원 장 조신 (인)

원 임요 (인)

Page 4: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

Application Frame for Multivariate Analysis with Excel VBA

by

Gi-won Lee

A thesis submitted in partial fulfillment of

the requirement for the degree of Master of Science

in the Department of Statistics

Seoul National University

February, 2014

Page 5: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

통계자료 분 해 는 이에 합 통계분 틀(package) 사용 는

것이 이다. 국내에 주 사용 는 통계 분 틀 는 SAS, SPSS, R

등 들 있다. 그러나 이들 분 틀들 부분 외국에 개 이 어 고

가 사용료를 지 해야 며, 사용법이 어 있거나 고 언어

를 이용 여 그래 해야 다는 이 일 사용자들이 사용 에는

부담이 고 있다.

울 통계 과에 는 이러 어 움 극복 해 일 사용자

들이 쉽게 다룰 있는 통계 분 분 틀인 KESS를 개 고 새

운 분 법들 지속 추가 고 있다. 본 논 에 는 다변량분

법 인자분 , 사결 나 에 합 분 틀들 개 여 추가 다.

KESS는 일 인들이 보다 편리 고 쉽게 통계 자료 분 있도 입

출 용이 사용 보편 갖춘 엑 (EXCEL) 개 본도구

삼고 있다.

주요어 : 통계 분 틀, 엑 , 다변량분 , 인자분 (Factor analysis), 사

결 나 (Decision tree)

번: 2012-20226

Page 6: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

1.

2. 다변량분 법

2.1 주 분분

2.2 인자분

2.3 사결 나

3. KESS 다변량분 과 키지별

4. KESS에 다변량분 실행 출

4.1 인자분

4.2 사결 나

5. 맺 말 추후과

참고 헌

Abstract

Page 7: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.
Page 8: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

1

1.

다변량분 많 변 들 사이 계를 보는 통계 법이다. 이 분

법들 20 부 생 분야 계량심리 등 분야에 구

도입 었고, 재는 공 해 , 시장분 , 품질해 , 재 분 , 계량진단,

약효검 등 분야에 도 리 쓰인다. 다변량분 법에는 회귀분 ,

별분 , 주 분분 , 인자분 , 군집분 , 상 분 , 사결 나 등

이 있다. 이 인자분 과 주 분분 차원축소 변 간 계 명이나

새 운 지 탐색 법이고, 사결 나 는 분 법 나이다.

다변량분 에 가장 많이 사용 고 있는 통계 키지 는 SAS, R과 SPSS

등 들 있다. 통계 키지들 다변량분 에 요 여러 가지 능들

다양 게 공 고 있 나 부분 사용이 어 거나, 어 있어

일 인들이 사용 에는 어 움이 있 며 고가 사용료를 들여 구입해

야 다는 부담이 있다.

울 에 는 일 인들이 보다 편리 고 쉽게 통계 자료 분

있도 Excel에 구동 는 용 통계 소 트웨어인

KESS(2013)를 개 여 공 고 있다. 본 논 에 는 다변량분 법

에 존에 공 인자분 법 개 고 사결 나 에

분 법 Excel VBA를 통해 구 고, 이를 KESS에 부 뉴 추가

다.

본 논 5장 구 어 있다. 연구 경 목 시

고, 다변량분 에 명, KESS 다변량분 과 다른 키지별 ,

마지막 KESS에 실행 법과 연구 결 향후 망에 해

Page 9: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

2

다.

2. 다변량분 법

2.1 주 분분 (Principal component analysis)

주 분분 변 차원축소 법 나 자료 체 변동

부분 명 있는 주 분 찾는 것이 주 목 이다. 주 분분 이

경 스펙트럴분해(spectral decomposition)이다

= (X1, … , ) 를 p차원 랜 벡 라고 자. 주 분(principal

component) 다 과 같이 다.

첫째 주 분, ≝ = + + ⋯+

≝ { ′ , ‖ ‖ = 1}

r번째주 분, ≝ = + + ⋯+ (r<p)

= ′ , ‖ ‖ = 1

단, , = 0( = 1, … , − 1)

랜 = (X1, … , ) 공분산 행 , 상 계 행 R이라고

자. 고 값 λ ≥ ≥ ≥ ⋯ ≥ , 는 고 벡 를

, , … , 라고 , r번째 주 분 시-슈 르 부등식과, 각

리에 해 주어진다 , (r<p). 실 분 에 는 공분산행 과,

상 행 신 본공분산행 과 본상 행 사용 다. 주 분분

모 질 다 과 같다.

Page 10: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

3

① = 이므 , Var( ) = , Cov , = 0( ≠ )

② 변동(total variance) tr( ) = ∑ 일 이 ∑

일 ,

, …, 체 보 일 에 보를 가진다고

해 다. 를 들어, 0.9= ∑

Σ 면 체 보 90%를

, …, 이 가진다.

③ 공분산행 사용 경우 , 상 행 사용 경우 PCA분

결과가 다르게 나타난다. 상 행 변 공분산행 과

동일 므 보통 상 행 이용 PCA를 사용 다.

2.2 인자분 (Factor Analysis)

인자분 목 변 들 사이 공분산 계를 몇 개 없는

변 명 는 것이다. 인자를 구 는 법 는 주 분 법과 가능

도 법이 있는데, 주 분 법이 해 이 쉽고 직 이어 리 사용

다. 인자분 보통 변 에 해 행해진다. 이 경우 공분산행

상 계 행 과 동일 다.

(1) 직 인자모

가능 p차원 랜 벡 X=( , … , )′ 평균 분산 라고

자. 이 , m개 공통인자(common factor)를 갖는 직 인자모

래 같이 다. 이 , F 지 는 변 이다.

− = +

μ = ( ): px1벡 ,

= ( ) : px1벡

Page 11: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

4

= ( ) : 가능 지 mx1 벡

= : pxm 행

독립. 즉, E( ) = 0, Cov( ) = E ′ =

E( ) = 0, Cov( ) = =

⎣⎢⎢⎢⎢⎡Ψ

0

0 Ψ

0⋯

00

⋮ ⋮ ⋱ ⋮

0 0 ⋯ Ψ ⎦⎥⎥⎥⎥⎤

(2) 직 인자모 질

직 인자모 다 과 같 질 만족 다.

① Cov( ) = = +

② Cov( , ) =

③ Var(X ) = = +

+ ⋯+

+ Ψ

communality(공통 부분) m개 인자(Factor)에 해 명 는

부분이고 나 지 부분 specific variance라고 다.

④ 임 직 행 (Orthogonal matrix) (m x m matrix)에 해

− = + 는 ∗ = , ∗ = 라고 면 − = ∗ ∗ +

직 인자모 가 만족 다. 즉, 직 인자모 회 에

해 일 지 다.

(3) 직 인자모 추

직 인자모 에 인자를 추 주 분 법 다 과 같다. 랜

=(X , … , ) 공분산 행 , 상 계 행 R, 그리고 추

량인 본 공분산행 S라고 자. , S 고 값 ≥ ≥ ⋯ ≥

라고 고, 해당 는 고 벡 를 , , … , 라고 자.

Page 12: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

5

주 분 법 , 임 m에 해 = , … , √ ≝ [ ]

라고 고 = diag[ − ] 라고 는 것이다. m 는 법 는

1보다 큰 고 값 갖는 고 벡 만 이용 는 Kaiser 법과, Total

sample variance 일 부분 명 있는 개 를 택 는 법이

있다. KESS에 는 이 가지 법 모 를 공 고 있 며, Total sample

variance 일 부분 명 는 인자 개 를 찾는데 요 스크리

산 도(scree plot)도 공 다.

스크리 산 도는 보 주 분 개 를 는데 도움이 는 그림

고 값 크 나열 후에 (i, λ ) 를 그린 산 도이다. 만약

j번째부 감소 는 추 가 만해지면 j-1개 주 분 보 다.

(4) 인자 회 (Factor rotation)

변 인자들 간 계를 해 어 운 경우가 많이 있는데 이럴

경우 인자회 (factor rotation) 이용 면 해 이 용이 있다. 인자

회 법 는 직 회 (orthogonal rotation)과 사각회 (oblique

rotation)이 있다. 직 회 인자들 직 계를 지 는 회 이고,

사각회 인자들이 직 계를 지 지 는 회 이다. 인자간에

스크리 산점도

0.0

0.5

1.0

1.5

2.0

2.5

1 2 3 4

주성분 개수

Page 13: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

6

상 계가 있다고 가 다면 사각회 사용 도 있 나,

직 인자모 과는 다른 모 이 다.

인자회 법 는 Varimax 법이 많이 사용 는데 ∑ [∑

∗ −

∑ ∗

] 를 는 직 행 T를 찾는 법이다(단, L∗ = LT ).

∗ 분산 는 식이라고 해 Varimax라는 이름 가지고

있고, 가장 보편 쓰이는 법이다. KESS에 는 Kaiser 고리즘

통 여 구 했다(Kaiser 1959). Quartimax는 ∑ [∑

∗ − ∑

]를

는 직 행 T를 찾는 법이다.

(5) 인자 (Factor score)

− = + 에 F 추 f를 인자 (factor score)라고 다.

인자 는 모 타당 진단 해 사용 거나, 새 운 분

명변 쓰인다. 가 이 맞는다면, 인자 는 평균이 0이고 분산이

1이어야 다.

인자 를 계산 는 법에는 Weighted Least square 법과

Regression 법이 있는데, KESS에 는 Regression 법 통해 인자

를 계산 여 공 고 있다. Regression 법에 인자 = =

( − ) 이다. , , 를 모 다고 면, (F, ) 다변량 규분포를

른다. 그리고 이 경우, 소 곱 추 량 조건부 값과 일 다.

( | ) = ( + ) ( − ) 이므 ( + )를 X 본분산인 S 추

고, 를 추 면 = ( − )를 얻는다.

2.3 사결 나

사결 나 라는 이름 그 결과를 나 태 그래 잇다

Page 14: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

7

는 사실에 인 다. 사결 나 는 변 종 가 범주 인 경우, 분

나 라고 고, 변 종 가 연속 인경우에는 회귀나 라고 다.

즉, 결과가 연속 이면 회귀나 , 범주 이면 분 나 라고 다.

사결 나 는 지도 습 법 각 입 변 역 복

분 여 체 입 변 역에 규 생 다. 사결 나

상 다른 지도 습 법에 해 떨어지지만 해 이 쉬운 장

지닌다.

사결 나 맨 쪽에 는 마 를 가리 뿌리마 (root

node)라고 부르는데 분 상이 는 모든 개체집단 미 게 다. 나

마 가 부마 분 가 특 마 쪽에 존재 는 마 를 부모

마 (parent node)라고 부르고 특 마 래쪽에 존재 는 마 를 자식마

(child node)라 부르며 이상 마 가 분 지 는 종마 를 끝마

(terminal node)라고 부른다.

분 나 경우, 끝마 범주를 값 시 고, 회귀나

경우에는 끝마 평균 값 시 다.

(1) 사결 나 고리즘

사결 나 를 구 고리즘 는 CART, C4.5 C5.0

CHAID 가 많이 사용 다.

CART(classification and regression trees)

1984 에 개 불 도 도 지니지 , 분산 이용 여 이진분리를

다. 개별 입 변 뿐만 니라 입 변 들 결합들 에

분리를 찾 도 있다.( Stone, C.J. 1984)

Page 15: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

8

C4.5 C5.0

1993 에 개 ID 3 개량 . 다지분리 가능, 분 도 도 는 엔트

지 를 사용 다. (Quinlan, 1993.)

CHAID

1975 AID 후신 가지 를 지 고, 당 크 에 나 모

장 지, 입 변 가 드시 범주 변 이어야 다. 불 도 는 카

이 곱 통계량 사용 다. 카이 곱 큰 것 택 다. (Han J, 2006 )

(2) 모 장·단

1) 명 이 높다.

결과가 나 게 과 에 이 를 명 게 주 에 업 실

자가 이해 쉽고 용 가 용이 다.

2) 르다.

신경망모 에 해 매우 르 에 많 변 들 상 도 분 이

가능 다

3) 어떠 변 들이 분 에 요 향 미 는지 있다.

사결 나 는 가장 명 이 있는 변 에 여 분리가 일어

나는 특징 가진다. 그래 자료 체에 는 지는 나 자료 어느

부분 그룹(부모노드 자식노드 사이 계)에 는 용 특 들 사용

있다. 라 사결 나 모 일 인 데이 마이닝 모 단

계에 변 택(variable selection) 략에도 사용 있다.

4) 모 모 이다.

Page 16: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

9

일 통계 모 들이 요 게 고 는 규 이나 등분산 등

가 요 지 는다. 실 부분 데이 마이닝 데이 는 이러

통계 가 만족 지 못 에 사결 나 모 이러 경

우에 용 게 사용 있다.

1) 출 변 가 연속 인 회귀모 에 는 그 이 떨어진다.

연속 변 를 분 는 과 에 보 손실이 생 다. 즉 분리 경계

근 에 가 생 가능 이 있다. 라 신경망 모 등에

해 이 감소 있다. 추 모 불연속 이고 매끄럽지 못

평면들 구 다. 값들 다른 모 들과는 달리 입 변 공간상

에 매끄럽게 변 지 못 다

2) 본 크 에 민감 게 다.

모 만들 해 는 모든 변 가 가질 있는 경우를 모

있는 충분 본 가 있어야 다. 지만 부분 데이 마

이닝 작업에 충분 크 데이 베이스가 존재 에 이 는

크게 고 요는 없다. 모 추 용 자료 내 보가 조 이라도 부

경우 이 자료를 토 만들어 질 사결 나 태는 큰 향

는다. 이러 향 나 부분 내 갈 본 크 가

작 질 증가 다. 즉, 복잡 나 모 이 고 해

어 워진다. 약간 변 가 있는 경우에는 다른 결과를 도

있는 불 법이다.

3) 일 인 사후 갖게 다.

나 노드에 해당 는 자료들 모 일 같 사후 가

지 에 같 노드에 있는 자료 간 이득(profit) 구별이 없어

Page 17: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

10

개개 (scoring) 산출이 어 다.

(3) 분 결과에 타당 평가 가지

타당 평가

훈 자료(training data)를 탕 얻 모 결과 시험자

료(test data)를 해 차타당 입증(cross validation) 사용 도

있다. 이익도 (gains chart)나 험도 (risk chart)를 이용해 사결 나

를 평가 다.

가지

분 는 MSE (mean squared error)등 고 여

가지 규 공 여야 다. CHAID(CHi-square

Automatic Interaction Detection) 고리즘(Kass, 1980) 에 는 모

복잡도를 결 해 진 지규 (일명 사 가지 ) 사용 다. 마

들 카이 곱 에 (조 )P값이 미리 지

지만 분리 다. , 나 장 각 마 에 속 사 가 미리

계 값 미만이 면 지 도 있다. 이 식 다 과 같 가

지 단 지니고 있다.

1) 효과가 낮 분리 후에 생 있는 요 분리가 간과 있다.

2) 지 규 직 모 추 용 자료에 해 해진다.

면, CART(Classification And Regression Tree) 고리즘 (Breiman et

al. 1984)에 는 사후 가지 식 사용 다. 즉, 나 를 장함 써

다른 크 나 들 만들고 그 모 인용 자료( 차 인법)

Page 18: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

11

를 가장 잘 분 는 나 를 택 다. 이러 식 나 가지 는

CHAID에 가지 단 보 있다.

(4) CART

Breiman et al.(1984)에 해 개 CART(Classification and

Regression Trees)는 지니 지 (범주 목 변 인 경우 용) 는 분산

감소량(연속 목 변 인 경우 용) 이용 여 이지분리(,binary split)

를 행 는 고리즘이다(Quinlan, 1993).

지니 지 (Gini Index)는 불 도(impurity)를 는 나 지 이다.

지니지 는 n개 원소 에 임 2개 원소를 복원 추출 추

출 2개가 다른 그룹에 속해있 미 며 Simpson 다양

도 지 (diversity index) 도 불린다. CART 고리즘 래식 자식마

에 지니지 가 합인

P(L)G + ( ) =

+

소 는 분리를 다. 이는 지니지 감소량인

ΔG = G −

는 것과 동일 다. 변 가 연속 인 경우에는, 합동 분산인

( ) +

( ) 소 는 분리를 다. 지니 지 분산이 크다

는 이야 는, 노드 다양도가 크다는 이야 분 가 었다고 해

있다. 그러므 지니지 분산 소 는 분리를 다는 말 , 같

노드에 속 자료들이 동일 향 분리를 다는 것과 동일 이야

다.

< 고리즘>

Page 19: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

12

A 1.1. 각 연속 변 에 여는, 모든 X ≤ c 태 분리 에

불 도를 계산 다. (변 당 n-1가지 단, n 훈 자료개 )

A 1.2. 각 범주 변 에 여는, 모든 X ∈ A ( A는 X 범주 부분집

합) 태 분리 에 불 도를 계산 다.(2 − 1가지 단, k는 범주

범주 범주 )

A 2. 불 도 도를 소 는 분리 택 다. 이 분리 연

속 변 경우에는 변 종 경계 값이 고, 범주 변

경우에는 변 종 부분집합이 다.

A 3. 각각 가지에 해 A 1.1~A 2 복 다.

(5) 불 도 종

래 다양 불 도 종 를 리 다.

범주 종속변 연속 종속변

불 도

카이 곱통계량

지니 지

엔트 지

F 통계량

분 산

3. KESS 다변량분 과 키지별

통계 자료 분 도구가 갖추어야 요 요건 나는 사용자에게

편리 인 페이스 경 공해야 다는 것이다. 다양 종 자

료 일 불러 거나 자료를 직 입 있어야 고, 분 결과를 효과

Page 20: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

13

보고 있어야 다. Excel 이러 면에 매우 우

스 드시트 그램이며, 자료 리 계산, 그래 작 등 손쉽

게 있다는 에 일 인들에게 가장 리 사용 고 있는 그램이

다.

같 에 착 여 KESS (2013)는 Excel VBA를 개 도구 이

용 다. 라 KESS에 는 Excel에 공 는 모든 능들 그

이용 있 며, 일 인들이 편리 게 통계분 있도 다는

에 통계 분 도구 써 상당 장 갖고 있다. 인 통계 분

Excel 데이 분 도구를 통해 도 가능 다. 그러나 KESS에 는 SAS,

SPSS 등 통계 키지에 같이 통계분 도구를 뉴 식 공함

써, Excel 데이 분 도구 는 차별 보다 통합 이고 체계

태 통계 분 그램 공 고 있다. 특히 보고 식 출

는 결과 사용 쉬운 뉴 식 인 페이스가 장 이다.

이 KESS는 사결 나 , 인자분 지원 지 며, 본 논

에 는 사결 나 인자분 구 다. 데이 입출 식 경우

Excel [데이 분 ] 도구 동일 태를 취 다. 본 논 에

는 인자분 과 사결 나 분 도구를 독립 공 는 것에 그 는

것이 니라 KESS에 부 뉴 다변량자료분 도구에 사결 나 인자

분 포함시킴 써 다른 분 들과 연계가 가능 도 면에 본

논 개 를 찾 있다.

(1) 개 에 사용 과 그램 구

개 에 사용 는 Microsoft Excel VBA(Visual Basic for

Application)를 이용 다. VBA는 Visual Basic 편집 라는 통합 그래

Page 21: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

14

경과 Basic 그래 언어를 조합 것이다.

(2) 개 고리즘 출 구

인자분 경우, 주 분분 법 이용 여 직 인자 모 구 고,

회 식 는 직 회 인 Varimax Quartimax를 Kaiser 법 이용

여 구 다. 출 결과 는 인자 과 스크리 산 도, 그리고 회

후 인자 재 산 도를 공 다. 인자 개 가 3개 이상인 경우 사용자가

택 인자 재산 도를 추가 그릴 있도 다.

사결 나 경우 CART 식 본 토 고, 지 사

에 사용자가 지 있도 다. 이는 사 가지 를 는 CHAID

식과 슷 다고 있다. 재귀함 를 통해 불 도를 소 는 분리

를 지 에 미 지 복 도 여 사결 나 모 구

고, 불 도가 동일 경우, 왼쪽 분리개 가 도 분리 는 식

고리즘 구 다. 출 태는 사결 나 그림과 추가 보 구

다. 추가 보에 는 각 노드 보를 공 다. 분 나 경우에는

분 를, 회귀나 경우에는 SSE SST를 이용 합도를 공함

써 사용자가 모 합도를 있도 다.

(3) 키지별 출 가능 결과들

SAS, SPSS, R 본 논 에 개 KESS 키지별 인자분

과 사결 나 는 래 < 1>, < 2>과 같다.

Page 22: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

15

SPSS

SAS R KESS

인자 재 산 도 * *

*

인자 재 * * * *

인자회 * * * *

스크리- 롯 * *

*

인자 출

*

< 1> 키지별 인자분 내용

KESS에 는 주 분 식 통 인자분 능 공 고 인자회 는

직 회 식인 Varimax Quartimax를 공 다. 타 키지에 해

KESS 장 택 보를 공 는 이라고 있다. R 경우

그래 보 해 추가 인 드입 이 요 고, SAS나 SPSS

경우에는 사용자가 사용 지 는 그래 지 공 다. KESS에 뉴를

통해 쉽게 스크리 산 도 인자 재 산 도 출 여부를 결 있고,

주요 인자 2~3개 인자 재를 택 출 함 써 사용자

란 막 있다. KESS에 인자 는 회귀분 식 추 어

공 다.

SPSS SAS R KESS

Page 23: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

16

사결 나 그림 * *

*

합도 * * * *

분 / 결과출 * *

*

사 지규 * * * *

뉴사용 편 *

*

부 보 근 * *

*

본탑재여부 *

*

사후가지 * * *

< 2> 키지별 사결 나 내용

KESS 사결 나 그래 R 단 모양 모델 삼 개

었 나 추후에 이퍼링크를 통해 노드 부 보를 공함 써 사용자

편 극 다. R 경우 노드 주소를 자 여 사용

자가 힘들었다. KESS에 주소를 r( 른쪽)과 l(왼쪽) 이용 여

구 여 사용자가 쉽도 개 다.

SAS 경우나 R 경우에는 라이 러리나 E-miner라는 키지 추가

를 통해 만 사결 나 분 이 가능 불편함이 있다. KESS에

본 뉴인 ‘통계분 -다변량분 - 사결 나 ’에 해당 능 공 면 사

용자 편 를 도모 다.

Page 24: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

17

4. KESS에 다변량분 실행 출 결과

4.1. 인자분

인자분 실행 상자는 다 그림과 같다.

이번 에 는 3개 이상 인자를 가질 , 추가 인 인자 재 산 도를

그릴 있는 명 여 다 과 같이 사용자 지 에 인자를

3개 택 도 다.

왼쪽에 보이는 것이 인자분석의

기본 설정이다. 별다른 설정이 없

다면 Kaiser방법에 따라서 구한

인자개수를 바탕으로, Varimax회

전 결과를 출력한다. 사용자가 원

한다면 인자점수나 기초통계를

출력할 수 있고, 회전방식을 바꿔

서 인자적재 산점도를 출력할 수

있다.

Page 25: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

18

인 러 실행 면 다 과 같 상자가 생 다.

재 택 인자 가 3개 이므 , 추가 인자 1과 3에 해 인자산

도를 그 볼 있다. 인 클릭 면 다 과 같이 인자분 결과가 출

다.

Page 26: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

19

고 값이 내림차 고, 이 출 다. 그리고 ‘인자

재’항목에 는 사용자가 지 법에 라 택 개 인자가 출

다. 인자 재에 출 항목 − = + (p x m matrix) 에 해당

다. 이 에 는 3개 인자가 출 었고, 인자가 변동 87.7%를

명 다.

Page 27: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

20

‘회 후 인자’에 출 항목 − = ∗ ∗ + ∗(p x m matrix) 에

해당 다. 단, ∗ = , ∗ = , where = =

‘공통 ’ 항목에 는 각 변 가 인자에 해 명 는 도인 공통

(communality) 인 있다.

Var(X ) = = +

+ ⋯+

+ Ψ

.

Page 28: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

21

‘그래 ’에 ‘고 값’ 출 결과를 도시 스크리 산 도 , 인자 재

산 도를 인 있다. 인자 재 산 도를 통해 인자에 이름 붙이고

해 있다.

Page 29: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

22

‘추가 그래 ’는 인자개 가 3개 이상인 경우 ‘인자 재 산 도 추가’

상자를 이용해 그린 인자 재 산 도를 보여 다.

인자분 상자에 ‘인자 장’ 택 경우, 다 과 같이 데

이 시트에 인자 가 출 다.

Page 30: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

23

4.2 사결 나

사결 나 를 실행 상자는 다 과 같다.

다 여러 가지 택 상자이다.

인 택 면 다 과 같 사결 나 그림이 출 다.

지니지 : 변 가 명목 변 일

분리가 일어나는 소 지니지

8%가 값이다.

분산: 변 가 연속 변 일

분리가 일어나는 소 분산 8이

값이다. 분리가 일어날 있는

소데이 자는 값이 10이다.

가지 값 키우면 좀 간단

나 가 만들어 진다. 사 가지

를 는 면이라고 보면 다.

변 에는 나 변 만 들어가야

다. 그리고 변 종 를 골라

주면, 지니지 는, 분산 소

는 이진분리를 시행 다. 명변

경우에는 연속 명변 만 지원 므

, 연속 명변 만 택 여

인버튼 르면 나 그림이 그 진

면이 나 다. 분 결과 시를 택

면 분 결과가 자료시트에 출 다.

Page 31: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

24

사결 나 그림

일 상자에는 변 이름이 시 다. 그리고 그 래에는 분

이 는 변 변 값이 시 다. 그 값보다 작 면 왼쪽, 크

면 른쪽 분리 는 것 그림 나타낸 것이다. 그리고 각 노드에는,

변 가 연속 변 인 경우에는 평균 , 명목 변 인 경우에는

값 값 시해 놓 다. 사결 나 그림 스를 클릭 경우,

이퍼링크를 통해 부 결과를 볼 있다.

Page 32: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

25

분 나 추가 보

분 나 경우 래 같이 그림 래에 부 보가 시 다. 처

스는 원 자료 나타낸 것이고, 그 래는 해당 에 분리 왼

쪽가지 른쪽가지 보를 시 것이다.

Page 33: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

26

마지막 분 를 시 여 분 나 합도를 인 있다.

회귀나 경우에는 합도가 래 같 식 출 다.

회귀나 추가 보

래 그림 회귀나 부 보 일부를 시 것이다. 회귀나

경우 값인 평균이 분 결과 시 다. 그리고 추가 보 소값,

값, 값 시 다.

Page 34: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

27

일 인 회귀분 과 슷 합도를 시 여 사용자 이해를 도 다.

(R 개 )

Page 35: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

28

5. 맺 말 추후과

다변량분 여러 통계 키지에 공 고 있 나, 통계 공자들이

쉽게 용 있도 Excel에 구동 는 분 도구 일 공 고

자 다. 본 논 에 는 Excel에 구동 는 사결 나 , 인자분 개

, 사용자 입장에 사용자 요구를 만족시키고, 보다 편리 게 사용

있도 다는 부분에 개 주 었다. 특히 주목 만

는 이퍼링크를 이용 여 사결 나 간결함 지 면 사용자가

편리 게 부 보를 인 있게 것 이는 R이나 SAS에 해 사

용자 인 식이다.

본 논 에 는 사결 나 , 인자분 , 주 분분 KESS에 부

뉴 추가시킴 써 보다 차원에 다양 분야 통계분 이 가능

도 여 KESS 용도를 높이는데 를 었다.

지만 본 논 에 는 인자분 에 MLE 추 법과 사각회 지원

지 는 , 사결 나 에 는 CART 식만 구 다는 데에

그 계가 있 며 추후에 이 부분 개 다면 KESS가 다변량분 도구

써 보다 높 도를 가질 있 것이다.

Page 36: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

29

참 고 헌

Johnson, R.A. and Wichern, D.W. (2007) Applied multivariate statistical

analysis. 6th ed., Pearson

Stone, C.J. (1984) Classification and regression trees, Chapman and Hall

Kaiser, H.F. (1959) Computer program for Varimax Rotation in Factor

Analysis, Educational and Psychological Measurement

Quinlan, J. R. (1993) C4.5: Programs for Machine Learning, Morgan

Kaufmann Publishers,

Han J, (2006 ) Data mining: concepts and techniques, Elsevier

Page 37: Disclaimers-space.snu.ac.kr/bitstream/10371/131274/1/000000016774.pdf · 통계자료 분석을 위해서는 이에 적합한 통계분석틀(package)을 사용하는 것이 필수적이다.

30

Abstract

Gi-won Lee

Statistics, Time Series

The Graduate School

Seoul National University

Statistical packages such as SAS, SPSS, R have been widely used for

data analysis. Since most of them are developed in English, it is difficult

to be used by general public. And they put some burden of cost on users.

In the thesis we summarize the fundamental concepts necessary for

the development of statistical packages and develop a multivariate

analysis package including ‘Factor analysis’and ‘Decision tree’

based on these concepts. Since most of the windows menu and results

are provided in Korean, the package is more user-friendly. EXCEL is

used as a basis tool for the development since it is the most widely used

package and is easy to use for the input and output of the data.

Keywords : Application Frame, Excel, Factor analysis, Principal

component analysis(PCA), Decision tree

Student number : 2012-20226