1.통계의_이해

25
6시그마 기초통계 및 미니탭 실습

Transcript of 1.통계의_이해

Page 1: 1.통계의_이해

6시그마

기초통계 및 미니탭 실습

Page 2: 1.통계의_이해

I. 통계의 이해

Page 3: 1.통계의_이해

3

통계학의 역사 I. 통계의 이해

통계학(Statistics)은 초기에…

통계학 어원은 라틴어로 국가(Status)에서

유래 되었음

오랫동안 통계라는 것은 어느 한 국가의

지표로 활용

자료의 정리

ex) 농업생산량 통계

실업률 통계등…

최근에는…

특정 정보를 얻기 위한 효율적인 자료수집

수집 자료를 통하여 정보로 가공

자료의 합리적인 해석

자료에 근거한 결론을 유도

Computer / Data 양이 많아지므로 인해

필수적인 부분이 됨

Advanced Statistics

Data Mining

CRM

-Customer Relationship Management

Page 4: 1.통계의_이해

4

통계학의 목적 및 영역 I. 통계의 이해

“통계학은 자료의 수집과정을 설계하고, 자료를 요약하고 해석하여 결론을

이끌어 내거나 일반화하는 전체적인 원리와 방법론을 제공하여 준다 ”

1. 관측 값으로부터 효율적인 추론을 할 수 있도록 표본추출(Sampling)의 과정과 범위를 설계하여,

2. 표본에 포함되어 있는 정보를 분석하여 모집단(Population)에 관하여 추론을 한다.

이 때, 추론에 수반되는 불확실성도 측정한다

통계학의 목적

1. Sampling (표본추출) : 전체를 나타내는 모집단에서 분석할 대상을 추출하는 방법론

2. Basic Statistics (기초 통계) : Data 에 대한 중심척도, 산포척도, 모양 등 전체 Data를 쉽게 파악

3. Inferential Statistics (추론 통계) : Sampling 된 Data를 통하여 전체에 대해 추측하는 것

4. Prediction (예측 통계) : 과거 Data 를 바탕으로 향 후 관심사항에 대해 과학적으로 예측

통계학의 기초 영역

Page 5: 1.통계의_이해

5

통계의 적용사례(예시) I. 통계의 이해

현재 A 사 10,000명의 급여체계는 어떻게 되어 있습니까?

대통령 선거에서 누가 당선될 확률이 가장 높습니까?

K사 에서 생산하는 백열등은 어느 정도 사용한 後 교체하여야 합니까?

M사 에서 생산하고 있는 볼펜은 얼마 정도 사용할 수 있습니까?

H사 에서 생산되는 자동차는 정면충돌에 안전합니까?

내일 주식가격(유가 등) 은 얼마 정도 되겠습니까?

올해 에어컨 생산량은 얼마 정도로 잡아야 합니까?

Page 6: 1.통계의_이해

6

확률(Probability) I. 통계의 이해

똑같은 실험을 무수히 많이 반복할 때 어떤 일이 얼어나는 비율

즉, 상대도수의 극한적인 개념

확률의 정의(Definition of Probability)

확률 식(Formula)

확률(Probability)

=일어날 수 있는 모든 경우의 수

원하는 일이 일어날 수 있는 경우의 수

▪ 주사위를 몇 번 던져야 “1” 이 나올 확률이 1/6이 될까?

▪ 한 반에 60名인 학급에서 생일이 같은 학생이 3명 이상일 확률은? Thinking

Page 7: 1.통계의_이해

7

확률변수(Random Variable) I. 통계의 이해

▪ 표본공간을 구성하는 사건에 수치를 부여한 것

▪ 각 값에 대응되는 확률이 정해져 있는 변수

ex1) X를 일일 인터넷 해지 고객수라고 가정하면 X가 취할 수 있는 값의 범위는

0명,1명,2명,……중 하나의 값이 될 것이고, 이 때 X를 확률 변수라고 함.

확률이란 확률변수(X)의 “가능성”을 나타내는 것으로

“확률 = 원하는 사건이 일어나는 경우의 수 / 모든 경우의 수” 로 계산함

ex2) 위의 확률변수 X (일일 인터넷 해지 고객 수) 가 10명보다 많을 확률을

“P(X>10)”라고 표기한다

ex3) 동전던지기 2회 시행 할 경우,

확률변수(X) = “앞면이 나오는 회수” 라고 가정할 때 앞면이 2번 나올

확률을 계산하시오

Sol) P(X=2) = 앞면이 2번 나오는 경우의 수 / 모든 경우의 수

< 나올 수 있는 모든 경우 = {HH,HT,TH,TT}, 앞면이 2번 나오는 경우= {HH} >

P(X=2) = 1/4, 즉 0.25

Note> H : 동전 앞면 , T : 동전 뒷면

확률변수(Random Variable)

Page 8: 1.통계의_이해

8

이산형 확률변수

- 확률변수는 가질수 있는 값이 동전을 두번 던지는 실험에서 앞면이 나오는 수에 관심을 가질때 가질 수 있는 값과 같이 셀 수 있는 경우

연속형 확률변수

- 키, 몸무게, 또는 거리등의 양을 측정할 때와 같이 확률변수가 가질 수있는 값이 구간으로 표시되거나 연속적인 값을 취하는 경우

이산형/연속형 확률변수에 대한 주위의 예를 하나씩 들어보십시요.

- 이산형

- 연속형

확률변수의 종류 I. 통계의 이해

Page 9: 1.통계의_이해

9

Minitab 실습 예제

목적 : 실습을 통하여 모집단과 표본에 대한 이해한다.

시간 : 15 분

다음 예제에서 모집단과 표본을 정의하십시요.

1. 한국 대통령선거결과를 예측하고자 한다. 이때의 모집단을 정의하고 모집단의특성을 잘 표현할 수 있는 표본을 생각해보십시요.

2. H사의 대전공장 직원들의 급여를 조사하고자 합니다. 이때의 모집단을 정의하고모집단의 특성을 잘 표현할 수 있는 표본선택방법을 설명해 보십시요.

☞ 표본은 모집단의 특성을 잘 나타낼 수 있는 모집단의 부분집합이다.(전수검사 –모집단 전체에 대해 조사)

I. 통계의 이해

Page 10: 1.통계의_이해

10

모집단

- 얻고자 하는 정보와 관련있는 모든 개체로부터 얻을 수 있는 모든 관측값들의 집합을 의미한다. 연구대상이 되는 물체나 사람들의 총체를 의미한다.

표본

- 모집단의 일부분으로, 원하는 정보를 얻기 위해 수행한 관측과정을 통하여 실제로 얻어진 관측결과의 집합이다.

모집단과 표본

랜덤샘플

모집단추정

I. 통계의 이해

Page 11: 1.통계의_이해

11

통계학에서 표본을 어떻게 뽑느냐에 따라 모집단에 대한 추정은 크게 바뀌게 되어있다.

Random Sample(표본조사)

샘플 /추론

랜덤샘플

랜덤샘플아님

큰 상자안의 동물이 무엇인지 두 사람이 각각 손을 넣어서 동물의 정보를 얻었다. 수집된 정보를요약/정리하여 상자안의 동물의 그림을 그렸다.

두 사람중 어느 사람이 적절한 정보를 수집하였습니까?

I. 통계의 이해

Page 12: 1.통계의_이해

12

랜덤샘플중 모집단에 대한 정의와 표본선택은 모집단의 성격을 정확히 파악할 수 있도록 선택하여야 한다.

Random Sample(표본조사)

4개 리서치회사에서 주는 정보 중 가장 정확하다고 생각되는 정보는 무엇입니까?

그 이유는 무엇이라고 생각하십니까?

민주당한나라

당공산당 기타 전체

A 리서치

85% 5 % 5 % 5 % 100

B 리서치

10 % 80 % 5 % 5 % 100

B 리서치

10 % 9 % 75 % 6 % 100

D 리서치

35 % 30 % 15 % 20 % 100

통일대통령 후보 선거조사

I. 통계의 이해

Page 13: 1.통계의_이해

13

모집단의 특징을 잘 반영할 수 있는 표본을 취하기 위해서는 적절한샘플링이 중요한다.

- 단순임의추출 : 모집단에서 표본을 선택하는 방법으로 모든 원소들이 동일한 확률로서 추출된다.

- 층화추출 : 모집단을 층별하고 난 후 각 층으로 부터 임의표본을 뽑아 전체표본을 만드는 방법이다.

- 계통추출 : 모집단의 표집목록에서 일정한 간격을 두고 표본을 추출하는방법

- 집락추출 : 조사단위의 집합인 집락을 추출단위로 하여 모집단으로 부터표본을 임의 추출하는 방법

- 층화집락추출 : 층화추출과 집락추출의 방법을 결합한 형태이다.

Sampling method I. 통계의 이해

Page 14: 1.통계의_이해

14

기술통계학

- 자료의 양이 방대한 경우, 자료의 전반적인 내용을 파악하기 위하여 수집된 자료의 특성을 쉽게 파악할 수 있도록 자료를 정리, 요약하는 방법을 다루는 분야

추측통계학

- 모집단에서 선택한 표본을 통하여 표본에 내포된 정보를 분석하여 모집단의 여러가지 특성에 대하여 과학적으로 추론하는 방법을 다루는 분야

기술통계학/추측통계학

결론

모집단의 특성에대한 추론

기술통계학 추측통계학

정리요약

☞ 일반적으로 기술통계학은 추측통계학의 전 단계 분석과정으로 보통 필수적으로 적용된다.

I. 통계의 이해

Page 15: 1.통계의_이해

15

평균(mean)

- 자료관측값의 산술평균이다.

- 각 자료에 있어서 유일하게 구하여진다.

- 소수의 매우 크거나 작은 값에 의하여 영향을 받는다.

- 자료를 몇 개의 작은 집단으로 나누었을 때 각 집단의 평균의 평균은 전체자료를 이용하여 구한 평균과 같다.

중앙값(median)

- 중앙위치의 값으로 관측값의 50%가 왼쪽에 그리고 나머지 50%가 오른쪽에 존재한다.

- 소수의 매우 크거나 작은값에 영향을 받지 않는다.(Robust 통계량)

- 자료를 몇 개의 작은 집단으로 나누었을 때 각 집단의 중위수의 중위수는 전체자료를 이용하여 구한 중위수와 항상 일치하지는 않는다.

- 숫자로 표시된 양적자료에만 이용가능하다.

최빈값(mode)

- 자료에서 관측빈도의 수가 가장 많은 값이다.

- 각 자료에서 하나 이상의 최빈값이 있을 수 있다.

- 소수의 극한값에 영향을 받지 않는다.

- 자료를 몇 개의 작은 집단으로 나누었을 때 각 집단의 최빈값에 의하여 전체의 최빈값을유도할 수 없다.

- 양적으로 측정된 자료와 질적으로 측정된 자료 모두에 이용 가능하다.

위치통계량 I. 통계의 이해

Page 16: 1.통계의_이해

16

산포통계량

각 자료값들이 평균과 같은 대표값 주위에 흩어져 있는 정도를 산포도(measure of dispersion)이라 한다. 산포도를 측정하는 방법은 범위(range), 분산(variance), 표준편차(standard deviation), 변동계수(coefficient of variation)등이 있다.

분산과 표준편차

- 각 자료값이 산술평균값과 비교하여 흩어져있는 정도를 계산한 값

- 모분산(2) : (xi - )2 / N 모표준편차 : 모분산(1/2)

- 표본분산(s2) : (xi - x )2 / (n-1) 표본표준편차 : 표본분산(1/2)

변동계수

- 서로 다른 평균과 표준편차를 갖는 여러 자료의 상대적인 변동 혹은 산포를 측정하기 위해서는 각 자료의 평균과 표준편차를 동시에 고려한 변동계수가 유용하게 사용된다.

- 변동계수 : s / x

I. 통계의 이해

Page 17: 1.통계의_이해

17

자료의 종류

양적자료 관측되는 값이 수치로 측정이 되는 경우

연속형자료

관측가능한 값이 연속적인 자료

예) 연봉, 자동차축의 길이, 볼트의 외경, 인장강도

숫자(평균, 분산, 중위수,…)

그래프(Boxplot, 밀도함수 …)

이산형자료

관측가능한 값이 셀수 있지만 연속형 아닌 경우

예) 불량갯수, 시간당 받아보는 E-mail수

숫자(빈도, Percent,…)

그래프(돗수분포표, Pie chart, Bar Chart,…)

질적자료 관측되는 값이 셀수 없음

순위형자료

관측값의 크기는 의미가 없지만 방향성을 가지고 있는 자료

예) 학년, 설문지 5점 척도

명목형자료

관측값들이 숫자적으로 표현이 어려운자료

예)성별, 업무부서

I. 통계의 이해

Page 18: 1.통계의_이해

18

-4 -3 -2 -1 0 1 2 3 4

0

100

200

300

400

Fre

qu

en

cy

특징

- 정규분포의 모양은 평균과 표준편차에 의하여 결정된다.

- 좌우대칭으로 종모양을 하고있으며, 현장에서 얻는 대부분의 데이터는정규분포의 형태에 가깝다.

활용

- 연속형 데이터의 수집이 가능한 공정에 대한 시그마 수준의 계산을 위해이용할 수 있다.

- 데이터가 불량품 또는 결점수 형태인 경우에도 시그마 수준의 계산을 위해 이용할 수 있다.

정규분포의 모양

정규분포 I. 통계의 이해

Page 19: 1.통계의_이해

19

모든 정규분포는 평균과 표준편차가 다르더라도 Z-변환을 통하여 표준정규분포(평균-1, 표준편차-1)로 만들어 확률을 계산한다.

Z-변환

-3 -2 -1 0 1 2 3

표본자료 표준정규분포

Z-변환

표준편차는 같고, 평균은 다른 정규분포

평균은 같고, 표준편차가 다른 정규분포

I. 통계의 이해

Page 20: 1.통계의_이해

20

표본자료를 표준정규분포로 만들어 확률을 계산한다.

Z-변환

-3 -2 -1 0 1 2 3

확률은 얼마인가?

1.2

165 168 171 174 177 180 183

확률은 얼마인가?

177.6

Z-변환

표본자료 표준정규분포

평균 : 174, 표준편차 : 3 평균 : 0 , 표준편차 : 1

Z = (177.6 – 174) / 3

키가 177.6인 이상인 사람은전체 몇 %정도인가?

?

Z값이 1.2 이상일 확률은 얼마정도입니까?

0.1151정보의 손실은 없음

I. 통계의 이해

Page 21: 1.통계의_이해

II. 불량과 6시그마

Page 22: 1.통계의_이해

22

Defect / Unit / Opportunity

결점(Defect)이란?

- 고객불만족을 유발하는 모든 것

- 정한 기준에 불일치하는 모든것

- 제품이나 서비스가 고객요구사항을 충족시키는 필요사항에 어긋나는 것

- 사람이나 생산품이 정상적인 프로세스를 벗어나게 하는 모든 것

단위(Unit)

- 각 분야로부터의 결과의 양적 측정치

- 관찰 가능하고 수량화가 가능하다.

- 정해진 시작점과 끝점이 있어야 한다.

- 결함을 세는 기준이 된다.

가능성(Opportunity)

- 한 과정의 제품/프로세스 기준으로부터 벗어나는 기회의 수

- 프로세스의 복잡성을 표현하는 척도

- 측정 가능하다.

II. 불량과 시그마

Page 23: 1.통계의_이해

23

DPU / DPO / DPMO

DPU(Defects Per Unit : 한 개의 Unit에 존재하는 Defect의 수)

- 어떤 Process가 부적합으로 판정되어도 6 시그마에서는 어느 정도의 결함을 가진 부적합인지가 관심의 대상이 됨으로 도입된 개념

예) 한장의 고객 Claim 양식에 10개의 기록해야 될 항목 수가 있고, 그 중 2개의 항목이 잘못 기재되었다면, DPU = Defect/Unit = 2/1 =2

DPO(Defects Per Opportunity : 한 개의 Unit에 존재하는 기회의 수와관련된 Unit에 존재하는 Defect의 수)

-같은 결함수를 가진 부적합 사항이라도, 기회수(불량으로 될 수 있는 관련된 Unit에 존재하는 Defect의 수)

예) 어떤 1장(Unit)의 Claim 양식에 10개의 기록해야 될 항목 수가 있고, 2개의 항목이 잘못기재되었다면, DPO = Defect/ (Unit*Opp) = 2/(1*10) =0.2

DPMO(Defects Per Million Opportunity : Dpo * 1,000,000)

- DPO를 PPM Scale로 전환한 개념

예) DPMO = DPO * 1,000,000 = 200,000

II. 불량과 시그마

Page 24: 1.통계의_이해

24

DPMO와 Sigma

DPMO Sigma Level

500,000 1.5

460,000 1.6

421,000 1.7

382,000 1.8

345,000 1.9

309,000 2.0

242,000 2.2

184,000 2.4

136,000 2.6

96,800 2.8

66,800 3.0

44,600 3.2

28,700 3.4

DPMO Sigma Level

17,900 3.6

10,700 3.8

6,210 4.0

3,470 4.2

1,870 4.4

968 4.6

483 4.8

233 5.0

108 5.2

48 5.4

21 5.6

8 5.8

3.4 6.0

II. 불량과 시그마

Page 25: 1.통계의_이해

25

송금전표 발행

실습 예제 (계수치적용)

1000 unit

1. 전표전달 2. 숫자확인 3. 문자작성 4. 최종확인

결점수 50 200 30 20

Opp/Unit 13 10 5 2

DPU 50/1000

DPMO(50/1000*13)*

1000,000

다음의 송금전표 발행 프로세스는 몇 시그마 정도인가?

II. 불량과 시그마