9장 연관성규칙발견 - KOCWcontents.kocw.net/KOCW/document/2016/yeungnam/leejea... ·...

제 9장 연관성규칙발견

Association Rule Discovery

INDEX 9.1 연관성규칙발견의 개념

9.2 연관성규칙발견의 특징과 적용상의 문제점

9.3 웹마이닝(Web Mining)

9.4 분석사례 – 1, 2, 3

데이터 마이닝 기법 분류

지도예측 (Supervised Prediction) 입력변수, 목표변수가 존재 입력변수로부터 목표 값을 예측하는 모형 개발이 목적

• Binary Classirier : 이항 분류

• Neural Network : 신경망 모형

• Decision Tree : 의사결정나무

– C5.0, CART, QUEST, CHAID

• Regression : 회귀분석

• Logistic : 로지스틱 회귀분석

• Discriminant : 판별분석

• Time Series : 시계열 분석

자율예측 (Unsupervised Prediction) 목표변수가 명확히 규정되지 않음 데이터에 존재하는 여러 형태의 특징을 찾는 것이 목적

• K-Means : K-평균 군집화

• Two Step : 2단계 군집화

• Apriori : 연관성 규칙

• PCA / Factor : 주성분 / 인자분석

9.1 연관성규칙발견의 개념

연관성규칙발견 : 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호

관련성을 발견하는 것

Ex) ‘신발을 구매하는 고객의 10%는 양말을 동시에 구입한다.’

‘최근에 구좌정리와 이율상담을 요구한 고객은 이 후 한 달 이내에 거래를 중단할

가능성이 일반 고객의 2배이다.’ -> 조건과 반응(if-then)의 형식

다수의 거래내역 각각에 포함된 품목의 관찰을 통해 발견된 규칙은 쿠폰의 배포,

상품의 판매, 상품의 배열 등과 같은 기업업무에서 마케팅 의사결정에 도움을 준다.

-> 장바구니 분석 : 고객이 동시에 구매한 장바구니를 살펴봄으로써 거래되는 상품들

의 관련성을 발견, 분석

9.1.1 의미 있는 연관성 규칙

- 수학 및 통계학의 확률과 기대값에 대한 기념을 기반으로 하고 있다.

- 이를 원인과 결과의 직접적인 인과관계로 생각해서는 안되며, 두 개 또는 그 이상의

품목들 사이의 상호의 관련성으로 해석해야 한다.

- 대용량의 자료로부터 얻어지는 연관성규칙들이 모두 유용한 내용이 아닐 수 있다.

Ex) 주말을 위해 목요일에 기저귀를 사러 온 고객들은 맥주도 함께 사간다.

이전에 동일한 제조사의 전자제품을 주로 구매했던 고객은 신제품 구매에서도

동일한 회사의 제품을 구매한다.

새로 문을 연 건축 자재점에서는 변기덮개가 가장 많이 팔린다.

-> 데이터를 통해 얻어지는 모든 연관성이 의미 있다고 보기는 어려우며, 수많은 품목

들의 관계 속에서 의미 있는 관련성을 찾기 위해서는 결과해석에 앞서 연관성의 내용

이 일반화할 수 있는 내용인가를 판단할 수 있는 기준이 필요하다.

9.1.2 지지도(Support)와 신뢰도(Confidence)

지지도(Support) : 전체 자료에서 관련성이 있다고 판단되는 품목들을 포함하고

있는 거래나 사건의 확률 (두 개의 항목이 동시에 일어날 확률)

지지도(𝐴𝐴 ⇒ B) = 항목 A와 B를 동시에 포함하는 거래의 수 전체 거래수

= Pr(A ∩ B) = n(A,B)N

※ 지지도는 상호 대칭적이므로 지지도(𝐴𝐴 ⇒ B) = 지지도(B ⇒ A)

신뢰도(Confidence) : 항목 A를 구매하였을 경우 항목 B를 구매하는 확률은

얼마인가?

신뢰도(𝐴𝐴 ⇒ B) = 항목 A와 B를 동시에 포함하는 거래의 수항목 A를 포함하는 거래의 수

= Pr(B|A) = Pr(A∩B)Pr(A) = n(A,B)

n(A)

※ 신뢰도는 상호 대칭적이지 않으므로 신뢰도(𝐴𝐴 ⇒ B) ≠ 신뢰도(B ⇒ A)

: 품목들 간의 연관성의 정도를 평가하는 중요한 평가도구

Ex) 피자 가게에서 토핑을 무엇으로 하는가

항목 거래의 수

버섯 100

페페로니 150

치즈 200

버섯+페페로니 400

버섯+치즈 300

페페로니+치즈 200

버섯+페페로니+치즈 100

추가토핑 안함 550

합계 2,000

항목 항목이 포함된 거래의 수 포함률

버섯 100+400+300+100=900 45.0%

페페로니 150+400+200+100=850 42.5%

치즈 200+300+200+100=800 40.0%

버섯+페페로니 400+100=500 25.0%

버섯+치즈 300+100=400 20.0%

페페로니+치즈 200+100=300 15.0%

버섯+페페로니+치즈 100 5.0%

(a) 요약된 거래 데이터(추가토핑)

(b) 재구성된 데이터

규칙(A⇒B) 지지도, Pr(A∩B) 신뢰도, Pr(B|A)

버섯 ⇒ 페페로니 25% 25/45=55.6%

(버섯+페페로니) ⇒ 치즈 5% 5/25=20.0%

(버섯+치즈) ⇒ 페페로니 5% 5/20=25.0%

(페페로니+치즈) ⇒ 버섯 5% 5/15=33.3%

⋯ ⋯ ⋯

(c) 지지도와 신뢰도의 계산 ※ 지지도와 신뢰도는 확률

의 개념이므로 0에서 1사이

의 값을 가지며, 1에 가까울

수록 연관성이 높다고 할

수 있다.

9.1.3 향상도(Lift)

향상도(Lift) : 우연에 의한 연관성의 정도를 재기 위해서

향상도(𝐴𝐴 ⇒ B) = Pr(B|A)Pr(B) = Pr(A∩B)

Pr(A)Pr(B)

- 향상도 > 1 : 두 품목이 양의 연관성을 가짐(빵과 버터)

- 향상도 = 1 : 독립에 가까운 사건(과자와 후추)

- 향상도 < 1 : 두 품목이 음의 연관성을 가짐(지사제와 변비약)

※ 향상도가 1에 가깝다면 신뢰도가 높다 하더라도 우연에 의해 연관성이 높게 나

타났을 가능성이 있다.

규칙(A=>B) Pr(A) Pr(B) 지지도

Pr(A∩B)

신뢰도 P(A∩B) /P(A)

향상도 P(A∩B)

/P(A)P(B)

버섯=>페페로니 45% 42.5% 25% 0.556 1.31

(버섯+페페로니)=>치즈 25% 40.0% 5% 0.20 0.5

(버섯+치즈)=>페페로니 20% 42.5% 5% 0.25 0.588

(페페로니+치즈)=>버섯 15% 45.0% 5% 0.333 0.74

향상도 계산의 예

9.1.4 연관성규칙발견의 응용

둘 또는 그 이상의 항목들 사이의 수많은 연관성 규칙 중에서 지지도, 신뢰도, 향상

도에 근거해 일반화 할 수 있는 의미 있는 규칙을 탐색하는 방법

-> 교차판매, 매장진열, 카탈로그 디자인, 소프트웨어 번들링, 첨부 우편물, 보험의

부정행위 적발 등에 유용하게 사용

Ex)

- 어떤 제품과 관련된 선택사양들을 고객의 성향에 따라 정리한다면 비슷한 성향

을 갖는 신규고객에게 동시에 그 둘을 제공해 구매의사를 높임

- 예금구좌, CD, 투자 서비스, 카드 대출 등의 은행 상품의 관련성을 파악한다면

고객들이 원하는 또 다른 상품의 형태를 파악해 고객의 구매를 유도

- 보험금 청구 내용이 이전의 내용과 비교해 관련성이 적은 특이한 상황이라면

보험사기를 의심하고 좀 더 면밀한 조사를 요구

비연관성과 음의 연관성

‘Not A=>B’,‘A and Not B => C’ 라는 규칙으로 비연관성의 관계 파악

‘C and D => not E’ 라는 규칙으로 음의 연관성의 관계 파악

시차 연관성 규칙

시간이 지남에 따라 어떤 소비형태를 보이는가에 대한 분석

-> 원인과 결과의 형태로 해석이 가능해서 결과가 더욱 유용하게 쓰임.

Ex) - 호텔예약과 같은 유사한 과거 신용카드 결제 내역에 대한 분석을 통해 추후

발생시점에 대한 정보를 얻는다.

- 특정한 치료 후 발병할 합병증에 대한 예측이 가능하다.

9.2 연관성규칙발견의 특징과 적용상의 문제점

9.2.1 연관성규칙발견의 장점

- 탐색적인 기법

: ‘조건 => 반응’ 의 규칙의 형태를 가지고 있어 이해가 쉽고 적용이 용이

- 강력한 비목적성 분석기법

: 대부분의 데이터마이닝 기법과 달리 뚜렷한 목적변수 없이도 적용이 쉽다.

- 사용 편리한 분석데이터의 형태

: 특별한 변환 없이 간단히 사용이 가능한 데이터구조를 가지고 있다.

- 계산의 용이성

: 대용량의 데이터인 경우 계산의 수가 크게 증가하기는 하지만 분석을 위한

계산은 아주 간단하다.

9.2.1 연관성규칙발견의 단점

- 상당한 수의 계산과정

: 연관성을 관찰하고자 하는 항목이 증가하면 계산의 수가 크게 증가한다.

- 적절한 항목의 결정

: 실제 불필요한 항목들이 많이 존재한다.

- 항목의 비율차이

: 거래량이 적은 품목의 경우 거래수가 적기 때문에 연관성규칙발견

과정 중 제외될 가능성이 있다.

9.3 웹마이닝(Web Mining)

웹마이닝 ?

웹컨텐츠 및 로그 데이터를 가공하고 분석하는 것

기업들은 대부분 인터넷을 통해 고객과 접촉하기 때문에

인터넷을 통한 고객과의 커뮤니케이션 및 관계유지는 많은 기업들의

주요 관심사항이 되고 있으며 이에 따라 eCRM이 주목받고 있다.

9.4 분석사례 – 1(BNKSERV) • n(Number of records) = 24,375

• ID Variable : ACCT – Number of unique ID’s = 7,991

• Target Variable : SERVICE

SERVICE 범주에 대한 설명 빈도(%)

ATM automated teller machine debit card 3,073 38.5%

AUTO automobile installment loan 742 9.3%

CCRD credit card 1,237 15.5%

CD certificate of deposit 1,960 24.5%

CKCRD check/debit card 903 11.3%

CKING checking account 6,855 85.8%

HMEQLC home equity line of credit 1,316 16.5%

IRA individual retirement account 866 10.8%

MMDA money market deposit account 1,394 17.4%

MTG mortgage 594 7.4%

PLOAN personal/consumer installment 101 1.3%

SVG saving account 4,994 61.9%

TRUST personal trust account 390 4.9%

Number of ID’s 7,991 100%

9.4 분석사례 – 2 (ASSOCS) • n(Number of records) = 7,007

• ID Variable : CUSTOMER – Number of unique ID’s = 1,001

• Sequence Variable : TIME

• Target Variable : PRODUCT

PRODUCT 비율(%) PRODUCT 비율(%)

apples 31.4% ham 30.5%

artichok 30.5% heineken 59.9%

avocado 36.3% hering 48.6%

baguette 39.2% ice_crea 31.3%

bordeaux 7.4% olives 47.3%

bourbon 40.3% peppers 29.6%

chicken 31.5% sardines 31.8%

coke 29.6% soda 22.7%

corned_b 39.1% steak 28.3%

cracker 48.8% Turkey 28.3%

9장 연관성규칙발견 - KOCWcontents.kocw.net/KOCW/document/2016/yeungnam/leejea... ·...

Documents

Transcript of 9장 연관성규칙발견 - KOCWcontents.kocw.net/KOCW/document/2016/yeungnam/leejea... ·...