9장 연관성규칙발견 - KOCWcontents.kocw.net/KOCW/document/2016/yeungnam/leejea... ·...
Transcript of 9장 연관성규칙발견 - KOCWcontents.kocw.net/KOCW/document/2016/yeungnam/leejea... ·...
제 9장 연관성규칙발견
Association Rule Discovery
INDEX 9.1 연관성규칙발견의 개념
9.2 연관성규칙발견의 특징과 적용상의 문제점
9.3 웹마이닝(Web Mining)
9.4 분석사례 – 1, 2, 3
데이터 마이닝 기법 분류
지도예측 (Supervised Prediction) 입력변수, 목표변수가 존재 입력변수로부터 목표 값을 예측하는 모형 개발이 목적
• Binary Classirier : 이항 분류
• Neural Network : 신경망 모형
• Decision Tree : 의사결정나무
– C5.0, CART, QUEST, CHAID
• Regression : 회귀분석
• Logistic : 로지스틱 회귀분석
• Discriminant : 판별분석
• Time Series : 시계열 분석
자율예측 (Unsupervised Prediction) 목표변수가 명확히 규정되지 않음 데이터에 존재하는 여러 형태의 특징을 찾는 것이 목적
• K-Means : K-평균 군집화
• Two Step : 2단계 군집화
• Apriori : 연관성 규칙
• PCA / Factor : 주성분 / 인자분석
9.1 연관성규칙발견의 개념
연관성규칙발견 : 하나의 거래나 사건에 포함되어 있는 둘 이상의 품목들의 상호
관련성을 발견하는 것
Ex) ‘신발을 구매하는 고객의 10%는 양말을 동시에 구입한다.’
‘최근에 구좌정리와 이율상담을 요구한 고객은 이 후 한 달 이내에 거래를 중단할
가능성이 일반 고객의 2배이다.’ -> 조건과 반응(if-then)의 형식
다수의 거래내역 각각에 포함된 품목의 관찰을 통해 발견된 규칙은 쿠폰의 배포,
상품의 판매, 상품의 배열 등과 같은 기업업무에서 마케팅 의사결정에 도움을 준다.
-> 장바구니 분석 : 고객이 동시에 구매한 장바구니를 살펴봄으로써 거래되는 상품들
의 관련성을 발견, 분석
9.1.1 의미 있는 연관성 규칙
- 수학 및 통계학의 확률과 기대값에 대한 기념을 기반으로 하고 있다.
- 이를 원인과 결과의 직접적인 인과관계로 생각해서는 안되며, 두 개 또는 그 이상의
품목들 사이의 상호의 관련성으로 해석해야 한다.
- 대용량의 자료로부터 얻어지는 연관성규칙들이 모두 유용한 내용이 아닐 수 있다.
Ex) 주말을 위해 목요일에 기저귀를 사러 온 고객들은 맥주도 함께 사간다.
이전에 동일한 제조사의 전자제품을 주로 구매했던 고객은 신제품 구매에서도
동일한 회사의 제품을 구매한다.
새로 문을 연 건축 자재점에서는 변기덮개가 가장 많이 팔린다.
-> 데이터를 통해 얻어지는 모든 연관성이 의미 있다고 보기는 어려우며, 수많은 품목
들의 관계 속에서 의미 있는 관련성을 찾기 위해서는 결과해석에 앞서 연관성의 내용
이 일반화할 수 있는 내용인가를 판단할 수 있는 기준이 필요하다.
9.1.2 지지도(Support)와 신뢰도(Confidence)
지지도(Support) : 전체 자료에서 관련성이 있다고 판단되는 품목들을 포함하고
있는 거래나 사건의 확률 (두 개의 항목이 동시에 일어날 확률)
지지도(𝐴𝐴 ⇒ B) = 항목 A와 B를 동시에 포함하는 거래의 수 전체 거래수
= Pr(A ∩ B) = n(A,B)N
※ 지지도는 상호 대칭적이므로 지지도(𝐴𝐴 ⇒ B) = 지지도(B ⇒ A)
신뢰도(Confidence) : 항목 A를 구매하였을 경우 항목 B를 구매하는 확률은
얼마인가?
신뢰도(𝐴𝐴 ⇒ B) = 항목 A와 B를 동시에 포함하는 거래의 수항목 A를 포함하는 거래의 수
= Pr(B|A) = Pr(A∩B)Pr(A) = n(A,B)
n(A)
※ 신뢰도는 상호 대칭적이지 않으므로 신뢰도(𝐴𝐴 ⇒ B) ≠ 신뢰도(B ⇒ A)
: 품목들 간의 연관성의 정도를 평가하는 중요한 평가도구
Ex) 피자 가게에서 토핑을 무엇으로 하는가
항목 거래의 수
버섯 100
페페로니 150
치즈 200
버섯+페페로니 400
버섯+치즈 300
페페로니+치즈 200
버섯+페페로니+치즈 100
추가토핑 안함 550
합계 2,000
항목 항목이 포함된 거래의 수 포함률
버섯 100+400+300+100=900 45.0%
페페로니 150+400+200+100=850 42.5%
치즈 200+300+200+100=800 40.0%
버섯+페페로니 400+100=500 25.0%
버섯+치즈 300+100=400 20.0%
페페로니+치즈 200+100=300 15.0%
버섯+페페로니+치즈 100 5.0%
(a) 요약된 거래 데이터(추가토핑)
(b) 재구성된 데이터
규칙(A⇒B) 지지도, Pr(A∩B) 신뢰도, Pr(B|A)
버섯 ⇒ 페페로니 25% 25/45=55.6%
(버섯+페페로니) ⇒ 치즈 5% 5/25=20.0%
(버섯+치즈) ⇒ 페페로니 5% 5/20=25.0%
(페페로니+치즈) ⇒ 버섯 5% 5/15=33.3%
⋯ ⋯ ⋯
(c) 지지도와 신뢰도의 계산 ※ 지지도와 신뢰도는 확률
의 개념이므로 0에서 1사이
의 값을 가지며, 1에 가까울
수록 연관성이 높다고 할
수 있다.
9.1.3 향상도(Lift)
향상도(Lift) : 우연에 의한 연관성의 정도를 재기 위해서
향상도(𝐴𝐴 ⇒ B) = Pr(B|A)Pr(B) = Pr(A∩B)
Pr(A)Pr(B)
- 향상도 > 1 : 두 품목이 양의 연관성을 가짐(빵과 버터)
- 향상도 = 1 : 독립에 가까운 사건(과자와 후추)
- 향상도 < 1 : 두 품목이 음의 연관성을 가짐(지사제와 변비약)
※ 향상도가 1에 가깝다면 신뢰도가 높다 하더라도 우연에 의해 연관성이 높게 나
타났을 가능성이 있다.
규칙(A=>B) Pr(A) Pr(B) 지지도
Pr(A∩B)
신뢰도 P(A∩B) /P(A)
향상도 P(A∩B)
/P(A)P(B)
버섯=>페페로니 45% 42.5% 25% 0.556 1.31
(버섯+페페로니)=>치즈 25% 40.0% 5% 0.20 0.5
(버섯+치즈)=>페페로니 20% 42.5% 5% 0.25 0.588
(페페로니+치즈)=>버섯 15% 45.0% 5% 0.333 0.74
향상도 계산의 예
9.1.4 연관성규칙발견의 응용
둘 또는 그 이상의 항목들 사이의 수많은 연관성 규칙 중에서 지지도, 신뢰도, 향상
도에 근거해 일반화 할 수 있는 의미 있는 규칙을 탐색하는 방법
-> 교차판매, 매장진열, 카탈로그 디자인, 소프트웨어 번들링, 첨부 우편물, 보험의
부정행위 적발 등에 유용하게 사용
Ex)
- 어떤 제품과 관련된 선택사양들을 고객의 성향에 따라 정리한다면 비슷한 성향
을 갖는 신규고객에게 동시에 그 둘을 제공해 구매의사를 높임
- 예금구좌, CD, 투자 서비스, 카드 대출 등의 은행 상품의 관련성을 파악한다면
고객들이 원하는 또 다른 상품의 형태를 파악해 고객의 구매를 유도
- 보험금 청구 내용이 이전의 내용과 비교해 관련성이 적은 특이한 상황이라면
보험사기를 의심하고 좀 더 면밀한 조사를 요구
비연관성과 음의 연관성
‘Not A=>B’,‘A and Not B => C’ 라는 규칙으로 비연관성의 관계 파악
‘C and D => not E’ 라는 규칙으로 음의 연관성의 관계 파악
시차 연관성 규칙
시간이 지남에 따라 어떤 소비형태를 보이는가에 대한 분석
-> 원인과 결과의 형태로 해석이 가능해서 결과가 더욱 유용하게 쓰임.
Ex) - 호텔예약과 같은 유사한 과거 신용카드 결제 내역에 대한 분석을 통해 추후
발생시점에 대한 정보를 얻는다.
- 특정한 치료 후 발병할 합병증에 대한 예측이 가능하다.
9.2 연관성규칙발견의 특징과 적용상의 문제점
9.2.1 연관성규칙발견의 장점
- 탐색적인 기법
: ‘조건 => 반응’ 의 규칙의 형태를 가지고 있어 이해가 쉽고 적용이 용이
- 강력한 비목적성 분석기법
: 대부분의 데이터마이닝 기법과 달리 뚜렷한 목적변수 없이도 적용이 쉽다.
- 사용 편리한 분석데이터의 형태
: 특별한 변환 없이 간단히 사용이 가능한 데이터구조를 가지고 있다.
- 계산의 용이성
: 대용량의 데이터인 경우 계산의 수가 크게 증가하기는 하지만 분석을 위한
계산은 아주 간단하다.
9.2.1 연관성규칙발견의 단점
- 상당한 수의 계산과정
: 연관성을 관찰하고자 하는 항목이 증가하면 계산의 수가 크게 증가한다.
- 적절한 항목의 결정
: 실제 불필요한 항목들이 많이 존재한다.
- 항목의 비율차이
: 거래량이 적은 품목의 경우 거래수가 적기 때문에 연관성규칙발견
과정 중 제외될 가능성이 있다.
9.3 웹마이닝(Web Mining)
웹마이닝 ?
웹컨텐츠 및 로그 데이터를 가공하고 분석하는 것
기업들은 대부분 인터넷을 통해 고객과 접촉하기 때문에
인터넷을 통한 고객과의 커뮤니케이션 및 관계유지는 많은 기업들의
주요 관심사항이 되고 있으며 이에 따라 eCRM이 주목받고 있다.
9.4 분석사례 – 1(BNKSERV) • n(Number of records) = 24,375
• ID Variable : ACCT – Number of unique ID’s = 7,991
• Target Variable : SERVICE
SERVICE 범주에 대한 설명 빈도(%)
ATM automated teller machine debit card 3,073 38.5%
AUTO automobile installment loan 742 9.3%
CCRD credit card 1,237 15.5%
CD certificate of deposit 1,960 24.5%
CKCRD check/debit card 903 11.3%
CKING checking account 6,855 85.8%
HMEQLC home equity line of credit 1,316 16.5%
IRA individual retirement account 866 10.8%
MMDA money market deposit account 1,394 17.4%
MTG mortgage 594 7.4%
PLOAN personal/consumer installment 101 1.3%
SVG saving account 4,994 61.9%
TRUST personal trust account 390 4.9%
Number of ID’s 7,991 100%
9.4 분석사례 – 2 (ASSOCS) • n(Number of records) = 7,007
• ID Variable : CUSTOMER – Number of unique ID’s = 1,001
• Sequence Variable : TIME
• Target Variable : PRODUCT
PRODUCT 비율(%) PRODUCT 비율(%)
apples 31.4% ham 30.5%
artichok 30.5% heineken 59.9%
avocado 36.3% hering 48.6%
baguette 39.2% ice_crea 31.3%
bordeaux 7.4% olives 47.3%
bourbon 40.3% peppers 29.6%
chicken 31.5% sardines 31.8%
coke 29.6% soda 22.7%
corned_b 39.1% steak 28.3%
cracker 48.8% Turkey 28.3%