주요 정책 설명자료 - 그대안의 작은 호수 · 주요 정책 설명자료 ① 빅데이터 활성화 ... - 1 - Ⅰ. 빅데이터 활성화 1 빅데이터 현황 전통적으로
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
-
Upload
seongho-na -
Category
Data & Analytics
-
view
283 -
download
3
Transcript of 빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
분석전문가 5 기 우수사례
멘토 : 김도현조원 : 나성호 , 고민정 , 박대건 , 최태웅 , 유성용
국내 문학 신간 서적의판매량 예측 모델 개발
팀 소개
나성호 수석 고민정 수석 박대건 대표 최태웅 연구원 유성용 주임
하나금융경영연구소 케이에스비퓨처 케이에스비퓨처 ㈜ 오픈메이트 국민건강보험
모델링 & PT 텍스트 마이닝 데이터 마트 데이터 마트 텍스트 마이닝
(Kevin) (Peter) (David) (Camel) (Harvey)
KPDCH 팀
2 / 16
목차
Ⅰ. 개요① 나는 궁금합니다 !!
② 그래서 물었습니다 . 왜 필요하신가요 ?
③ MD 의 요구사항 구체화하기
Ⅱ. 데이터마트④ Data 를 확보하라 ! ( 브레인스토밍 )
⑤ 데이터마트의 구축
⑥ 종속변수의 정의
Ⅲ. 분석방법론⑦ 회귀모형에 사용할 독립변수의 선택
⑧ 다양한 회귀모형 생성 ( 다중회귀모형 , GLM)
⑨ 회귀모형 간 적합도 비교 (w/ MAPE)
Ⅳ. 결론⑩ 회귀방정식의 완성 및 해석
⑪ KPDCH 의 솔루션 , 이렇게 활용해보세요 .
⑫ 프로젝트를 마무리하며 …
3 / 16
나는 궁금합니다 !!
대형 온라인서점 Y 사의
국내문학 상품기획자 (MD)
신간 서적이 나오면
이 책이 얼마나 팔릴지
미리 예측해야 하는데…
좋은 방법이 없을까요 ??
4 / 16
그래서 물었습니다 . 왜 필요하신가요 ?
예상 판매량
실제 판매량
판매 전 , 출판사는 기분 좋고
MD 의 어깨는 으쓱해지나 ,
판매 후 , 월말 악성재고로 남아
매몰비용이 증가됨
[Case Ⅰ]
예상 판매량
실제 판매량
판매 전 , 출판사는 마음 상하고
MD 는 민망해질 뿐만 아니라 ,
판매 후 , 영업기회 상실에 따라
기회비용이 증가됨
[Case Ⅱ]
5 / 16
MD 의 요구사항 구체화하기
Y 서점MD
국내문학 신간 서적의 판매량을 가능한
정확하게 예측하고 싶습니다 .
KPDCH 구체적인 판매량을 알고 싶으신가요 ?
아니면 예상 등급 정도면 될까요 ?
Y 서점MD
구체적인 수량으로 알려주시면 제가 예상
등급을 만들어 사용할 수 있을 것 같아요 .
KPDCH
그렇다면 , 회귀분석을 이용해서 판매량을
예측하는 모델을 만들어 드리겠습니다.
6 / 16
Data 를 확보하라 ! ( 브레인스토밍 )
Y 사로부터
정형 데이터
확보
인터넷에서
베스트셀러
정보 크롤링
통계청에서
제공하는
데이터 활용
저자 정보 출판사 정보 신간 서적 정보 서적 일별 판매량 파생변수 생성 등
네이버 책 (Book)
사이트에서 대형
온라인 서점 6개사
베스트셀러 정보를
주 단위로 공개
가구당 소득 /지출
→ 가처분소득 도서 판매액 소비심리지수 실업률 등
7 / 16
데이터마트의 구축① 온라인 서점 Y 사로부터 받은 정형데이터로 다양한 파생변수 생성
ISBN(13) 도서명 출간일자 작가번호 출판사코드 정가 분야번호
9788994… 별을 사랑 20130615 1556 100634 6,000 001006
9788997… 이어령의 20130506 1703 107513 45,000 001006
9788954… 그 여자의 20130114 51032 6 11,000 001006
9788932… 견딜 수 20130115 51036 79 8,000 001006
: : : : : : :
ISBN(13) 날짜 판매량
9788994… 20130615 1
9788994… 20130616 3
9788994… 20130617 2
9788994… 20130618 2
: : :
작가번호 출판 종수 누적판매량
1556 2 4,301
1703 45 20,054
51032 13 2,435
51036 7 521
: : :
출판사코드 출판 종수 누적판매량
100634 302 10,296
107513 1745 242,154
6 25 7,568
79 61 14,325
: : :
전체 출판 종수 : 20 만여 권
일 판매량 : 100 만여 건
작가 수 : 7 만여 명
출판사 수 : 2 만여 개
8 / 16
데이터마트의 구축② 네이버 책 사이트에서 6대 온라인 서점의 베스트셀러 정보 크롤링
온라인 서점명
장르명
날짜 정보 ( 년 / 월 / 주차 )
베스트셀러 순위 (1~100 위)
도서명
저자명
출판사명
ISBN(13)
9 / 16
종속변수의 정의 2013 년 국내문학 신간 도서 866 권의 출간 이후 14 일간 판매량 합계
0 권 : 253 종
100 권 이하 : 497종
200 권 이하 : 46종
200 권 초과 : 70종최소 : 0 권
최대 : 3,643 권
평균 : 85 권
정규분포가 아닌포아송분포 형태
Y에 log
10 / 16
회귀모형에 사용할 독립변수의 선택 준비된 독립변수는 총 42 개 . 이 중 종속변수와의 유의확률이 0.05 이하인 변수만 회귀모형에 적용
독립변수
판매지수 (경영 )
판매지수 (인문 )
판매지수 (자 /계 )
판매지수 (문학 )
저자지수 (1w)
저자지수 (2w)
출판사지수 (3w)
출판사지수 (4w)
:
독립변수
저자 출판종수
저자 총판매량
저자 평균판매량
출판사 출판종수
출판사 총판매량
출판사 평균판매량
가격 (정가 )
최근 12M 판매량
:
상관계수 P-value
0.165 9.5e-07
0.433 2.2e-16
0.408 2.2e-16
0.080 0.019
0.148 1.2e-05
0.263 3.1e-15
-0.021 0.536
0.280 2.2e-16
: :
상관계수 P-value
-0.027 0.436
-0.018 0.587
0.038 0.268
0.004 0.905
0.625 4.0e-09
0.794 2.3e-14
0.277 2.2e-16
0.240 7.6e-13
: :
독립변수
가구 총소득 (Q)
가구 총소비 (Q)
도서 소비 (Q)
소비심리지수 (M)
경기예상지수 (M)
도소매 판매액 (M)
온라인 판매액 (M)
실업률 (M)
:
상관계수 P-value
-0.037 0.270
-0.034 0.452
-0.012 0.725
-0.014 0.680
0.004 0.898
-0.012 0.732
-0.032 0.342
-0.015 0.664
: :
Y 사 데이터 베스트셀러 데이터 통계청 데이터
사용 가능 독립변수의 개수
42 개 → 24 개
11 / 16
다양한 선형 회귀모형 생성 ① 다중회귀분석 (stepwise 방식 )
# linear model
> reg <- D14_SALE ~ .
> lm.tr <- step(lm(reg, data=bookdb.tr),
direction=“backward”))
> summary(lm.tr)
② 일반화 선형모형 (GLM)
# GLM, poisson regression
> glm.pos <- glm(reg, data=bookdb.tr,
family=poisson(link=log)))
> summary(glm.pos)
# GLM, Negative Binomial regression
> glm.nbr <- glm.nb(reg, data=
bookdb.tr, method=“glm.fit”, link=log))
> summary(glm.nbr)
12 / 16
다중회귀분석 과정
- 전체 데이터를 Training data(80%) 와 Test data (20%) 로 임의로 나눈 후 ,
- Training data 로 stepwise 방식의 회귀식 생성
- VIF 10 이상인 변수 제거 (다중공선성 해결 )
- Cook’s Distance 가 2 이상인 값 제거 (Outlier)
회귀모형 간 적합도 비교 MAPE( 평균절대백분율오차 ) 사용
# Mean Absolute Percentage Error
실제값 대비 실제값과 예측값 편차 비율의
평균 . 0 에 가까울수록 모델 적합도 좋음
# 모형 평가 지표
Max Error, 오분류율 , Min/Max Error,
sMAPE, MAE, RSS 등이 있음
선형모델 MAPE
1. Linear Model 0.4517
2. GLM Poisson 0.4635
3. GLM Negative Binomial 0.7605
선형모델간 적합도 비교 (w/ MAPE)
회귀분석에는 수많은 형태가 있지만 ,
사용자가 쉽게 이해할 수 있고 ,
적용이 편리한 모델을 사용하는 것이 좋음
13 / 16
회귀 방정식의 완성 및 해석
우리는 이 회귀방정식으로부터 ,
저자의 기존 서적들이 베스트셀러에 등록 될수록 신간 서적이 더 많이 팔리며 ,
출판사보다 저자의 영향력이 더 크며 ,
특히 , 신간 서적의 출판일 3 주 전에 저자가 베스트셀러로 등록된 경우 , 신간 판매량에 가장 큰 영향을 미치게 됨을 알 수 있다 .
변수 계수 (β) 표준화
Y 절편 14.7 -
저자 총 판매량 0.0004 0.063
저자 최근 3개월 간 판매량
-0.02 -0.083
저자 베스트셀러 지수 (1w) -47.2 -0.198
저자 베스트셀러 지수 (2w) 90.2 0.321
저자 베스트셀러 지수 (3w) 215.7 0.802
저자 베스트셀러 지수 (4w) -30.3 -0.094
출판사 베스트셀러 지수(4w)
7.84 0.071
종속변수에 영향을 크게 주는 변수의 순서
① 저자 베스트셀러 지수 _3w
② 저자 베스트셀러 지수 _2w
③ 저자 베스트셀러 지수 _1w
14 / 16
KPDCH 의 솔루션 , 이렇게 활용해보세요 .
신간 서적의 ‘출간 후 14 일 간 판매량 추정’ → 상위 30% 대상 프로모션 진행
1,000 권 이상
100 권 이상
10 권 이상
1 권 이상
예측값(누적 )
1,000권이상
100 권이상
10권이상
1권이상
1권미만
누적 종수
6종 20종 162 종 169 종 177 종
100 권점유비
66.7% 50.0% 9.9% 10.1% 10.2%
□ Test Data 로 회귀방정식 검증한 결과
[ROC curve & Lift chart]
Optimalpoint
* 판매량 1, 2 위 서적의 순위를 정확하게 맞힘
(권 )
15 / 16
프로젝트를 마무리하며 …
통찰력
(Insight)
KPDCH
사람들이 언제 , 왜
책을 사는지 이유를
알아야 했습니다 .
부족한 인사이트는
브레인스토밍과
구글링으로 채웠고 ,
서점의 데이터와
웹 크롤링 결과로
파생변수를 만들어
여러 가지 회귀분석
기법으로 예측모델을
만들었습니다 .
처음 배우는 ‘ R’ 은
많은 시간과 노력을
요구했습니다만 ,
그간의 과정을
이렇게 공유하게
되어 기쁩니다 .상상력
(Imagina-tion)
정보력
(Know-
where)문제해결력
(Know-
How)
열정
(Passion)
의사소통
(Communi-cation)