빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

분석전문가 5 기 우수사례

멘토 : 김도현조원 : 나성호 , 고민정 , 박대건 , 최태웅 , 유성용

국내 문학 신간 서적의판매량 예측 모델 개발

팀 소개

나성호 수석 고민정 수석 박대건 대표 최태웅 연구원 유성용 주임

하나금융경영연구소 케이에스비퓨처 케이에스비퓨처 ㈜ 오픈메이트 국민건강보험

모델링 & PT 텍스트 마이닝 데이터 마트 데이터 마트 텍스트 마이닝

(Kevin) (Peter) (David) (Camel) (Harvey)

KPDCH 팀

2 / 16

목차

Ⅰ. 개요① 나는 궁금합니다 !!

② 그래서 물었습니다 . 왜 필요하신가요 ?

③ MD 의 요구사항 구체화하기

Ⅱ. 데이터마트④ Data 를 확보하라 ! ( 브레인스토밍 )

⑤ 데이터마트의 구축

⑥ 종속변수의 정의

Ⅲ. 분석방법론⑦ 회귀모형에 사용할 독립변수의 선택

⑧ 다양한 회귀모형 생성 ( 다중회귀모형 , GLM)

⑨ 회귀모형 간 적합도 비교 (w/ MAPE)

Ⅳ. 결론⑩ 회귀방정식의 완성 및 해석

⑪ KPDCH 의 솔루션 , 이렇게 활용해보세요 .

⑫ 프로젝트를 마무리하며 …

3 / 16

나는 궁금합니다 !!

대형 온라인서점 Y 사의

국내문학 상품기획자 (MD)

신간 서적이 나오면

이 책이 얼마나 팔릴지

미리 예측해야 하는데…

좋은 방법이 없을까요 ??

4 / 16

그래서 물었습니다 . 왜 필요하신가요 ?

예상 판매량

실제 판매량

판매 전 , 출판사는 기분 좋고

MD 의 어깨는 으쓱해지나 ,

판매 후 , 월말 악성재고로 남아

매몰비용이 증가됨

[Case Ⅰ]

예상 판매량

실제 판매량

판매 전 , 출판사는 마음 상하고

MD 는 민망해질 뿐만 아니라 ,

판매 후 , 영업기회 상실에 따라

기회비용이 증가됨

[Case Ⅱ]

5 / 16

MD 의 요구사항 구체화하기

Y 서점MD

국내문학 신간 서적의 판매량을 가능한

정확하게 예측하고 싶습니다 .

KPDCH 구체적인 판매량을 알고 싶으신가요 ?

아니면 예상 등급 정도면 될까요 ?

Y 서점MD

구체적인 수량으로 알려주시면 제가 예상

등급을 만들어 사용할 수 있을 것 같아요 .

KPDCH

그렇다면 , 회귀분석을 이용해서 판매량을

예측하는 모델을 만들어 드리겠습니다.

6 / 16

Data 를 확보하라 ! ( 브레인스토밍 )

Y 사로부터

정형 데이터

확보

인터넷에서

베스트셀러

정보 크롤링

통계청에서

제공하는

데이터 활용

저자 정보 출판사 정보 신간 서적 정보 서적 일별 판매량 파생변수 생성 등

네이버 책 (Book)

사이트에서 대형

온라인 서점 6개사

베스트셀러 정보를

주 단위로 공개

가구당 소득 /지출

→ 가처분소득 도서 판매액 소비심리지수 실업률 등

7 / 16

데이터마트의 구축① 온라인 서점 Y 사로부터 받은 정형데이터로 다양한 파생변수 생성

ISBN(13) 도서명 출간일자 작가번호 출판사코드 정가 분야번호

9788994… 별을 사랑 20130615 1556 100634 6,000 001006

9788997… 이어령의 20130506 1703 107513 45,000 001006

9788954… 그 여자의 20130114 51032 6 11,000 001006

9788932… 견딜 수 20130115 51036 79 8,000 001006

: : : : : : :

ISBN(13) 날짜 판매량

9788994… 20130615 1

9788994… 20130616 3

9788994… 20130617 2

9788994… 20130618 2

: : :

작가번호 출판 종수 누적판매량

1556 2 4,301

1703 45 20,054

51032 13 2,435

51036 7 521

: : :

출판사코드 출판 종수 누적판매량

100634 302 10,296

107513 1745 242,154

6 25 7,568

79 61 14,325

: : :

전체 출판 종수 : 20 만여 권

일 판매량 : 100 만여 건

작가 수 : 7 만여 명

출판사 수 : 2 만여 개

8 / 16

데이터마트의 구축② 네이버 책 사이트에서 6대 온라인 서점의 베스트셀러 정보 크롤링

온라인 서점명

장르명

날짜 정보 ( 년 / 월 / 주차 )

베스트셀러 순위 (1~100 위)

도서명

저자명

출판사명

ISBN(13)

9 / 16

종속변수의 정의 2013 년 국내문학 신간 도서 866 권의 출간 이후 14 일간 판매량 합계

0 권 : 253 종

100 권 이하 : 497종

200 권 이하 : 46종

200 권 초과 : 70종최소 : 0 권

최대 : 3,643 권

평균 : 85 권

정규분포가 아닌포아송분포 형태

Y에 log

10 / 16

회귀모형에 사용할 독립변수의 선택 준비된 독립변수는 총 42 개 . 이 중 종속변수와의 유의확률이 0.05 이하인 변수만 회귀모형에 적용

독립변수

판매지수 (경영 )

판매지수 (인문 )

판매지수 (자 /계 )

판매지수 (문학 )

저자지수 (1w)

저자지수 (2w)

출판사지수 (3w)

출판사지수 (4w)

:

독립변수

저자 출판종수

저자 총판매량

저자 평균판매량

출판사 출판종수

출판사 총판매량

출판사 평균판매량

가격 (정가 )

최근 12M 판매량

:

상관계수 P-value

0.165 9.5e-07

0.433 2.2e-16

0.408 2.2e-16

0.080 0.019

0.148 1.2e-05

0.263 3.1e-15

-0.021 0.536

0.280 2.2e-16

: :


-0.027 0.436

-0.018 0.587

0.038 0.268

0.004 0.905

0.625 4.0e-09

0.794 2.3e-14

0.277 2.2e-16

0.240 7.6e-13

: :

독립변수

가구 총소득 (Q)

가구 총소비 (Q)

도서 소비 (Q)

소비심리지수 (M)

경기예상지수 (M)

도소매 판매액 (M)

온라인 판매액 (M)

실업률 (M)

:


-0.037 0.270

-0.034 0.452

-0.012 0.725

-0.014 0.680

0.004 0.898

-0.012 0.732

-0.032 0.342

-0.015 0.664

: :

Y 사 데이터 베스트셀러 데이터 통계청 데이터

사용 가능 독립변수의 개수

42 개 → 24 개

11 / 16

다양한 선형 회귀모형 생성 ① 다중회귀분석 (stepwise 방식 )

# linear model

> reg <- D14_SALE ~ .

> lm.tr <- step(lm(reg, data=bookdb.tr),

direction=“backward”))

> summary(lm.tr)

② 일반화 선형모형 (GLM)

# GLM, poisson regression

> glm.pos <- glm(reg, data=bookdb.tr,

family=poisson(link=log)))

> summary(glm.pos)

# GLM, Negative Binomial regression

> glm.nbr <- glm.nb(reg, data=

bookdb.tr, method=“glm.fit”, link=log))

> summary(glm.nbr)

12 / 16

다중회귀분석 과정

- 전체 데이터를 Training data(80%) 와 Test data (20%) 로 임의로 나눈 후 ,

- Training data 로 stepwise 방식의 회귀식 생성

- VIF 10 이상인 변수 제거 (다중공선성 해결 )

- Cook’s Distance 가 2 이상인 값 제거 (Outlier)

회귀모형 간 적합도 비교 MAPE( 평균절대백분율오차 ) 사용

# Mean Absolute Percentage Error

실제값 대비 실제값과 예측값 편차 비율의

평균 . 0 에 가까울수록 모델 적합도 좋음

# 모형 평가 지표

Max Error, 오분류율 , Min/Max Error,

sMAPE, MAE, RSS 등이 있음

선형모델 MAPE

1. Linear Model 0.4517

2. GLM Poisson 0.4635

3. GLM Negative Binomial 0.7605

선형모델간 적합도 비교 (w/ MAPE)

회귀분석에는 수많은 형태가 있지만 ,

사용자가 쉽게 이해할 수 있고 ,

적용이 편리한 모델을 사용하는 것이 좋음

13 / 16

회귀 방정식의 완성 및 해석

우리는 이 회귀방정식으로부터 ,

저자의 기존 서적들이 베스트셀러에 등록 될수록 신간 서적이 더 많이 팔리며 ,

출판사보다 저자의 영향력이 더 크며 ,

특히 , 신간 서적의 출판일 3 주 전에 저자가 베스트셀러로 등록된 경우 , 신간 판매량에 가장 큰 영향을 미치게 됨을 알 수 있다 .

변수 계수 (β) 표준화

Y 절편 14.7 -

저자 총 판매량 0.0004 0.063

저자 최근 3개월 간 판매량

-0.02 -0.083

저자 베스트셀러 지수 (1w) -47.2 -0.198

저자 베스트셀러 지수 (2w) 90.2 0.321

저자 베스트셀러 지수 (3w) 215.7 0.802

저자 베스트셀러 지수 (4w) -30.3 -0.094

출판사 베스트셀러 지수(4w)

7.84 0.071

종속변수에 영향을 크게 주는 변수의 순서

① 저자 베스트셀러 지수 _3w

② 저자 베스트셀러 지수 _2w

③ 저자 베스트셀러 지수 _1w

14 / 16

KPDCH 의 솔루션 , 이렇게 활용해보세요 .

신간 서적의 ‘출간 후 14 일 간 판매량 추정’ → 상위 30% 대상 프로모션 진행

1,000 권 이상

100 권 이상

10 권 이상

1 권 이상

예측값(누적 )

1,000권이상

100 권이상

10권이상

1권이상

1권미만

누적 종수

6종 20종 162 종 169 종 177 종

100 권점유비

66.7% 50.0% 9.9% 10.1% 10.2%

□ Test Data 로 회귀방정식 검증한 결과

[ROC curve & Lift chart]

Optimalpoint

* 판매량 1, 2 위 서적의 순위를 정확하게 맞힘

(권 )

15 / 16

프로젝트를 마무리하며 …

통찰력

(Insight)

KPDCH

사람들이 언제 , 왜

책을 사는지 이유를

알아야 했습니다 .

부족한 인사이트는

브레인스토밍과

구글링으로 채웠고 ,

서점의 데이터와

웹 크롤링 결과로

파생변수를 만들어

여러 가지 회귀분석

기법으로 예측모델을

만들었습니다 .

처음 배우는 ‘ R’ 은

많은 시간과 노력을

요구했습니다만 ,

그간의 과정을

이렇게 공유하게

되어 기쁩니다 .상상력

(Imagina-tion)

정보력

(Know-

where)문제해결력

(Know-

How)

열정

(Passion)

의사소통

(Communi-cation)

빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)

Data & Analytics

Transcript of 빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)