[분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

29
Webtoon 가능성 예측을 위한 통계적 모델링 OSMU

Transcript of [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

Page 1: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

Webtoon의가능성 예측을 위한 통계적 모델링

OSMU

Page 2: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
Page 3: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
Page 4: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

01OSMU�:�One�Source�Multi�Use

Page 5: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

장난감

게임

팬시용품

이모티콘

잡화

01웹툰의 무한확장 : OSMU

OSMU

영화

도서

드라마

Page 6: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

장난감

게임

팬시용품

이모티콘

잡화

01웹툰의 무한확장 : OSMU

OSMU

영화

도서

드라마

Page 7: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

국내 웹툰시장 규모 추이 - KT 경제경영연구소

전체 웹툰 시장에서OSMU 시장이 차지하는비율이 빠른 속도로 증가

01웹툰 OSMU�시장 규모 증가

Page 8: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

OSMU 가능성 예측

통계적으로 모델링 해보자!

01주제선정 : 웹툰의 OSMU�가능성 예측

Page 9: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
Page 10: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

02데이터 수집 : 웹 크롤링

Page 11: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

웹툰 제목

사이트명

작가명

장르

완결 여부

OSMU 여부

댓글 참여수

추천수

평점

작가영향력

연재기간

‘화’ 수

조회수

이용자 정보

연재 요일(완)

크롤링 시점이후 변화

현재OSMU 진행 중인

웹툰정보

수집 완료 항목 수집 불가 항목

02최종 수집 데이터 항목

최종 크롤링 시점 : 2016.12.20

웹툰이미지

컬러, 감성

모델링 변수

추가적인전처리 필요

Page 12: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

02이미지 전처리 : RGB 값 추출전처리 1단계 ㅇ웹툰 이미지 1컷 기준으로 상위 출현컬러 6색의 RGB값 추출, 3화까지 모든 웹툰 컷별로 수행

* 각 웹툰별로 1컷 기준으로 3화까지 컬러 추출 실행 (1화당 보통 3~10컷으로 구성)

* 웹툰별로 (9컷 ~ 30컷) x 6색의, 총 54~180개의 RGB 값 확보

* K-means clustering 을 사용하여 이미지에서 많이 사용된 컬러 k개를 반환해주는 (python의 color_thief 모듈)

Page 13: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

02이미지 전처리 : 대표색으로의 분류전처리 2단계 1단계에서 확보한 RGB값 색상을 KS 기본색 15색과 거리계산을 통해 기본색 이름 부여

KS�기본 15색(유채색12+무채색3)

‘거리계산’

* python의 color_math 모듈에 내장되어 있는 delta cie 2000 equation 을 사용하여 컬러값들의 거리계산

* 1단계에서 확보한 RGB값과 KS 기본 15색과의 거리 계산을 통해 거리가 가장 가까운 색으로 기본색 이름 부여

Page 14: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

02이미지 전처리 : 감성어휘 매칭전처리 3단계

‘거리계산’

* 1단계에서 확보한 RGB값과 40개의 감성어휘에 부여된 색상들과의 거리 계산을 통해거리가 가장 가까운 색에 해당하는 감성어로 감성어휘 부여

1단계에서 확보한 RGB값 색상을 감성어휘(40개)와 거리계산을 통해 색상에 감성어휘 부여

Page 15: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

02이미지 전처리 결과

전처리 2단계

전처리 3단계

전처리 결과

전처리 결과 1~3단계 전처리 결과를 바탕으로 웹툰별 출현빈도 상위 10개 색에 대해 기본색, 감성어휘 확보

노랑 하양

수수한

+

Page 16: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
Page 17: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

제목 사이트 작가 완결여부 연재일수

색채1 색채2 색채3 감성1 감성2 감성3 무채색

총화 장르 평점 댓글참여수 추천수 작가영향력

에피소드 옴니버스 스토리 일상 코믹

판타지 액션 드라마 순정 감성

스릴러 시대극 스포츠

네이버/다음 0:미완 1:완결

03모델링에 사용할 변수 선정

작가가 현재까지연재했던 웹툰수

Page 18: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

마지막 업데이트 날짜 : 2016.12.20

03모델링에 사용된 최종 변수

Page 19: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

03모델링 전체 Process

모델의 Overfitting을 방지하기 위해5-folds cross-validation을 통해 모델링

모델링

Page 20: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

Specificity

Accuracy

AUC

03최종 모델 선정Ridge

RegressionLASSO

RegressionGeneralized

Boosted ModelRandomForest

0.6931

0.5390

0.7553

0.7146

0.6471

0.6999

0.5455

0.7553

0.7159

0.6504

0.7308

0.6429

0.7327

0.7159

0.6878

0.7394

0.6792

0.7273

0.7159

0.7033BalancedAccuracy

Sensitivity

Page 21: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

Specificity

Accuracy

AUC

03최종 모델 선정Ridge

RegressionLASSO

RegressionGeneralized

Boosted ModelRandomForest

0.6931

0.5390

0.7553

0.7146

0.6471

0.6999

0.5455

0.7553

0.7159

0.6504

0.7308

0.6429

0.7327

0.7159

0.6878

0.7394

0.6792

0.7273

0.7159

0.7033

: 모델이 실제 OSMU가 된 웹툰을 올바르게 예측할 비율

: 모델의 웹툰 OSMU 여부(O/X) 예측 정확도에 대한 보정값BalancedAccuracy

Sensitivity

Page 22: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

Sensitivity

Specificity

Accuracy

BalancedAccuracy

AUC

03최종 모델 선정Ridge

RegressionLASSO

RegressionRandomForest

GeneralizedBoosted Model

GeneralizedBoosted Model

Page 23: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

Sensitivity

Specificity

Accuracy

BalancedAccuracy

AUC

03최종 모델 선정Ridge

RegressionLASSO

RegressionRandomForest

GeneralizedBoosted Model

Page 24: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링
Page 25: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

04최종 모델링 결과 : Boosted�Model

BOOSTED�METHOD(부스팅)

변수 영향력

Input Output

타당성 평가

Black�Box

변수 선택

모형 적합

Variable�1

Variable�3

Variable�2

Variable�4

Linear�Model

변수 중요도

Ensemble�Method

Input Output

Page 26: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

04최종 모델링 결과 : Boosted�Model

BOOSTED�METHOD(부스팅)

변수 영향력

Input Output

타당성 평가

Black�Box

변수 선택

모형 적합

Variable�1

Variable�3

Variable�2

Variable�4

Linear�Model

변수 중요도

Ensemble�Method

Input Output

Page 27: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

모델의 OSMU 예측 결과

04최종 예측 결과 : 미완결 웹툰의 OSMU�예측

현재OSMU (O)

현재OSMU (X)

예측 (O) 13개 7개

예측 (X) 4개 0개

현재OSMU (O)

현재OSMU (X)

예측 (O) 6개 18개

예측 (X) 0개 0개

Page 28: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링

04향후 모델 활용 가능성

Page 29: [분석]웹툰의 OSMU 가능성 예측을 위한 통계적 모델링