[4차]넷플릭스 알고리즘 분석(151106)

31
넷플릭스의 알고리즘 김범수 김요섭 최민철 함주현 디렉터: 최한울

Transcript of [4차]넷플릭스 알고리즘 분석(151106)

Page 1: [4차]넷플릭스 알고리즘 분석(151106)

넷플릭스의 알고리즘김범수김요섭최민철함주현

디렉터: 최한울

Page 2: [4차]넷플릭스 알고리즘 분석(151106)

목차

1 2 3 4 5

Page 3: [4차]넷플릭스 알고리즘 분석(151106)

넷플릭스 소개1

▶온라인 VOD 스트리밍 서비스

▶OTT(Over the Top)플랫폼 선두주자

▶ 60개국 7천만 명의 회원 보유

▶저렴한 사용료 (월 7.99~11.99달러)

▶편리한 유저 인터페이스

“고객이 원하는 콘텐츠를

원하는 시간에

원하는 다양한 기기로 서비스한다”

▶활용 플랫폼의 다양성

(다양한 운영체제 및 디바이스 지원)

▶과감한 콘텐츠 제작

▶선진 기업 문화

▶우수한 자체 알고리즘

Page 4: [4차]넷플릭스 알고리즘 분석(151106)

방송 산업의 패러다임 변화

“TV 방송 시대는 2030년까지만 지속될 것이다.”

넷플릭스 창업자 리드 헤이스팅스

코드커터(Cord Cutter)지상파, 케이블,

위성 방식의기존 TV방송

인터넷 기반영상 콘텐츠제공 서비스

1 넷플릭스 소개

Page 5: [4차]넷플릭스 알고리즘 분석(151106)

넷플릭스 소개1

"넷플릭스의성공비결은 '기술혁신'에있다”

조나단프리드랜드넷플릭스총괄

알고리즘

콘텐츠추천

콘텐츠제작

Page 6: [4차]넷플릭스 알고리즘 분석(151106)

시네 매치 알고리즘(Cine-match algorithm)2

Bayesian Classifier

Associationanalysis

Neural Network

Cine-match Algorithm

Page 7: [4차]넷플릭스 알고리즘 분석(151106)

베이지안 통계 기법2-1

Bayesian Classifier

Associationanalysis

Neural Network

Page 8: [4차]넷플릭스 알고리즘 분석(151106)

베이지안 통계 기법2-1

Bayesian Classifier

Associationanalysis

Neural Network

왜 사용하는가?

Q. 표본 1,000만 명을 대상으로 조사

P(베테랑) = 0.486 = 486만/1,000만 (명)

P(미안해 사랑해 고마워) = 0.011 = 11만/1,000만

그렇다면, ‘베테랑’을 예매한 사람이 ‘미안해 사랑해 고마워'를

예매할 확률은? 즉, P(미안해 사랑해 고마워 | 베테랑)=?

*영화진흥위원회 영화 입장권 통합 전산망

Page 9: [4차]넷플릭스 알고리즘 분석(151106)

베이지안 통계 기법2-1

Bayesian Classifier

Associationanalysis

Neural Network

왜 사용하는가?

P(미안해 사랑해 고마워 | 베테랑)를 알기 위해선,

베테랑을 본 486만 명의 표본 관객을 일일이 조사해서,

이들에게 ‘미안해 사랑해 고마워'시청 여부를 물어보아야 한다.

* 예시와 달리 현실에선 다루는 영화의 개수가 매우 많으므로

교집합의 확률을 이용하기는 불가능에 가깝다.

*영화진흥위원회 영화 입장권 통합 전산망

Page 10: [4차]넷플릭스 알고리즘 분석(151106)

베이지안 통계 기법2-1

Bayesian Classifier

Associationanalysis

Neural Network

왜 사용하는가?

이 때, 베이지안 통계 기법을 사용한다. 먼저, 486만보다 훨씬

작은 표본인 11만의 ‘미안해 사랑해 고마워'의 관객만을 조사,

이들 중 ‘베테랑’을 시청한 비율을 구한다.

P(베테랑 | 미안해 사랑해 고마워) = 0.72

*영화진흥위원회 영화 입장권 통합 전산망

Page 11: [4차]넷플릭스 알고리즘 분석(151106)

베이지안 통계 기법2-1

Bayesian Classifier

Associationanalysis

Neural Network

왜 사용하는가?

P(미안해 사랑해 고마워 | 베테랑) =

P(베테랑 | 미안해 사랑해 고마워)*P(미안해 사랑해 고마워)/P(베테랑) =

0.72*0.011/0.486 = 0.0163

베테랑 관객 486만 명 중 7.92만 명이 ‘미안해 사랑해 고마워’를 시청.

*영화진흥위원회 영화 입장권 통합 전산망

Page 12: [4차]넷플릭스 알고리즘 분석(151106)

연관 분석 기법2-2

Bayesian Classifier

Associationanalysis

Neural Network

동시 발생 상관관계(Co-occurance)

간단하게 말해서, 장바구니에 무엇을 같이 담는가?

Page 13: [4차]넷플릭스 알고리즘 분석(151106)

연관 분석 기법2-2

Bayesian Classifier

Associationanalysis

Neural Network

문제?

support = 같이 팔렸다는 사실만 전달

2005년 CRM분석 시, 맥주와 기저귀의 support = 0.588

당시의 threshold = 0.3

맥주와 기저귀는 상관이 있다?

*2005 NuriMedia Co., Ltd

Page 14: [4차]넷플릭스 알고리즘 분석(151106)

연관 분석 기법2-2

Bayesian Classifier

Associationanalysis

Neural Network

무엇이 문제였나?

그러나 당시 맥주의 판매율 79.8%, 기저귀의 판매율 68.2%

맥주와 기저귀가 독립이더라도 P(맥주⌒기저귀) = 54.4236%

즉, ‘베테랑’, ‘어벤져스‘, ‘명량’ 등 시청 비율이 매우 높은 영화에

대해서는 비록 상관관계가 없더라도 매우 높은 support 발생.

*2005 NuriMedia Co., Ltd

Page 15: [4차]넷플릭스 알고리즘 분석(151106)

연관 분석 기법2-2

Bayesian Classifier

Associationanalysis

Neural Network

해결방법

상관계수를 지표로 사용

*넷플릭스, 영화 추천의 비밀과 상관계수 http://analyticsstory.com/99

Page 16: [4차]넷플릭스 알고리즘 분석(151106)

신경망 학습(역전파 알고리즘)2-3

Bayesian Classifier

Associationanalysis

Neural Network

신경망 학습?

기계 학습의 한 방법.

소비자의 선호 분야(SF, 로맨스, 액션 등)을 포함하여 다양한

Attribute에 대한 가중치를 결정하는 방법.

넷플릭스는 이를 통해 평점에 대한 가중치 예측

*http://www.shalomeir.com/2014/11/netflix-prize-1/

Page 17: [4차]넷플릭스 알고리즘 분석(151106)

신경망 학습(역전파 알고리즘)2-3

Bayesian Classifier

Associationanalysis

Neural Network

Page 18: [4차]넷플릭스 알고리즘 분석(151106)

신경망 학습(역전파 알고리즘)2-3

Bayesian Classifier

Associationanalysis

Neural Network

Page 19: [4차]넷플릭스 알고리즘 분석(151106)

신경망 학습(역전파 알고리즘)2-3

Bayesian Classifier

Associationanalysis

Neural Network

threshold-1

예시 : Single node perceptron

RATING

USER MOVIE

? ?

Page 20: [4차]넷플릭스 알고리즘 분석(151106)

신경망 학습(역전파 알고리즘)2-3

Bayesian Classifier

Associationanalysis

Neural Network

*http://www.shalomeir.com/2014/11/netflix-prize-1/

RMSE 방식

예측한 평점과 실제 평점의 차분 값을 최소화

Top n precision, NDCG 방식

평점이 높을수록 높은 가중치를 부과하여

높은 평점의 영화를 조금 더 정확하게 예측

Page 21: [4차]넷플릭스 알고리즘 분석(151106)

신경망 학습(역전파 알고리즘)2-3

Bayesian Classifier

Associationanalysis

Neural Network

*http://www.shalomeir.com/2014/11/netflix-prize-1/

{USER, MOVIE, RATING} → {USER, MOVIE, ?}

Page 22: [4차]넷플릭스 알고리즘 분석(151106)

넷플릭스 VS 아마존3

Page 23: [4차]넷플릭스 알고리즘 분석(151106)

3 넷플릭스 VS 아마존 - 자체 콘텐츠 부문

OTT사업자 자체 콘텐츠 비중

70% - Netflix

Page 24: [4차]넷플릭스 알고리즘 분석(151106)

3 넷플릭스 VS 아마존 - 자체 콘텐츠 부문

시장분석 데이터로 만들어진 드라마, 하우스 오브 카드

역대 미국 드라마 제작비 Top5, 마르코 폴로

Page 25: [4차]넷플릭스 알고리즘 분석(151106)

3 넷플릭스 VS 아마존 - 자체 콘텐츠 부문 - 참고용

Page 26: [4차]넷플릭스 알고리즘 분석(151106)

3 넷플릭스 VS 아마존 - UI 부문

Netflix : 더 많은 카테고리 & 직관적이고 쉬운 검색

Netflix Amazon Prime Instant Video

Page 27: [4차]넷플릭스 알고리즘 분석(151106)

3 넷플릭스 VS 아마존 - 온라인 비디오 앱 접근성

Netflix : 아마존보다 넓은 범위의 디바이스 지원

Page 28: [4차]넷플릭스 알고리즘 분석(151106)

넷플릭스의 사용자수

넷플릭스의 시장에서의 성공4넷플리스의 매출 및 이윤 증가 추세

Netflix 매출 1999-2013 ($100만원 기준)

Netflix 이윤 1999-2013 ($100만원 기준)Netflix 사용자 2011-2013

넷플릭스의 성공 요인

- CINEMATCH 알고리즘을 통한 데이터마이닝

오프라인의 물류 창고 크기 줄어듬 -> 비용 절감

소비자의 Loyalty

끊임없는 혁신

Page 29: [4차]넷플릭스 알고리즘 분석(151106)

넷플릭스와 블록버스터사의 경쟁

넷플릭스의 시장에서의 성공- DVD 렌탈 시장4

넷플릭스와 블록버스터사의 매출 비교

1997년-2004년

• 무작정 뛰어들다

2004년-2005년

• 넷플릭스의 첫 승리

2006년-2010년

• 블록버스터의 역습, 그

러나 다시 찾아온 승리

Page 30: [4차]넷플릭스 알고리즘 분석(151106)

미국 시장에서 넷플릭스의 시장 점유율 비교

넷플릭스의 시장에서의 성공- 스트리밍 시장4

0 10 20 30 40

시장 점유율HULU PLUS

AMAZON

NETFLIX

<2014년>

넷플릭스의 시장 점유율 : 57% 아마존의 시장 점유율: 3%

-> 아마존의 빠른 성장세

<2015년 기준>

Page 31: [4차]넷플릭스 알고리즘 분석(151106)

Thank you.

Questions?