분석8기 4조

47
-1- -1- 자라섬 재즈 페스티벌 관람객 분석 및 예측 한경훈, 류경숙, 전영준, 송창열, 신정호, 안진훈 분석 제 8기 4조 팀원

Transcript of 분석8기 4조

-1- -1-

자라섬 재즈 페스티벌 관람객 분석 및 예측

한경훈, 류경숙, 전영준, 송창열, 신정호, 안진훈

분석 제 8기 4조 팀원

-2-

Ⅰ. 개요

1. 주제 선정 배경 및 목적

2. 자라섬 재즈 페스티벌 소개

3. 프로젝트 수행 일정

Ⅱ. 유사 프로젝트 분석 및 고찰

1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개

2. 자라섬 재즈 페스티벌에 대한 분석 및 결론

Ⅲ. 데이터 수집

1. 데이터 확보 노력 및 한계

2. 데이터 Mash-up

Ⅳ. 데이터 분석

1. 데이터 출처

2. 데이터 분석 설계

3. 1차 분석

4. 2차 분석

5. 2015년 자라섬 페스티벌 예측

6. 주최자 입장에서의 대응전략

Ⅴ. 결론

1. 지역 축제 분석의 가치 및 기대효과

2. 빅 데이터 분석 전문가과정을 마치며 …

INDEX

-3-

INDEX

Ⅰ. 개요

1. 주제 선정 배경 및 목적

2. 자라섬 재즈 페스티벌 소개

3. 프로젝트 수행 일정

-4-

1. 주제 선정 배경 및 목적

공유 데이터를 통해 다양한 빅 데이터 분석 및 기술 활용을 통해 다양한 관점의 전략적 방향 제시

빅 데이터 분석을 통해 성공/실패 요인 도출

다양한 지역 행사에 적용 가능한 예측 모델 생성

지역 축제 분석의 가치 및 주최자의 전략적 방향 제시

• 데이터 수집 정제 분석하기까지 각 단계별로 발생되는 성공 및 실패 요인 도출 및 공유

• 초기 단계인 빅 데이터 분석 분야의 실패 요인 분석을 통한 성공 가능성 제시 및 방향 제안

• 지자체를 중심으로 무계획적으로 행해지는 다양한 지역 행사의 문제점 보완을 위해 행사 진행 전에 계획 수립에 기반이 될 예측 모델을 생성하고 지방 발전에 도움이 되고자 함

• 경제적으로 얼마나 지역 축제가 가치가 있는가를 다양한 변수 발견 및 분석을 통해 제시하고자 함

• 지역 축제 주최자의 전략적, 전술적 방향을 제시하고자 함

예측 모델 및 방법 설명을 통해

자라섬 재즈 페스티벌에서 주요 요인 별 상관관계 및 효과 정량화

-5-

2. 자라섬 재즈 페스티벌 소개 ( 1 )

자라섬 국제 재즈 페스티벌은 매년 가을 경기도 가평군 가평읍 달전리 자라섬에서 열리는 대한민국의 국제 재즈 페스티벌이다.

재즈의 대중화를 표방하여 세계 최정상급의 아티스트부터 국내에 소개된 적 없는 제3세계 아티스트, 실력 있는 로컬 밴드에 이르기까지 재즈로

묶이는 모든 장르를 소화한다. 해마다 10개 남짓의 무대에 100팀에 가까운 공연이 열리지만 유료 무대는 단 2개뿐이고 무료로 개방하는 무대가

대부분이다.

2004 2005 2006 2007 2008 2009

2010 2011 2012 2013 2014

-6-

2. 자라섬 재즈 페스티벌 소개 ( 2 )

2013년 기준으로 누적 관객수 100만 명을 넘어선 한국을 대표하는 음악 축제 중 하나가 되었다. 2009년, 2010년 문화체육관광부 지정

유망축제로 지정 된데 이어, 2011~2013년에는 대한민국 우수 축제로 지정되었으며 2014년에는 음악 축제 최초로 최우수 축제로 지정되는 등

명성이 점차 커지고 있다.

30,000

70,000

100,000 100,000

130,000

150,000

170,000

190,000

230,000

[값]

250,000

-

50,000

100,000

150,000

200,000

250,000

300,000

2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

(관람객 수)

(개최 년도)

자라섬 재즈 페스티벌 년간 방문자 수

* 연평균 28% 성장률

* 출처 : Wikipedia

-7-

2. 자라섬 재즈 페스티벌 소개 ( 3 )

유튜브 채널 공식 페이스북 공식 홈페이지

SNS, 홈페이지, 기업과의 협력을 통해 페스티벌 홍보 및 상생 발전 모델 구축

언론

활용

SNS. 홈페이지 등 활용

기업

협력

-8-

[참고] 자라섬 재즈 페스티벌과 협력 기업

자라섬 재즈 페스티벌과 협력 기업과의 분석을 통한 경제적으로 미치는 효과를 분석을 위해 자료를 수집하였으나 매출액 자료를 구할 수 없어 분석 중단됨. 그러나 기업과의 협력을 통해 축제가 발전할 수 있는 요인이 됨을 인터넷 기사를 통해 예측 가능함.

-9-

3. 프로젝트 수행 일정

Pre - STEP (9월 4주) STEP 1 (10월 2주) STEP 2 (10월 4주) STEP 3 (11월 2주)

데이터

탐색/변환

분석 기법 선정

모형 정의

결과도출

검증

결과

발표

주제 변경(빅 콘테스트 주제 이슈)

관련 사례 공유/학습

자료 대상 선정 및 취합

(ex. 뮤지션 정보, 트렌드, 날씨 등)

데이터프레임 구축

상관관계 분석

추가 파생변수 적용

분석 모델 수립

분석결과

검증 및 수정

발표자료 작성

나들 가게에서 자라섬으로 주제 변경

PT 발표

9월3주 11/14

진행 완료

-10-

INDEX

Ⅱ. 유사 프로젝트 분석 및 고찰

1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개

(한국관광공사: 빅 데이터 활용 관광사업 성과 시범분석: 2013 문화관광축제를 중심으로)

2. 자라섬 재즈 페스티벌에 대한 분석 및 결론

-11-

분석 배경 및 목적

1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 ( 1 )

-12-

분석 방법론

데이터 보정 방법 및 분석 방법의 한계

1. 빅 데이터 활용 관광 사업 성과 시범 분석 소개 ( 2 )

-13-

2. 자라섬 재즈 페스티벌에 대한 분석 및 결론

분석 요약 분석 결과 예시

시간/연령/성별 유동인구 및 매출에 대한 현황 위주의 분석 결과

요인 분석 및 상관 분석을 통한 깊이 있는 분석 필요

-14- -14-

-15-

INDEX

Ⅲ. 데이터 수집

1. 데이터 확보 노력 및 한계

2. 데이터 Mash-up

-16-

자라섬 페스티벌의 성공 요인과 분석을 위한 데이터 노력 확보에도 불구하고 한계가 존재함.

데이터 확보 노력과 한계 ‘정부 3.0’ 의 현실

1. 데이터 확보 노력 및 한계

“정부 3.0” 의 기조인 개발, 공유, 소통, 협력이 아직까지 원활치 않은 상황임

8기 4조

KoDB

자라섬 Jazz

사무국

X

X

필요 data 선별

진흥원 공문 협조 요청

협조 지연 data 미확보

자라섬 재즈 페스티벌 관련 데이터가 가장 많은 사무국의 비협조로 데이터 확보 어려움 겪음

-17-

가용한 데이터는 무한 하지만 산재된 데이터 수집에 많은 시간과 노력이 필요함.

2. 데이터 Mash-up

교통량정보시스템

(road.or.kr)

-18- -18-

-19-

INDEX

Ⅳ. 데이터 분석

1. 데이터 출처

2. 데이터 분석 설계

3. 1차 분석

- 기초 변수 정의

- 군집 분석

- Decision Tree 분석

- Random Forest 분석

4. 2차 분석

- 파생 변수 정의

- Random Forest 분석

- 시각화

5. 2015년 자라섬 페스티벌 예측

6. 주최자 입장에서의 대응전략

-20-

1. 데이터 출처

이 번 프로젝트를 위한 데이터는 자라섬 재즈 페스티벌 홈페이지 및 정보 유형에 따라

구글/네이버 트렌드, 통계청, 기상청 등에서 수집

데이터 수집

위키피디아 구글 트렌드

유튜브

기상청 통계청

카인즈 언론기사 검색 구글 트렌드 네이버 트렌드

자라섬 재즈 페스티벌 홈페이지

-21-

[참고] PC에서 Mobile로 검색 트렌드가 이동하는 양상을 보임

PC 검색 트렌드 변화 Mobile 검색 트렌드 변화

• 검색횟수를 주간으로 합산해서 조회 기간 내 검색량을 100으로 나타낸 그래프임.

“ 검색어 : 자라섬 재즈 “

(2010년 6월 ~ 현재)

-22-

[참고] 수집한 세부 내용 ( 1 )

데이터 카테고리 변수 명 변수 설명 출처

자라섬 재즈페스티벌 관련 일반 정보

Visit 총 방문객

자라섬 재즈 페스티벌 홈페이지

Wave 행사 회차 (1차~11차)

Year 행사 진행 연도

duration_days 행사 진행 일 수

visit_per_day 1일당 방문객 수

초청 뮤지션 정보

(글로벌 관심도 Top3 뮤지션 기준)

avg_GT_artistT3 뮤지션 관심도 구글 트렌드

avg_atst_utube_view 뮤지션 동영상 조회 수 YOUTUBE

avg_atst_experience 뮤지션 활동 경력 Wikipedia

max_youtube_index 뮤지션 동영상 최대 조회 수 YOUTUBE

atst_like_reg_na 초청 뮤지션 선호 국가 (북미)

구글 트렌드 atst_like_reg_eu 초청 뮤지션 선호 국가 (유럽)

atst_like_reg_ot 초청 뮤지션 선호 국가 (기타)

-23-

[참고] 수집한 세부 내용 ( 2 )

데이터 카테고리 변수 명 변수 설명 출처

자라섬 재즈페스티벌 관련 트렌드

GT_Jazz

재즈에 대한 관심도

구글 트렌드 CumGT_Jazz

NTpc_Jazz

네이버 트렌드 NTmb_Jazz

CumNTmb_Jazz

gt_gapyoung 가평에 대한 관심도

구글 트렌드 gt_jarasum 자라섬에 대한 관심도

gt_chunchun 춘천에 대한 관심도

-24-

[참고] 수집한 세부 내용 ( 3 )

데이터 카테고리 변수 명 변수 설명 출처

날씨

av_temp 평균 기온

기상청

max_temp 최고 기온

min_temp 최저 기온

Is_rainy 강우 여부

rainfall 강우량

day_tempran_av 평균 일교차

day_tempran_mx 최대 일교차

교통

train 경춘선 복선 전철 개통 여부

카인즈 언론기사 검색

highway 경춘 민자 고속도로 개통 여부

경제

national_Wine_import 연도별 와인 수입량

통계청 GDP 국내총생산

GDP_growth 전년대비 국내 총생산 증가율

-25-

2. 데이터 분석 설계

회 차별 관람객 수는 종속 변수, 관람객 증가에 영향을 미칠 수 있는 요인은 독립 변수로 정의

자라섬 재즈 페스티벌 관람객 증가의

주요한 원인을 파악 및

향후 페스티벌의 효율적 운영을 위한

인사이트 제공을 목적으로 함

독립 변수

• 평균 기온 / 최고 기온 / 최저 기온 • 강우 여부 / 강우량 • 평균 일교차 / 최대 일교차

• 총 방문객 행사 회 차 (1차~11차) • 행사 진행 연도 행사 진행 일 수 • 1일당 방문객 수

• 뮤지션 관심도 • 뮤지션 동영상 조회 수 • 뮤지션 활동 경력 • 뮤지션 선호 국가 (북미/유럽/기타)

• 재즈에 대한 관심도 • 가평에 대한 관심도 • 자라섬에 대한 관심도 • 춘천에 대한 관심도

• 경춘선 복선 전철 개통 여부 • 경춘 민자 고속도로 개통 여부

• 연도별 와인 수입량 • 국내총생산 전년대비 • 국내 총생산 증가율

변수 군

경제

교통

날씨

자라섬 재즈 페스티벌

관련 트렌드

초청 뮤지션 정보

자라섬 재즈 페스티벌

일반 정보 종속 변수

회 차별 방문객 (관람 인원)

-26-

[참고] 실제 분석에 사용된 Data Set

Visit 30000 70000 100000 100000 130000 150000 170000 190000 230000 270000 250000

Wave 1 2 3 4 5 6 7 8 9 10 11

Year 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014

duration_days 3 3 4 5 3 3 3 3 3 4 3

visit_per_day 10000 23333 25000 20000 43333 50000 56667 63333 76667 67500 83333

avg_GT_artistT3 3 6 4 4 2 1 3 3 9 3 3

avg_atst_utube_view 4398957 12661307 10497992 5612566 3654285 2446790 7856284 3030812 6085740 2161922 2413752

avg_atst_experience 33.666667 29 50.333333 32 38.3333333

3 50.6666666

7 26.6666666

7 32

65.33333333

29.33333333

32.33333333

max_youtube_index 5238265 33135430 21104314 8623592 5089836 3927620 18308970 6139135 12293783 3262653 3923829

atst_like_reg_na 0 1 0 1 0 0 0 0 1 1 1

atst_like_reg_eu 1 1 1 1 1 1 1 1 1 1 1

atst_like_reg_ot 1 1 1 0 0 0 1 0 1 0 0

GT_Jazz 0 0 0 0 7 20 33 37 42 38 40

CumGT_Jazz 0 0 0 0 7 27 60 96 138 176 216

NTpc_Jazz 0 0 0 63 39 33 27 22 17 16 14

NTmb_Jazz 0 0 0 0 0 0 4 25 47 60 72

CumNTmb_Jazz 0 0 0 0 0 0 4 29 77 136 208

gt_gapyoung 0 0 0 0 1 1 7 14 19 17 17

gt_jarasum 0 0 0 0 0 0 1 1 2 2 2

gt_chunchun 2 2 8 12 12 11 27 45 54 46 45

av_temp 19 22.1 19.3 21 17.5 13.1 12.6 10.5 12.1 16.2 15.3

max_temp 26.8 27.4 28.2 27.8 24.9 20.8 21.2 19.6 22.2 27.6 21.4

min_temp 13.5 16.3 10.1 17.2 10.8 5.3 4.9 3.8 5.6 8.2 9.5

Is_rainy 1 1 0 0 0 0 0 0 0 0 0

rainfall 44 10.5 - - - - - - - - -

day_tempran_av 4.6 4.3 10.7 8.1 9.2 6.8 8 8.3 8.8 11.3 6.1

day_tempran_mx 13.3 7.7 16.4 10.6 13.9 14 16.3 15.8 15.4 16.9 11.9

train 0 0 0 0 0 0 0 1 1 1 1

highway 0 0 0 0 0 1 1 1 1 1 1

national_Wine_import 605 685 824 1411 2094 1313 1286 1523 1577 1785 1800

GDP 876,033

919,797

966,055

1,043,258

1,104,492

1,151,708

1,265,308

1,332,681

1,377,457

1,428,295

1,471,144

GDP_growth 3 5 4 5 6 3 1 7 4 2 3

-27-

3. 1차 분석 (기초 변수 정의) ( 1 )

연도 별 자라섬 재즈 페스티벌 관련 기초 변수의 구조

11 obs. : n = 11(표본 크기), 29 variables : p = 29 (변수의 개수)

-28-

3. 1차 분석 (기초 변수 정의) ( 2 )

연도 별 자라섬 재즈 페스티벌 출연 아티스트 관련 기초 변수의 구조

63 obs. : n = 63(표본 크기), 18 variables : p = 18 (변수의 개수)

-29-

3. 1차 분석 (기초 변수 정의) ( 3 )

데이터 수집의 한계, 표본크기 n > 30 이 충족되지 않으면 분석자체가 어려운 것일까?

고려대 통계학과 허명회 교수님의 인터뷰 내용 中

• 질문자 :

표본이 10개 정도 밖에는 없는 경우를 분석해야만 하는 사례라고 했을 때, 계량분석이 전혀 통계적으로는 의미가 없다고 봐야 할까요?

• 허명회 교수님:

n > 30은 별 의미 없습니다.

n =10인 자료에 대하여 random forest, 로지스틱 등 통계적 모형(추론)이 만들어진 경우 일반적인 문제는 예측의 변동성(variability)이 커진다는 것입니다. 이에 따라 재현성이 감소하게 되는 것이죠.

예를 들어, n= 10 인 야구 결과에서 검정은 얼마든지 가능합니다. 즉, 두 팀의 저력이 동일하다는 가설에 대한 p-값 산출 정도는 문제가 없습니다.

신뢰구간은 너무 넓게 되므로 별 의미가 없게 됩니다.

분석 방향 : n < p 유형의 분석 과제로 접근!

-30-

3. 1차 분석 (군집 분석)

다양한 변수 조합으로 시도했으나

뚜렷한 군집 분류 결과를 확인하기 어려움

‘가평’ 구글 검색량

‘아티스트 Youtube’ 조회수

“해석을 위한 더 많은 시간과 노력, 투입변수의 조절 작업이 필요 함”

군집 종류 ‘3’ 설정

-31-

3. 1차 분석 (Decision Tree 분석)

p-value = 0.053 > α = 0.05

Decision Tree 모델의 부적합 이유?

GDP로만 잡힌다는 것은 시간이 지날수록 는다는 것. 당연하지만 인사이트가 되지 못하니, 다양한 변수를 반영한, 좀 더 정교한, 다양한 인사이트를 제공할 수 있는 모델링이 필요 함

GDP > 1151708 : n=5 966055 < GDP ≤ 1151708 : n=3 966055 ≤ GDP : n=3

-32-

3. 1차 분석 (Random Forest 분석) ( 1 )

반복 횟수

오차율

100회 반복을 통해 얻은 모형은 20회 이후부터는 오차율의 큰 변동이 없음

군집 및 Decision Tree 분석 결과 대안은?

“ Random Forest 분석을 통해 최적의 모델 생성” Random Forest은

앙상블 학습 기법을 사용한

모델로서 주어진

데이터로부터 여러 개의

모델을 학습한 다음 예측 시

여러 모델의 예측 결과들을

종합해 사용하여 정확도를

높이는 기법

-33-

구글트렌드 가평지수 > 구글트렌즈 누적 Jazz 지수 > 구글트렌즈 Jazz 지수

3. 1차 분석 (Random Forest 분석) ( 2 )

Random Forest 분석 모형이 기대했던 대로 다양한 변수들의 영향을 상대적 중요도와 함께 제공해줌

MSE의 퍼센트 증가 노드 순수도 증가

-34-

4. 2차 분석 (파생변수 정의)

파생 변수 R Script

최고 기온과 최저 기온의 차 ddply(jarasum, .(Wave), transform, max_min_temp_dif=max_temp-min_temp)

아티스트 경력에 대한 유투브 조회수 비율 ddply( jarasumder, .(Wave), transform, art_view_exp=avg_atst_utube_view /avg_atst_experience)

춘천 구글 트렌드에 대한 가평 구글 트렌드 비율 ddply( jarasumder, .(Wave), transform, gt_gap_chu=gt_gapyoung/gt_chunchun)

파생 변수를 정의하기 위해 데이터를 그룹별로 요약하는 함수인 ddply를 활용하여 변수를 생성

파생 변수 정의

-35-

4. 2차 분석 (Random Forest 분석)

“아티스트 보다 누적된 행사 인지도와 재즈에 대한 일반적 관심 증가가 오히려 더 중요한 요인”

MSE의 퍼센트 증가 노드 순수도 증가

구글트렌드 자라섬 지수 > 구글트렌드 춘천 지수 > 구글트렌즈 누적 Jazz 지수

-36-

4. 2차 분석 (시각화)

방문자수

구글 트렌드

각 변수의 구글 트렌드가 높을수록 방문자 수 증가

가평, Jazz, 춘천, 가평/춘천 구글 트렌드 변수와 방문자 수 관계

-37-

5. R 분석 소스코드

• library(party) • library(randomForest) • library(ggplot2) • library(plyr) • library(gcookbook)

• setwd("D:/데이터분석/빅파이") • jarasum <- read.csv("jarasum_data.csv", header=T) • jarasum[,17] <- as.factor(jarasum[,17]) # train, highway, Is_rainy는 factor형이므로 형변환 • jarasum[,18] <- as.factor(jarasum[,18]) • jarasum[,19] <- as.factor(jarasum[,19]) • jara <- jarasum • jara <- jara[,-c(1,3,5)] # Wave, Year, visit_per_day 제거

• # party 나무 모형 • jara_tree <- ctree(Visit ~ ., controls = ctree_control( mincriterion = 0.1, minsplit = 2, minbucket = 3) , data=jara) • plot(jara_tree, main="jarasum tree model")

• # randdomForest • jara_rf <- randomForest(Visit~., data=jara , importance=TRUE, do.trace=5, ntree=100) • plot(jara_rf, log="y") • varImpPlot(jara_rf, main="jarasum randomForest", cex=0.7)

• ### predict ### • train <- jara[c(1:10),] • test <- jara[11,] • jara_rf1 <- randomForest(Visit~ ., data=train) # train 데이터로 rf 생성 • jara_pred <- predict(jara_rf1, test) # test 데이터로 rf 예측 • jara_pred # 예측값 • test$Visit # 실제값 • abs(test$Visit-jara_pred)/test$Visit*100 # 실제값과 예측값의 차이

-38-

5. R 분석 소스코드 – 파생변수 생성

• ##################### • ### 파생변수 생성 ### • ##################### • # 최고 최저 기온 차 • jarasumder <- ddply(jarasum, .(Wave), transform, max_min_temp_dif=max_temp-min_temp) • # 아티스트 유투브 조회수/경력 • jarasumder <- ddply(jarasumder, .(Wave), transform, art_view_exp=avg_atst_utube_view/avg_atst_experience) • # 가평의 지명도 변화 추이 gt_gapyoung/gt_chunchun • jarasumder <- ddply(jarasumder, .(Wave), transform, gt_gap_chu=gt_gapyoung/gt_chunchun)

• jarader <- jarasumder[,-c(1,3,5)] # Wave, Year, visit_per_day 제거

• # party 나무 모형 • jara_tree_der <- ctree(Visit ~ ., controls = ctree_control( mincriterion = 0.1, minsplit = 2, minbucket = 3) , data=jarader) • plot(jara_tree_der, main="jarasum tree model(derived variable)")

• # randdomForest • jarader_rf <- randomForest(Visit~., data=jarader , importance=TRUE, do.trace=5, ntree=100)

• plot(jarader_rf, log="y") • varImpPlot(jarader_rf, main="jarasum randomForest(derived variable)", cex=0.7)

• ### predict ### • train <- jarader[c(1:10),] • test <- jarader[11,] • jarader_rf <- randomForest(Visit~ ., data=train) # train 데이터로 rf 생성 • jarader_pred <- predict(jarader_rf, test) # test 데이터로 rf 예측 • jarader_pred # 예측값 • test$Visit # 실제값 • abs(test$Visit-jarader_pred)/test$Visit*100 # 실제값과 예측값의 차이

-39-

5. R 분석 소스코드 - 시각화

• ### 각 변수들의 그래프 ### • for(i in 1:35){ • th <- names(jarasumder)[i] • plot(jarasumder$Wave, jarasumder[,i], type="o", cex=1.2, col ="chocolate", ylab=th) • }

• # bubble chart • plot(gt_gapyoung ~ GT_Jazz, data=jarasum, pch=9, col="red", xlim=c(0,45), ylim=c(-3,23)) • with(jarasum, symbols(gt_gapyoung ~ GT_Jazz, circles=Visit, inches=0.5, add=T)) • # 파생변수 추가한 bubble • plot(gt_jarasum ~ gt_gap_chu, data=jarasumder, pch=9, col="blue", xlim=c(0,0.4), ylim=c(-0.3,2.3)) • with(jarasumder, symbols(gt_jarasum ~ gt_gap_chu, circles=Visit, inches=0.5, add=T))

• ### ggplot를 이용한 그래프 #### • ggplot(data=jarasum, aes(x=gt_gapyoung, y=GT_Jazz))+geom_point(aes(colour=gt_chunchun, size=Visit)) • # 파생변수 추가한 • ggplot(data=jarasumder, aes(x=gt_jarasum, y=GT_Jazz))+geom_point(aes(colour=gt_gap_chu, size=Visit))

• # Visit 히스토그램 • ggplot(jarasum, aes(x=Visit, fill=train)) + geom_histogram(position="identity", alpha=0.4) • ggplot(jarasum, aes(x=Visit, fill=highway)) + geom_histogram(position="identity", alpha=0.4) • ggplot(jarasum, aes(x=Visit, fill=Is_rainy)) + geom_histogram(position="identity", alpha=0.4)

• # 구글 네이버별 Jazz_trend 히스토그램 • gn <- read.csv("gn.csv", header=T) • ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="identity", alpha=0.4) • ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="fill", alpha=0.4) • ggplot(gn, aes(x=Jazz_trend, fill=google_naver)) + geom_histogram(position="dodge", alpha=0.4)

-40-

5. 2015년 자라섬 재즈 페스티벌 예측

• 아티스트 유튜브 조회수와 아티스트 경력을 기존의 1~11회 페스티벌의 최소 조회수와 최소 경력, 최대 조회수와 최대 경력을 가지고 12회

자라섬 페스티벌 방문자를 예측

• 그 결과는 오히려 최소 아티스트 유튜브 조회수와 아티스트 경력을 입력 했을 때 오히려 조금 더 높게 나옴

구분 최소값 최대값 차이

아티스트 유튜브 조회수 2,161,922 12,661,307 10,499,385

아티스트 경력 26 65 39

예측 방문자 수 207,549 211,022 3473

자라섬 페스티벌의 방문자 수의 증감은

아티스트 인지도 및 경력과는 무관

2015년 자라섬 재즈 페스티벌 예측 결과

-41-

6. 주최자 입장에서의 대응전략

아티스트 측면

• 집객력과 가성비가 높은 아티스트들을 다시 초청하는 방안 집중 추진

1

인지도 측면

• 가평과 자라섬의 인지도가 급등하긴 했으나 여전히 춘천만큼의 인지도는 아님

• 자라섬, 가평, 재즈 라는 세가지 키워드를 평상시 집중적으로 노출하는 매스, 인터넷 마케팅 실시 (연중 지속)

2

고객관리 측면

• 지난 행사들에 대한 기억을 살릴 수 있는 컨텐츠를 만들어 ... 주기적으로 기억을 되살리도록 제공 (모바일, 페이스북, 카카오톡 등 SNS로))

3

데이터 분석 측면

• 경제적 효과를 종속변수로 한 추가 모델 개발

• 카드사 .이통사와 제휴를 통해 추가적인 Mash Up 데이터를 확보하고 결합분석 추진

4

“데이터 분석모델에 의한 예측을 통해

가성비 최적화 방안 시뮬레이션 실시”

분석을 통해 2015년 자라섬 재즈 페스티벌 방문객 수를 늘릴 수 있는 방안은?

-42- -42-

-43-

INDEX

Ⅴ. 결론

1. 지역 축제 분석의 가치 및 기대효과

2. 빅 데이터 분석 전문가 과정을 마치며 …

-44-

1. 지역 축제 분석의 가치 및 기대효과

연 500건이 넘은 축제가 열리지만 실제 경제 유발 효과 등의 실익을 얻는 축제는 한정됨

가치와 효과 분석(수치화)

적정 예산 수립 가능

지역 축제 성공 요인 분석

등급별 관리

지원 대상/규모 통제

문체부 소모성 유사 축제 조성

예산 낭비

성과 측정 어려움

지자체장 선심성 행정

-45-

2. 빅 데이터 분석 전문가 과정을 마치며…

1 빅 데이터 분석 전문가 역량 강화

2 팀 과제를 통한 데이터 분석 경험 공유

3 빅 데이터 분석 분야의 미래 및 활용에

관한 새로운 관점의 발견

4 자사에 빅 데이터 분석 기술 활용 기반을

다지는 기회 발견

8기 빅 데이터

분석 전문가 과정 수료

빅 데이터에 대한 새로운 접근 및 기존

경험을 융합한 발전을 할 수 있는 계기

마련의 기회 !

-46-

Q & A

-47-

Thank You!