Process for Big Data Analysis

22
Choi, Myunggoon Data Analyst 사사사사사사 ,UX Lab, Coupang E-mail: [email protected] E-mail: [email protected] Tel: 02. 6150. 4098 Mobile: 010. 9692. 3080. 빅빅빅빅 빅빅 빅빅빅빅

Transcript of Process for Big Data Analysis

Choi, MyunggoonData Analyst

사용자분석팀 ,UX Lab, CoupangE-mail: [email protected]

E-mail: [email protected]: 02. 6150. 4098

Mobile: 010. 9692. 3080.

빅데이터 분석 프로세스

빅데이터 소개

1 빅데이터의 정의

정의

• 디지털 기술 발달로 만들어지는 데이터로 그 규모 (Volume) 가 방대하고 , 생성 속도

(Velocity) 가 빠르며 , 형태도 수치 데이터뿐만 아니라 문자와 , 영상 데이터를

포함하는 다양 (Variety) 한 데이터

• 3V(Volume 과 Velocity, Variety)

01

데이터 과학 (Data Science)• ‘ 데이터’ 로부터 의미를 추출해내는 학문

• 기업의 실무 현장에서 쌓이는 빅데이터를 대상으로 의미를 추출

• 예를 들면 , 인터넷과 휴대전화 , 감시용 카메라 등과 같은 정보기술로부터

생성되는 숫자와 문자 , 영상 정보 등 다양한 유형의 데이터를 의미

빅데이터 소개

2 빅데이터의 현황

시대적 상황

• 인터넷 사용의 급격한 발전과 활용은 인터넷 기업의 등장을 촉진

• 페이스북의 경우 , 이용자가 1 억 명에 이르는데 소요 시간은 단 , 9 개월

( 이용자 5 천 만 명에 달하는데 걸린 시간 : 라디오 38 년 , TV 13 년 , 인터넷 4 년 , iPod 3 년 )• 아날로그에서 디지털로의 정보 흐름의 변화

• 글로벌 네트워크 및 데이터의 개방과 공유 시대

01

출처 : 정용찬 (2012)

< 그림 1> 인터넷 기업의 등장과 글로벌 디지털 데이터 규모

빅데이터 소개

3 빅데이터의 중요성 증대

중요성 증대

• 2010 년 미 대통령 과학자문위원회 , 모든 연방정부 기관의 빅데이터 전략 필요성 강조

• 2012 년 다보스 포럼 , 위기의 자본주의를 구할 사회 기술 모델로의 도구로 빅데이터

제시

• 2011 년 , 국가정보화전략위원회 , 빅데이터를 활용한 공공부분의 혁신 패러다임 형성

01

< 그림 2> ‘Big Data’ 키워드 검색 변화 추이

0

20

40

60

80

100

120

2005 2007 2009 2011 2013

출처 : Google Trend, retrieved from https://www.google.com/trends/explore#q=big%20data&cmpt=q

FRQ.

YEAR

빅데이터 방법론02

1 전체 프로세스

빅데이터 방법론의 핵심적 프로세스 (Process)• 사회과학을 통한 정확한 현상 설명 및 정의

• 측정 수준의 정의에 따른 자동적인 데이터 수집 및 분석 , 예측

Con-cept

Conceptualization Operationalization

1 2 3

6 7

Social Science

Social Scienc and Computer Science, Statistics, Mathematics

4 5

Algorithm Correlation

Causation

<Figure 3> Key Process for Big Data Analysis

Operational-ized

Definition

SocialPhenomena

DataCollection

DataAnalysis

Results&

ImplicationsPrediction

2 빅데이터를 바라보는 사회과학적 관점

10 가지 주요 관점들

• 인간 감각의 확장 (Extension of Human Senses)• 역의제설정이론 (Reversed Agenda-Setting Theory)• 공론장 (Public Sphere)• SNS (Social Network Services)• 집단지성 (Collective Intelligence)• 롱테일 가설 (Long-Tail Hypotheses)• 관계의 미학 (Aesthetic of Relationship)• 소유의 종말 (Age of Access)• 비정형 데이터 (Unstructured Data)• 융합과 통섭 (Convergence and Consilience)

빅데이터 방법론02

사회현상

사회과학 (Social Science)

1

3 개념을 도출하는 과정

개념화 : 개념을 도출하는 과정

• 정의 : 개념을 발전시키고 명료화하는 과정 . 즉 , 단어나 예제로써 하나의 개념을

명확히 하고 정확한 의사전달을 위한 의미에 도달하는 과정 .• 예시 :

백만 장자 , 서울대 교수 , 국회의원

↓ 부 , 명예 , 권력

↓ 사회적 지위

빅데이터 방법론02

사회현상

개념

1

2

사회과학 (Social Science)

개념화(Conceptualization)

4 조작적 정의

조작화 과정

• 정의 : 정량적 수치를 통해 측정할 수 있는 수준으로 모호한 개념을 이끌어 내는 과정

• 예시 :Q. 사회적 지위에 대한 조작적 정의 ?

A. 한 개인이 매달에 주기적으로 벌어들이는 수익금의 양 !?

빅데이터 방법론02

개념

조작적정의

2

3

사회과학 (Social Science)

조작화(Operationalization)

5 데이터 수집

조작적으로 정의된 개념에 대한 데이터 종류

• 인간 감각의 확장 (Extension of Human Senses)- 예 : 인체의 심장 박동 센서를 통한 사람의 감정 데이터 등

• SNS (Social Network Services)- 예 : 포털이나 SNS( 트위터 , 페이스북 ), 온라인 커뮤니티의 텍스트

데이터 등

• 집단지성 (Collective Intelligence)- 예 : 책 한 권에 대한 여러 권의 번역본 텍스트 데이터 등

• 관계의 미학 (Aesthetic of Relationship)- 예 : SNS 의 친구 관계 , 동시 구매를 통해 연결되는 상품 간의 관계 등

- 관계에는 메타데이터를 포함

• 비정형 데이터 (Unstructured Data)- 정형화되기 이전의 모든 로그 데이터

- 예 : 로그 데이터 ( 어플리케이션을 사용한 사용자의 모든 동선에 관한

데이터 )

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

조작적정의3

데이터수집4

5 데이터 수집

조작적으로 정의된 개념에 대한 데이터 수집 방법

1) 자체적인 서버 내에서의 데이터 수집

• 하둡 (Hadoop): 빅데이터를 안정되고 , 빠르고 , 용이하게 분석하게 하는 플랫폼

• 필요한 기본 소프트웨어 : JAVA Hadoop, R, R studio, MySQL, RMR, RmySQL 등

• 비정형 데이터

2) API(Application Programming Interface) 를 통한 오픈 (open) 데이터 수집

• 프로그래밍 언어를 사용한 데이터 크롤링 소프트웨어 작성을 통한 수집

- 사용할 수 있는 프로그래밍 언어 : Ruby, Python, R, Java 등

• 공개된 API 를 통해 받을 수 있는 데이터 : 포털의 블로그나 카페의 텍스트 데이터 , 포털의 특정 키워드에 대한 검색 빈도 데이터 , 트위터의 사용자 및 트윗에 관한 텍스트

데이터 , 페이스북의 텍스트 데이터 , 트위터와 페이스북의 사용자 간 관계 데이터

3) 쉽게 수집할 수 있는 오픈 소프트웨어를 통한 자료 수집

• 네이버 트랜드 , 구글 트랜드 , 구글 ngram 을 이용한 검색 데이터 수집

• 수집 프로그램 : NodeXL, Webometric Analyst, WeboNaver, WeboGoogle, Dis-coverText

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

조작적정의3

데이터수집4

6 데이터 분석

텍스트 분석

1) 텍스트의 감정 분석 (Textual Sentimental Analysis)

① 모델 ( 분석 대상 ), Dunit( 수집 문서 ), 룰 ( 분석지식 )② 분석 사전 (Daumsoft 의 경우 , 약 1,000,000 만 단어에 대한 사전 보유 ):

문장 분리 → 품사 태깅 (Tagging) → 개체명 인식 → 패러프라이징

(Paraphrasing) → 구문 분석

③ 지식 매칭

④ 키팩트 ( 분석 결과 ): 정제된 키워드 데이터를 통해 감정 분만 아니라 특정

모델별 , 브랜드별 , 사이트별 , 시계열 분석 가능

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

데이터수집4

데이터분석5

쿠팡

브랜드

위메프

티몬

아마존

11번가

감정

쿠팡

쿠팡

쿠팡

1021

852

721

241

쿠팡

친절한

느리다

좋다

없다쿠팡

쿠팡

쿠팡

1021

852

721

241

< 그림 4> 텍스트 감정 분석의 사례

< 사진 1> 텍스트 분석 사례 1 – 직장인의 ‘일하다’와 관련한 키워드

출처 : Daum-soft

< 사진 2> 텍스트 분석 사례 2 – 직장인의 ‘회사 회식’과 관련한 키워드

출처 : Daum-soft

< 사진 3> 텍스트 분석 사례 3 – 직장인의 요일별 감성 비중 변화

출처 : Daum-soft

6 데이터 분석

텍스트 분석

2) 텍스트의 의미망 연결 분석 (Textual Semantic Analysis)

① 모델 ( 분석 대상 ), Dunit( 수집 문서 ), 룰 ( 분석지식 )② 분석 사전 (Daumsoft 의 경우 , 약 1,000,000 만 단어에 대한 사전 보유 ):

문장 분리 → 품사 태깅 (Tagging) → 개체명 인식 → 패러프라이징

(Paraphrasing) → 구문 분석

③ 지식 매칭

④ 두 어휘 간의 연결을 지을 수 있는 범위 설정 및 네트워크 데이터 구성

⑤ 특정 어휘에 감춰진 의미 파악 및 네트워크 구조 분석을 통한 유사한 그룹 도출

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

데이터수집4

데이터분석5

쿠팡

배송

친절한

좋다

없다 위메프

느리다쿠팡맨

빠르다

상품

브랜드

< 그림 5> 텍스트 의미망 연결 분석의 사례

6 데이터 분석

네트워크 분석

1) 사회 연결망 분석 (Social Network Analysis) – 유사성 분석

① 모델 ( 분석 대상 ) 에서 관계 유형을 발견

② 일반적으로 사용되는 정형 데이터를 매트릭스 형 관계 데이터로 재구성

③ 네트워크 구조적 동일성을 지닌 노드들을 자동 알고리즘에 따라 그룹화시켜줌

④ 관계의 속성에 따라 그룹이 가진 의미를 발견

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

데이터수집4

데이터분석5

< 그림 6> 한 사용자가 듣는 가수들 간의 연결을 통한 네트워크 분석의 사례

출처 : Slow News, ‘음악시장과 메타데이터 : 아이튠즈의 퇴조 vs. 스포티파이의 성장’ , retrieved from http://slownews.kr/30565

< 그림 6> 한 사용자가 듣는 가수들 간의 연결을 통한 네트워크 분석의 사례

출처 : Slow News, ‘음악시장과 메타데이터 : 아이튠즈의 퇴조 vs. 스포티파이의 성장’ , retrieved from http://slownews.kr/30565

< 사진 4> 텍스트 분석 사례 4 – 애니팡 분석 사례 1

출처 : Treum, ‘[ 트리움의 의미망분석 ] 요즘 뜨는 애니팡 게임에 ‘숨겨진 코드’ , retrieved from http://blog.treum.com/72

< 사진 5> 텍스트 분석 사례 5 – 애니팡 분석 사례 2

출처 : Treum, ‘[ 트리움의 의미망분석 ] 요즘 뜨는 애니팡 게임에 ‘숨겨진 코드’ , retrieved from http://blog.treum.com/72

6 데이터 분석

데이터 시각화 (Data Visualization 혹은 Information Visualization)• 데이터를 정보로 변환하여 유용하게 사용하게 만드는 한 방법

• Sensemaking( 데이터에 의미와 통찰력을 부여하는 과정 ) 의 과정

• Think Visually!• 컴퓨터를 사용하여 인지를 넓힐 수 있도록 데이터를 상호작용이 가능한 시각화 하는 것

• 외부인지보조 (External Cognition Aid)

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

데이터수집4

데이터분석5

출처 : Visual Loop, ‘Vintage Infodesign’, retrieved from http://visualoop.com/11575/vintage-infodesign-33

출처 : Cartography Topics and Projects, retrieved from http://mapmaker.rutgers.edu/355/links.html

< 그림 7> 런던 지하철 과거 (좌 ) 와 현재 ( 우 ) 의 시각화 자료

7 데이터 결과 도출 및 해석 , 예측

결론 도출 및 인사이트 발견 , 예측

• 도출된 모든 정보는 연구자의 판단에 의해 맡겨짐

• 데이터는 좋은 의사결정을 내리는데 보조 도구일 뿐 최종 판단은 사람에 의해 이루어짐

빅데이터 방법론02

사회과학 (Social Science),컴퓨터과학 (Computer Science),

통계학 (Statistics),수학 (Mathematics)

데이터분석5

결론도출6

“ 사람들은 자기 식대로 사물을 추론한다 . 그 사물의 목적을 지워버린다 .”in <The Tragedy of Julius Caesar>, by 셰익스피어

예측7

Choi, MyunggoonData Analyst

사용자분석팀 ,UX Lab, CoupangE-mail: [email protected]

E-mail: [email protected]: 02. 6150. 4098

Mobile: 010. 9692. 3080.

Thank you