빅데이터 솔루션 소개서(2013년 05월)

19
2013 KT Hitel Corporation 빅데이터 솔루션(Daisy) 소개서 2013/05 노 동 학([email protected])

description

Daisy

Transcript of 빅데이터 솔루션 소개서(2013년 05월)

Page 1: 빅데이터 솔루션 소개서(2013년 05월)

ⓒ 2013 KT Hitel Corporation

빅데이터 솔루션(Daisy) 소개서

2013/05

노 동 학([email protected])

Page 2: 빅데이터 솔루션 소개서(2013년 05월)

2 ⓒ 2013 KT Hitel Corporation

Context

1.빅데이터 정의

2.솔루션 기능 요건

3.솔루션 주요 기능

4.솔루션 적용 사례

5.솔루션 분석 사례

별첨. 기술 구조도

Page 3: 빅데이터 솔루션 소개서(2013년 05월)

3 ⓒ 2013 KT Hitel Corporation

1. 빅데이터 정의 (1/2)

빅데이터는 단지 데이터의 규모만을 이야기하는 것이 아니라 데이터의 다양성과 데이터 처리를 위한 속도까지도 고려하는 것으로 최근에는

복잡성과 가치까지도 함께 포함하는 개념으로 확대됨.

Volume Terabytes

Records

Transactions

Tables, Files

Velocity Batch

Near Time

Real Time

Streams

Variety Structured

UnStructured

Semi-Structured

All the above

3 Vs of Big Data

기존 DBMS로 처리불가한 대용량

데이터 증가

데이터 처리 및 분석속도 중요성 증가

기술 발전에 따른 데이터의 다양화

+ Complexity

=

Big Data 분석

데이터의 다양화에 따른 복잡성 증가

데이터의 크기, 다양성 및 속도에 복잡성이 더해지면서 Big Data에 대한 개념도 변화하고 있음

Value

수집/분석되는 데이터의 가치 고려

OLAP Report

Visualization Monitoring

다양한

분석 정보 제공

Page 4: 빅데이터 솔루션 소개서(2013년 05월)

4 ⓒ 2013 KT Hitel Corporation

1. 빅데이터 정의 (2/2)

비지니스인텔리전스(BI)나 데이터웨어하우스(DW) 같은 전통적인 방식의 데이터 환경에서 처리하기 힘들었던 대용량 데이터를 Cloud Computing,

Hadoop, Distributed Computing과 같은 기술을 이용하여 저렴한 비용으로 가치를 추출하고 데이터를 수집, 발굴, 분석하는 모든 과정을 의미.

90%

전 세계 Data 90% 최근 2년 안에 생성

92% VS

34%

모바일 트래픽 증가 92% 인터넷 트래픽 증가 34% 2011~15 연평균, 예상

2.5 quintillion

In 2012 2.5 quintillion byte of every day 1.8ZB =1.8조 GB

2억/ 1억

하루 평균 2억 개 트윗 트위터 이용 1억 명 SNS 11억 인구

Social 시대로 접어들면서 디지털 데이터 폭증 -> 효율적 데이터 수집/분석/관리의 필요성 증가

Page 5: 빅데이터 솔루션 소개서(2013년 05월)

5 ⓒ 2013 KT Hitel Corporation

Reporting

2. 솔루션 기능 요건

Big Data Solution은 방대하고 복잡한 정형/비정형 데이터의 수집과 저장 및 분석 그리고 다양한 뷰를 통한 정보 제공의 4가지 핵심 기능을

기본으로 각 기능을 담당할 인력(Data Scientist) 및 관리 시스템을 필요로 함.

Collecting Store Analysis Visualization

Collecting Store Analysis Reporting OpenAPI Crawling

Data Collector

Web, Social Network System log, RDBMS 등

수집 데이터 저장

NoSQL

DBMS DBMS

Hadoop 등을 이용한 대용량 데이터 저장

Data Query

Data Clustering

Classification

Recommendation

Hive, mahout, R 등을 통한 분산/병렬 데이터 실시간 분석

Chart/Grid

Data Export/API

Monitoring

Chart, API 등을 통한 다양한 View 생성 및 제공

Data Scientist

Management System

Big Data Solution 의 기능 및 처리 흐름과 관리 구조

Managing

Function of Big Data Solution

Page 6: 빅데이터 솔루션 소개서(2013년 05월)

6 ⓒ 2013 KT Hitel Corporation

Data Input

3. 솔루션 주요 기능 - Hadoop

Hadoop은 대용량 데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임워크로 구글 파일 시스템을

벤치마킹 하여 Hadoop 분산 파일 시스템과 Map Reduce 를 구현한 데이터 분산, 저장 및 병렬 처리 기술

Web Data

Social Network

Log Files

Legacy Data

Map 생성

Reduce 추출, 조립

Result Data

Output 데이터분산

데이터 분류

결과 데이터

<Distribute Map & Data Reduce Processing (Hadoop)>

Hadoop의 장점

- 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공

- 클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리

- 장비를 증가시킬수록 성능이 Linear에 가깝게 향상

- 오픈소스, Intel Core 머신과 리눅스와 같은 저렴한 장비의 사용이 가능

Hadoop의 단점

- Map/Reduce 방식의 사고의 전환 필요

- Open Source 로써 아직은 개발이 진행중인 상태

- 버전 호환성이 낮으며 구현되지 않은 부분이 많음

- 메모리 및 네트워크 관련 시행착오의 가능성이 높아 장애에 대한 대비가 필요

Page 7: 빅데이터 솔루션 소개서(2013년 05월)

7 ⓒ 2013 KT Hitel Corporation

3. 솔루션 주요 기능 - NoSQL

기존의 RDBMS가 가지는 클라우드 컴퓨팅 환경에서의 빅 데이터의 효과적인 저장, 관리상의 한계점을 보완하기 위해 새로운 저장 기술의 필요성이

대두되고 있는 상황에서 나온 새로운 개념의 DBMS 시스템

Node3

Node1 Node2

Client 1 Client 2

Node3

Node1 Node2

Client 1 Client 2

<RDBMS> <NoSQL>

Sql 작업 수행 시점에 Replication, locking 및 Consistency 에 대

한 check 필요 데이터 처리 느림

병렬 데이터 처리로 노드간 커뮤니케이션에 의한 sql 작업의 중단이

발생하지 않음 고속 데이터 처리 가능

NoSQL의 장점

- 빠르고 유연한 데이터 저장 및 조회 능력

- 데이터 증가 시 노드 확장만으로 처리 가능 (확장성 및 가용성 뛰어남)

- Key-Value 형식의 저장 구조로 유연한 데이터 구조를 가짐

- 데이터 인덱싱을 통한 빠른 응답성 (저비용으로 데이터 분석 가능)

NoSQL의 단점

- 분석 방식의 변화 및 내재화 비용 발생

- 트랜잭션과 같은 복잡한 처리에 적합하지 않으며 장애 발생 시 복구 비용 발생

- Schemaless 구조로 Join 과 같은 복잡한 query 사용이 어려움

- Schema 설계, 서버 네트워크 구성, 메모리/IO 등에 대한 시행착오 대비 필요

Read Entity 1 Write 20 Entities Read Entity 1 Write 20 Entities

<NoSQL과 RDBMS 비교>

Page 8: 빅데이터 솔루션 소개서(2013년 05월)

8 ⓒ 2013 KT Hitel Corporation

3. 솔루션 주요 기능 - CEP

데이터를 Event의 관점에서 바라보고 지속적으로 발생하는 데이터를 실시간(Real-Time)으로 분석하고 의미있는 패턴을 인지하여 즉시 반응하는

시스템. In-Memory기반으로 다양한 고속의 Event Stream을 실시간으로 처리가 가능

CEP의 장점

- 선분석처리, 후저장 방식

- In-Memory 기반의 고성능 분석 가능 -> 실시간(Real-Time) 분석 가능

- Event-Driven Architecture

- 데이터 용량에 상관없이 Low-Latency 확보 가능

- 다양한 형태의 Input/Output Adapter 수용 가능

- EPL을 통한 실시간 이벤트 처리 및 외부 데이터 Join 연산 가능한 구조

Data

Input Adapter

Socket Input Adapter

HTTP Input Adapter

CSV Input Adapter

Output Adapter

Socket Output Adapter

HTTP Output Adapter

CSV Output Adapter

CEP Engine

EPL Statements RDBMS

Open API

Live Charts

JVM

RDBMS NoSQL

Log

Data

<CEP Real-Time Architecture>

Page 9: 빅데이터 솔루션 소개서(2013년 05월)

9 ⓒ 2013 KT Hitel Corporation

Lucene

3. 솔루션 주요 기능 - Lucene

자바로 만들어진 확장 가능한 고성능 정보 검색(IR – Information Retrieval) 라이브러리. Lucene을 이용하여 각종 프로그램에 텍스트 색인 및

검색 기능의 추가가 가능함

Lucene의 장점

- Full Text 검색에 효율적 -> 다양한 언어의 Full Text 분석기 지원

- Full Text(Contents) 와 text를 단어로 쪼개는 방법(Analyzer)를 제시하면 알아서 Index를 구성해주며 Index된 데이터를 통해 빠른 검색 결과 도출이 가능

- E-mail, Web page, Document 검색에 유리

- 서로 다른 언어간에도 색인(Index) 데이터를 100% 호환해서 사용이 가능

File System

DB

Web

Etc…

Crawler

Parser Search Index

User Request

Search Result

Indexer

Analysis

Index DB

<Lucene Architecture>

형태소 분석기

중의어 처리기

Page 10: 빅데이터 솔루션 소개서(2013년 05월)

10 ⓒ 2013 KT Hitel Corporation

4. 솔루션 적용 사례 – 자사 서비스

Big Data 플랫폼을 기반으로 자사 서비스에 서비스 로그 수집 및 데이터 분석을 통한 최종 추천 정보 제시 시스템 구현

User Service DAISY User Service

아임IN Database

사용자 행동 패턴

HDFS

Data collector

Data Analysis / Mining By Hive / Mahout

* 분석 모델 적용 * 추천 키워드 추출 * Hive/Mahout 활용

Daisy를 통해 사용자 프로파일링 후 사용자 별 최적의 친구 추천 데이터를 제공합니다.

사용자 데이터

- 친구 맺기

- 조회 아이템

- 활동 아이템

- 발도장 남기기

맞춤형 친구/장소 추천

맞춤형 친구 추천

아임IN 푸딩.투

• 친구 추천 • 친구 맺기 경로 • Follow//following 수 • 추천 대비 결과 • 선호 사진 or POI • Action 년/월/일/요일/시간

아임IN 로그 파일

푸딩.투 Database

푸딩.투 로그 파일

친구 추천 결과

친구 맺기 패턴

사용자 행동 패턴

최적의 친구 추천 Log

Agent

서비스별 챠트 및 통계

Page 11: 빅데이터 솔루션 소개서(2013년 05월)

11 ⓒ 2013 KT Hitel Corporation

4. 솔루션 적용 사례 - KT Olleh TV 실시간 분석

고객이 현재 시청하고 있는 채널의 로그 정보를 실시간으로 수집/분석하여 채널/프로그램 별 실시간 통계 기반의 차트를 제공

<olleh TV 실시간 채널 시청률 통계 (Prototype)>

Big Data 분석을 활용한 통계 시스템 개발

• 실시간 대용량 이벤트 처리 전용 시스템 • 데이터를 이벤트로 보고, 지속적으로 발생하는 데이터를 실시간으로 분석하여 의미 있는 패턴을 인지

• 실시간 시청률과 같은 지속적으로 발생하는 데이터(이벤트)로 부터, 임의의 조건에 부합하는 데이터에 즉시 반응 하도록 설계

Page 12: 빅데이터 솔루션 소개서(2013년 05월)

12 ⓒ 2013 KT Hitel Corporation

4. 솔루션 적용 사례 - KT VOC 모니터링 시스템

무선VOC Data를 기반으로 분석했던 기존 시스템에서 유무선 통합 VOC Data 분석으로 변경하고, 유무선 통합으로 인해

증가 된 VoC 데이터 분석을 위하여 기존의 검색엔진 기반의 아키텍처를 실시간 대용량 분석 솔루션인 DAISY로 변경, 유무선 통합으로 인한

데이터 처리 인프라 구축과 검색 및 리포트 성능 향상 시스템을 개발

<KT VITAL System 개선>

VOC 수집

검색 시스템

실시간 주제별 분석

통계현황/리포팅

• Genesis 연동 • IDMS 연동

• 키워드 연관 분석 검색 • 유무선 검색 조건 추가

• 총 VOC 분석 • 실시간 VOC 분석 외 2종

• 통계 현황 Chart 구성 • 검색 결과 리포팅 구현

<KT VOC Monitoring 시스템>

Page 13: 빅데이터 솔루션 소개서(2013년 05월)

13 ⓒ 2013 KT Hitel Corporation

4. 솔루션 적용 사례 - 기상청(공공)

Big Data 관점에서 기상정보 처리 및 분석을 위한 Big Data 처리 플랫폼 구축

기상정보 성격에 적합한 클라우드 기반의 Big Data 분석 툴 및 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발

기상정보 활용 Big Data 개발

• 클라우드 기반 Big Data 분석툴 개발 • 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발 • 방대한 데이터의 실시간 분석을 고려한 Big Data 플랫폼

• Weather API store를 통해 내/외부에 기상 mash-up API 제공

Weather Daisy를 통해 실시간 Big Data 처리 기능을 제공

<다양한 기상정보 제공 시스템 개발>

Page 14: 빅데이터 솔루션 소개서(2013년 05월)

14 ⓒ 2013 KT Hitel Corporation

5. 솔루션 분석 사례(자사)

■ 분석대상

114전국전화 사용자 데이터 분석을 통한 마케팅 활용 사례 (치킨 & 올림픽 영향도 분석)

- 114전국전화 사용자 클릭 기반 로그

- 축구, 올림픽 경기 일정 조사

- 열대야 날씨 데이터

- 2012.05~08.05 로그 데이터

- 검색 키워드 및 콜 추출

- 월별, 요일, 시간 기준 데이터 비교 분석

■ 분석조건

- 올림픽 이슈와 114전국전화 상관관계 추출

- 실질적인 사용자 분석을 통해 얻게 된 결과를

마케팅에 활용한 내부 첫 사례

■ 분석결과 및 시사점

뉴스 활용(2012.8.8) 주요매체 배포 114전국전화 사용자 데이터 기반 영향도 분석 그래프

런던올림픽 축구경기 있는 날, 야식 주문 가장 많았다.(MNB)

스마트 모바일 컴퍼니 KTH(대표 서정수)는 자사가 운영하는 전화번호 검색

애플리케이션 ‘114전국전화’의 데이터를 분석한 결과, 올림픽 시즌에

야식 주문량이 급증한 것으로 나타났다. 지난 7월 1일부터 8월 8일까지

런던올림픽 개막 전후로 야간시간(21시~03시)에 114전국전화를 이용한

야식 검색 및 주문 수가 큰 편차를 보인 것으로 나타났다….

■ 분석결과

7월 한달 동안 Daily 검색어 빈도/

콜 클릭 빈도수 비교(오후 9시 부

터 ~새벽 3시까지)결과 114전국

전화 서비스 요일별 추이와 비슷한

패턴의 그래프 유형을 보이고 있습

니다. 결과적으로 7월 21일 부터

31일까지 열대야 기간 동안 큰 변

화는 없었습니다. 7월 26일 목요

일 축구경기때 치킨 검색어가 약

25% 상승했습니다. 여기서도 대한

민국 대표팀 축구에 대해 반응합니

다. 평일 국내 축구 경기에는 반응

하지 않습니다.

(치킨 검색어 평균 약 8% 상승)

Page 15: 빅데이터 솔루션 소개서(2013년 05월)

15 ⓒ 2013 KT Hitel Corporation

5. 솔루션 분석 사례(자사)

■ 분석대상

114전국전화 맞춤 메뉴 제공 (서비스로그데이터 분석을 통한 사용자 라이프타임 분석)

- 114전국전화 서비스 로그 전체

- 사용자 검색어 로그 전체

- 2011.08~2012.07.22 로그 데이터(전수)

- 요일, 시간, 시즌, 키워드 추출 통계 분석

- 패턴 파악 후 키워드 재 추출

■ 분석조건

- 114전국전화 메인 메뉴가 통계기반 구조로 변경

- 사용자 상황에 맞춰 메뉴를 추천해 준 결과

메뉴 선택과 UV, PV 증가한 긍정적 효과 입증

■ 분석결과 및 시사점

114전국전화 사용자데이터 기반으로 맞춤메뉴 구성 맞춤메뉴 개선 결과 측정 분석

■ 분석결과

1,2위 부동이었던 중국집, 치킨을 시간대로 상세하게 분류하면, 아래 그림처럼 평일 07~11시간대에는 병원이 1위에 오르기도 합니다. 2위에 순위가 오른 키워드는 점심뭐먹지, 저녁뭐먹지 입니다. 사용자 시간에 맞춰 메뉴명을 다르게 한 결과 사용자가 선택한 검색량이 증가 하였습니다. 12월 맞춤메뉴 적용 후 11월에 조금 저조했던 콜 클릭 수가 증가하였습니다. 12월 평균 및 Daily 수치가 년 평균을 상회하고 있습니다. 12월에 송년회 등 사용자들의 활발 한 시기 외에도 이벤트 등 다양한 영향이 있겠지만, 맞춤메뉴 적용 후 평균이상으로 증가 하고 있으며 사용자에게 긍정적 영향을 미치고 있습니다.

수집된 서비스 로그데이터 기반 사용자의 APP 행동패턴 분석

사용자 행동패턴 분석을 통해 요일, 시간, 시즌 별 검색키워드를 통해

통계기반으로 메인 메뉴를 다양한 조건에 따라 재배치 한다.

분석된 패턴을 기준으로 요일 분류체계, 시간 그룹, 시즌 그룹을 코드화

하고 이를 기반으로 메인 메뉴를 재 구성 하였다.

Page 16: 빅데이터 솔루션 소개서(2013년 05월)

16 ⓒ 2013 KT Hitel Corporation

5. 솔루션 분석 사례(자사)

■ 분석대상

글로벌 서비스 푸딩.투 인기사진을 위한 Time zone 분석 (글로벌 사용자 배려를 위한 데이터 분석)

- 푸딩.투 사진 업로드 정보 DB

- 푸딩.투 사용자 정보 DB

- ~2012.05까지 전체 데이터 기준

- 글로벌 사용자 상위 타임존 라이프패턴 분석

- 패턴을 기준으로 인기사진 선정 룰 적용

■ 분석조건

- Data-Driven을 통한 인기사진 선정

- 지속적인 개선과 측정을 반복하며 서비스개선에

사용자 긍정적 반응 도출

■ 분석결과 및 시사점

글로벌 사용자를 고려한 데이터기반 인기사진 선정 인기사진 룰 변경 효과 측정

■ 분석결과

푸딩.투의 인기사진선정은 데이터분석을 통해 사용자들의 다양한 사용패턴을 통해 1차, 2차 룰을 비교해가며 A|B Test를 진행하였다. Data –Driven 을 통해 푸딩.투 활성화를 위한 인기사진 선정 룰 변경과 그 결과를 측정하는 방법으로 Data –Driven으로 적용, 측정을 반복하며, 지속적으로 개선 모델을 만들었다. 그 결과 PV, UV 증가, 푸딩.투 사용자 증가, 인기사진 선정 Pool 확대 등 긍정적인 결과를 얻었다.

인기사진에 선정되면 푸딩.투 사용자들의 인기도

함께 할 수 있다.

푸딩.투 서비스는 사진 기반의 글로벌 SNS서비스이다. 인

기사진을 통해 많은 인기와 Follower를 늘릴 수 있다. 하

지만 인기사진 선정시간(UTC)과 각 나라별 시간차가 존재

하므로 각 나라별로 다양하게 인기사진이 선정될 수 있는

다양한 데이터 분석을 통해 선정 룰을 변경하였다.

Page 17: 빅데이터 솔루션 소개서(2013년 05월)

17 ⓒ 2013 KT Hitel Corporation

5. 솔루션 분석 사례(자사)

■ 분석대상

T-커머스 매출데이터 분석 (기초고객분석부터 주문과 매출에 대한 구매패턴 분석)

- T-커머스 매출 기준 DB

- T-커머스 주문 기준 DB

- 2012.08~2013.01 전체 매출, 주문 기준

- 주문고객,매출고객 고객기초통계

- 구매패턴 추출, 관련 아이템 도출

■ 분석조건

- 고객 구매패턴을 통한 시간 별 맞춤 상품 구성 가능

- 매출,주문 고객비교를 통한 매출로 전환되지 않는

주문 고객패턴을 추출하고 문제점 도출

■ 분석결과 및 시사점

T-커머스 구매 패턴 분석 매출, 주문 고객 분석

■ 분석결과

T-커머스의 구매지불수단은 카드와 무통장으로 구분된다. 지불수단중 약 33%에 해당하는 무통장 입금은 실 구매단계로 전환하는 비율이 62%였으며, 주문취소단계로 38%였다. 무통장의 특성 상 7일 이내 입금확인이 되지 않으면, 자동으로 취소가 되는데, 고객주문이 실제 매출로 이어지기 위한 개선진단을 도출하였다.

구매패턴 분석을 통한 사용자에게 맞춤 상품 제공

하는 기초분석

T-커머스에서 판매된 상품을 기준으로 월별현황, 요일별

현황, 최다판매상품리스트, 최다,최대 구매고객, 채널별 구

매 패턴 시간 등 다양한 구매패턴 분석을 통해 시간별 상

품 배열, 검색 우선 리스트, 상품 추천에 기반데이터로 활

용한다.

Page 18: 빅데이터 솔루션 소개서(2013년 05월)

18 ⓒ 2013 KT Hitel Corporation

별첨. 기술구조도

Collection

Agent Mobile Browser (http, udp, tcp) Kafka/Flume Agent (unstructured data)

Collection

Data Store (Hadoop Cluster)

Management

Administration

Monitoring

(Ganglia/

Grapite/Nagios)

Configuration

Management

(Puppet/chef)

Batch Control

Monitoring

Dash Board

System

Log-searcher

HBASE NameNode DataNode DataNode DataNode DataNode

Speed Processing Layer

Storm Real-time Topology

Biz Logic(추천,랭킹 etc)

Workflow Mgmt

Rule Engine Scheduler History DB

Biz Logic

Visualization Layer

Chart User

Dashboard R Studio

Web

Templet

Mobile Web

Templet

Collection Biz Rule Storm Collection Topology

Kafka/Flume Cluster

Interface Layer

REST SOAP SSL TCP UDP

Serving Layer

OrientDB

(Graph DB)

Elephant

DB

(Key-Value)

Lucene OLAP

Leg

acy D

B

Leg

ac

y S

ys

tem

s (로그

기반

데이터

)

Sqoop

Coordinator Cluster Handler Cluster

Batch Processing Layer

Pig R Hive

Data Analysis Logic

Mahout OpenPDC

Page 19: 빅데이터 솔루션 소개서(2013년 05월)

19 ⓒ 2013 KT Hitel Corporation

THANK YOU!