빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym...

6
Hallym ICT Policy Journal 14 | 한림ICT정책저널 빅데이터 기술 동향 빅데이터 기술이란? 빅데이터 기술은 기존의 데이터 분석 기법에 비해 100배 이상 많은 데이터를 다루는 기술이다. 빅데이터 기술이 다루는 데이 터의 성격은 다양하다. 예를 들어 시스템 운영을 통해 산출되 는 로그 데이터와 구매기록 데이터 등의 정형 데이터 뿐만 아 니라, 소셜미디어와 위치정보, 그리고 IoT를 통해 산출되는 센 서 정보 등의 비정형 데이터까지 빅데이터 기술이 다루는 영역 은 다양하다. <표 1> 기존의 데이터 관리 방식과 빅데이터 관리 방식의 차이점 기존의 데이터 관리 방식 빅데이터 관리 방식 데이터 트래픽 테라바이트 수준 페타바이트 수준 장기간의 정보수집 및 분석 방대한 데이터 처리량 데이터 유형 정형 데이터 중심 비정형 데이터의 비중이 높음 처리의 복잡성 증대 프로세스 및 기술 단순한 프로세스 및 기술 정형화된 처리·분석 과정 원인·결과 규명 중심 다양한 데이터 소스 및 복잡한 로직 처리 데이터 처리 복잡도가 높아 분산 처리기술 필요 상관관계 규명 중심 Hadoop, R, No SQL 등 개방형 소프트웨어 활용 [자료출처] 박세환(KISTI, ReSEAT프로그램 전문위원), 빅데이터 기술 및 시장동향, 주간기술동향, 2014.7.2, pp. 16 클라우드림 이재준 이사

Transcript of 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym...

Page 1: 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym Communication Policy Research Center | 15 빅데이터 기술은 대용량의 데이터를

전략적

김광호 교수

H a l l y m I C T P o l i c y J o u r n a l

14 | 한림ICT정책저널

빅데이터 기술 동향

빅데이터 기술이란?

빅데이터 기술은 기존의 데이터 분석 기법에 비해 100배 이상

많은 데이터를 다루는 기술이다. 빅데이터 기술이 다루는 데이

터의 성격은 다양하다. 예를 들어 시스템 운영을 통해 산출되

는 로그 데이터와 구매기록 데이터 등의 정형 데이터 뿐만 아

니라, 소셜미디어와 위치정보, 그리고 IoT를 통해 산출되는 센

서 정보 등의 비정형 데이터까지 빅데이터 기술이 다루는 영역

은 다양하다.

<표 1> 기존의 데이터 관리 방식과 빅데이터 관리 방식의 차이점

구 분 기존의 데이터 관리 방식 빅데이터 관리 방식

데이터

트래픽•테라바이트 수준

•페타바이트 수준

•장기간의 정보수집 및 분석

•방대한 데이터 처리량

데이터

유형•정형 데이터 중심

•비정형 데이터의 비중이 높음

•처리의 복잡성 증대

프로세스

및 기술

•단순한 프로세스 및 기술

•정형화된 처리·분석 과정

•원인·결과 규명 중심

•‌‌다양한 데이터 소스 및 복잡한

로직 처리

•‌‌데이터 처리 복잡도가 높아 분산

처리기술 필요

•상관관계 규명 중심

•‌‌Hadoop, R, No SQL 등 개방형

소프트웨어 활용

[자료출처] 박세환(KISTI, ReSEAT프로그램 전문위원),

빅데이터 기술 및 시장동향, 주간기술동향, 2014.7.2, pp. 16

클라우드림

이재준 이사

Page 2: 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym Communication Policy Research Center | 15 빅데이터 기술은 대용량의 데이터를

Hallym Communication Policy Research Center | 15

빅데이터 기술은 대용량의 데이터를 다룰 때, 여러 과정을

거치게 되는데, 데이터 수집 및 데이터 전처리, 저장, 분석,

활용(시각화)까지의 과정을 거치게 되며 각 과정별로 핵심

기술이 존재한다. <그림 1> 참조.

빅데이터 기술의 체계적인 분류

앞에서 언급한 것과 같이 빅데이터 활용을 위한 요소기술

분야는 첫째, 빅데이터 수집 기술이라 할 수 있다. 둘째로

빅데이터 저장·관리 기술이고, 다음으로 빅데이터 전처리

기술이라 할 수 있다. 넷째로 빅데이터 분석기술을 언급할

수 있으며, 다음으로 지식 시각화 기술, 마지막으로 빅데이

터 공유기술을 빅데이터의 요소기술이라고 할 수 있다.

<그림 1> 빅데이터의 지식도출 Framework

“빅데이터 기술은 대용량의 데이터를 다룰 때, 여러 과정을 거치게 되는데,

데이터 수집 및 데이터 전처리, 저장, 분석, 활용(시각화)까지의 과정을

거치게 되며 각 과정별로 핵심 기술이 존재한다.”

Page 3: 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym Communication Policy Research Center | 15 빅데이터 기술은 대용량의 데이터를

16 | 한림ICT정책저널

<표 2> 빅데이터 요소기술 분류

요소기술 설 명 헤딩기술

빅데이터

수 집

조직 내부와 외부의 분산된 여러 데이

터 소스로부터 필요로 하는 데이터를

검색하여 수동 또는 자동으로 수집하

는 과정과 관련된 기술로 단순 데이터

확보가 아닌 검색/수집/변환을 통해

정제된 데이터를 확보하는 기술

ETL

크롤링 엔진

로그 수집기

센싱

RSS 및 Open API

빅데이터

저 장

작은 데이터라도 모두 저장하여 실시

간으로 저렴하게 데이터를 처리하고,

처리된 데이터를 더 빠르고 쉽게 분석

하도록 하여 이를 비즈니스 의사결정

에 바로 이용하는 기술

병렬 DBMS

하둡(Haddop)

NoSQL

빅데이터

처 리

엄청난 양의 데이터의 저장/수집/관

리/유통/분석을 처리하는 일련의 기술

실시간 처리

분산 병렬처리

인-메모리

인-데이터베이스 처리

빅데이터

분 석

데이터를 효율적으로 정확하게 분석

하여 비즈니스 등의 영역에 적용하기

위한 기술로 이미 여러 영역에서 활용

해온 분석 기술

통계분석

데이터 마이닝

텍스트 마이닝

예측 분석

최적화

평판분석

소셜 네트워크 분석

빅데이터

시각화

자료를 시각적으로 묘사하는 학문으

로 빅데이터는 기존의 단순 선형적 구

조의 방식으로 표현하기 힘들기 때문

에 빅데이터 시각화 기술이 필수적임

편집기술

정보 시각화 기술

시각화 도구

[자료출처] 한국정보화진흥원, 빅데이터 기술분류 및 현황, 빅데이터

전략센터, 2013. 12, pp. 07

빅데이터 수집 기술

빅데이터 수집 기술은 주로 FTP를 사용하여 로그 데이터

서버 혹은 일반 서버로부터 로그 정보와 기타 데이터 처리

에 필요한 데이터를 가져오게 된다. 그리고 빅데이터 시스

템에서의 데이터 수집은 짧은 시간에 대용량의 데이터 수

집이 일어난다.

<표 3> 빅데이터 수집 관련 기술

요소기술 설 명

로그 수집기조직 내부에 존재하는 웹 서버의 로그 수집, 웹 로드,

트랜잭션 로그, 클릭 로그, DB 로그 데이터 등을 수집

크롤링주로 웹 로봇을 이용하여 조직 외부에 존재하는 소셜

데이터 및 인터넷에 공개되어 있는 자료 수집

센싱 각종 센서를 통해 데이터를 수집

RSS Reader데이터의 생산, 공유, 참여 환경인 웹 2.0을 구현하

는 기술

스쿱

(Sqoop)

Haddop과 관계형 데이터베이스 간의 데이터 전송

을 지원하는 기술로 MySQL 같은 데이터베이스로

부터 하둡 분산 파일 시스템으로 데이터를 전송하

는데 사용

플럼

(Flume)

분산환경에서 대량의 로그 데이터를 효과적으로 수

집해 다른 곳으로 전송하는 서비스로 실시간 로그

분석이 가능하도록 함

척와

(Chukwa)

분산 서버로부터 로그 데이터를 수집하여 하둡 클러

스터의 로그나 서버의 상태정보를 관리해 하둡 파일

시스템에 저장하며 실시간 분석이 가능하도록 함

스플렁크

(Splunk)

업무 현장이나 클라우드 상에 존재하는 페타바이트

급의 기록 데이터와 실시간 기계 데이터를 모니터

링하고 분석함

스크라이브

(Scribe)

페이스북이 개발해 공개한 로그수집기술로 대량의

서버에서 실시간으로 오는 로그 데이터를 집약해

하둡 분산 시스템에 로그를 저장

카프카

(Kafka)

Linkedin에서 최초로 만들어 졌으며, 로그 데이터

를 수집할 뿐만 아니라 메시징 시스템을 통해 전송

데이터를 압축하고 메시지를 일괄적으로 전송

빅데이터 저장 기술

빅데이터 기술은 작은 데이터라도 모두 저장하여 실시간

으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠

르고 쉽게 분석하도록 하여 의사결정에 적용되도록 함에

Page 4: 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym Communication Policy Research Center | 15 빅데이터 기술은 대용량의 데이터를

Hallym Communication Policy Research Center | 17

있다. 이 때 작은 데이터라도 저장하는 기술이 나오게 되

는데, 구글이나 애플, 야후 등에 의해 요소기술로서 상당

한 완성도에 도달했다. 최근 오픈소스로 만들어진 Hadoop

의 HDFS/Hbase, Cassandra, MongoDB 등이 대표적이

다. 한국은 ETRI의 GloryFS등과 같은 분산파일 시스템이

존재한다. 병렬 DBMS와 NoSQL은 모두 대량의 데이터를

저장하기 위해 수평 확장 접근 방식을 취하고 있다는 점

에서 Hadoop과 유사하다. 이 외에도 SAN(Storage Area

Network) 기술과 NAS(Network Attached Storage)와 같

은 네트워크를 활용한 저장기술이 존재하며, GFS(Google

File System)과 HDFS(Hadoop Distributed File System),

GlusterFS 등의 분산 파일 시스템이 모두 대량의 데이터를

저장하기 위해 활용하는 기술이라 하겠다.

빅데이터 처리 기술

빅데이터에서 유용한 정보 및 숨어있는 지식을 찾아내기

위한 데이터 가공 및 분석 과정을 지원하는 것이 빅데이터

처리 기술이다. 대규모 데이터 처리를 위해 확장성, 데이터

생성 및 처리속도를 해결하기 위한 처리시간 단축 및 실

시간 처리 지원, 비정형 데이터 처리 지원 기술 등이 필요

하다. 대표적으로 Haddop은 분산파일 시스템인 HDFS와

MapReduce로 구현된 빅데이터 처리 기술이다. <그림 2>

참조.

빅데이터 분석 기술

빅데이터 분석은 대량의 데이터로부터 숨겨진 패턴과 알

려지지 않은 정보 간의 관계를 찾아가는 과정이다. 이미

비즈니스 영역과 인공지능 영역에서 수없이 많은 분석 방

법들이 도출되어 왔다. 데이터마이닝 기술 및 Business

Intelligence, 예측 분석 기법들이 빅데이터 분석을 위해서

활용되고 있다.

<그림 2> Hadoop의 분산파일 시스템(HDFS) 처리구조

Page 5: 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym Communication Policy Research Center | 15 빅데이터 기술은 대용량의 데이터를

18 | 한림ICT정책저널

<표 4> 빅데이터 분석관련 기술

분석기법 설 명

데이터

마이닝

OLAP

DSS의 대표적 사례로 사용자가 동일한 데이

터를 여러 기준을 이용하는 다양한 방식으로

바라보면서 다차원 데이터 분석 지원

군집분석

데이터 안에 존재하는 알지 못하는 특성들이

있을 때, 데이터 점들이 군집을 이루면서 특성

이 나타나는 상황을 분석하고, 유사성을 기초

로 하여 그룹화 하여 그룹간의 분리정도를 기

준으로 분류하는 방법

연결분석 항목들 간의 관련성을 분석하는 형태의 도구

데이터

마이닝

사례기반

추론

귀납법 및 유추법과 유사한 개념으로 과거

유사한 문제의 해결과정에 기초하여 새로운

문제를 해결하는데 과거 사례를 활용하는 방법

연관성

분석

특정의 아이템 집합에서 발생한 연관성의

특징을 다른 특정 아이템에서 발견하여 연관

성을 분석하는 방법

인공

신경망

뇌기능의 특성 몇 가지를 컴퓨터 시뮬레이션

으로 표현하는 방식으로 비교적 작은 계산량

의 분석에서 활용

의사결정

나무

의사결정 규칙을 도표화하여 관심대상 집단을

소집단으로 분류하거나 예측을 수행하는 방법

으로 인공지능 및 기계학습 분야에서 활용하

고 있으며, 통계학에서는 CART 및 CHAID 알

고리즘이 활용됨

유전자

알고리즘

생물의 유전과 진화 매커니즘을 공학적으로

모델링하여 문제해결이나 시스템의 학습 등

에 응용하는 것으로 계산 모델을 프로그래밍

하여 문제 해결을 위한 전략을 수립하고 적용

텍스트 마이닝

구조화 되지 않은 대규모의 텍스트 집합으로

부터 새로운 지식을 발견하는 과정으로 텍스

트 문서 전처리 및 패턴분석 등의 단계를 가지

며 순환구조로써 계속적인 피드백을 수행

데이터마이닝 기술과 텍스트 마이닝 기술 이외에도, 시계

열 분석기법을 활용하는 예측 분석방법과, 여러 가지 제시

된 대안 중에 최적의 대안을 찾도록 지원하는 최적화 기법

(heuristic analysis) 등이 있으며, 소셜 네트워크 연결구조

및 연결강도를 분석하여 영향력을 판단하는 소셜 네트워

크 분석 등이 활용되고 있다.

특히 소셜네트워크 분석은 수학의 그래프 이론에 뿌리를

두고 있다.

빅데이터 시각화 기술

데이터 시각화는 데이터 분석결과를 쉽게 이해할 수 있도

록 시각적인 수단으로 정보를 전달하는 과정을 의미한다.

데이터 값을 단순화하여 그림 또는 그래프 형태로 보여줌

으로써 데이터 분석 결과를 쉽게 이해할 수 있도록 하고,

핵심 개념과 아이디어를 효과적으로 전달하는 기술이다.

Page 6: 빅데이터 기술 동향 - ict.hallym.ac.krict.hallym.ac.kr/webzine/02/02.pdf · Hallym Communication Policy Research Center | 15 빅데이터 기술은 대용량의 데이터를

Hallym Communication Policy Research Center | 19

<표 5> 정보 시각화 관련 기술

요소기술 설 명

시간 시각화

특정시점 또는 특정 시간의 구간 값을 표현

ex) 막대 그래프와 누적 막대 그래프 또는 점

그래프 등

분포 시각화

전체의 부분에 해당하는 분포를 최대, 최소, 전체

분포를 나타내는 그래프로 전체의 관점에서 각 부

분간의 관계를 보여주는 기술

ex) 파이차트, 도넛차트, 누적 막대 그래프 등

관계 시각화각기 다른 변수 사이에서 관계를 찾는 기술

ex) 버블차트, 스템 플롯, 히스토그램 등

비교 시각화

여러 변수의 비교 방법

ex) 히트맵, 체르노프 페이스, 스타차트, 평행좌표

그래프 등

공간 시각화

점이 찍힌 지도, 선을 그린 지도, 버블을 그린 지도

등으로 색상과 크기를 공간에 대입하여 표현

ex) 점지도, 도형 표현도, 단계 구분도, 등치선도,

유선도 등

인포그래픽

(Infographic)

인포메이션과 그래픽의 합성어로 다량의 정보를

차트, 지도, 다이어그램, 로고, 일러스트레이션 등을

활용하여 한눈에 파악할 수 있도록 하는 디자인