빅데이터의 동향과 · 2015. 4. 1. · 중복 제거와 데이터 압축: ... 데이터...

KOSEN Expert Review

http://www.kosen21.org/

Copyright ⓒ 2015 KOSEN All rights reserved.

페이지 1/12

빅데이터의 동향과 전망

김양석 (University of Tasmania)

분석자 서문

빅데이터는 기존의 데이터처리 방법으로 처리할 수 없는 대규모 데이터를 지칭한다. 최근 다

양한 분야에서 이전에 경험할 수 없었던 엄청난 양의 빅데이터를 수집할 수 있게 되었다. 빅데이

터는 적절한 처리와 분석을 거치면 의사결정과 지식서비스를 제공하는데 필요한 유용한 정보와

지식을 추출할 수 있기 때문에 중요하다. 본 보고서는 빅데이터의 배경과 빅데이터의 배경과 최

신 기술 동향에 대한 최신 경향을 제공한다. 본 보고서는 먼저 빅테이터의 일반적 배경과 클라우

드 컴퓨팅, 사물인터넷, 데이터 센터, 하둡 같은 관련 기술을 검토하고, 데이터 생성, 데이터 수집,

데이터 저장 장치, 데이터 분석 등 빅데이터 가치 사슬의 네 단계에 관련된 기술에 대해 설명한

다. 빅데이터는 기업 경영, 사물인터넷, 온라인 소셜 네트워크, 의료 애플리케이션, 집단 지성, 스

마트 그리드 등의 애플리케이션 개발에 사용될 수 있다. 빅데이터 관련 기술은 최근 집중적인 조

명을 받고 있지만 아직도 해결해야 할 많은 문제들이 있다. 본 보고서는 현재 당면한 문제와 미

래 방향에 대한 논의를 결론으로 제시할 것이다.

Key words: Big data, big data value chain, big data applications, big data analytics, 빅데이터, 빅데이터

가치 사슬, 빅데이터 애플리케이션, 빅데이터 분석

1. 배경

1.1. 빅데이터 시대의 도래

최근 다양한 분야에서 데이터가 대규모

로 증가하였다. 빅데이터는 전통적 데이터베

이스 소프트웨어에 의해 수집, 저장, 관리할

수 없는 데이터를 말한다. 빅데이터는 실시간

분석을 필요로 하는 구조화되지 않은 데이터

(unstructured data)를 말하며, 새로운 가치를 발

견할 수 있는 기회를 제공하고 이전에 알려지

지 않았던 가치를 심도 깊게 이해할 수 있게

한다는 점에서 중요하다 [1]. 하지만 빅데이터

애플리케이션의 개발에 있어 다음과 같은 어

려움이 존재한다[2, 3, 4].

데이터 표현: 많은 데이터 세트는 유형, 구

조, 의미, 조직, 균일성, 접근성 등에 있어

서로 다르다. 데이터 표현은 컴퓨터 분석

과 사용자 해석에 더 의미 있는 데이터를

생성하는 것을 목표로 한다. 적절하지 않

은 데이터 표현은 원본 데이터의 가치를

감소시키며 심지어 효율적 데이터 분석을

어렵게 할 수 있다.

중복 제거와 데이터 압축: 일반적으로 데이

터 세트에는 높은 수준의 중복이 존재한

다. 중복 제거와 데이터 압축은 데이터의

잠재적 가치에 양향을 주지 않으면서 전

체 시스템의 간접 비용을 효율적으로 절

감할 수 있게 한다.

데이터 라이프 사이클 관리: 빅데이터는 이

전에는 존재하지 않았던 속도와 규모로

생성된다. 이는 많은 문제를 초래하는데,

그중 하나는 현재 저장 시스템이 그런 대

규모 데이터를 지원할 수 없다는 점이다.

일반적으로 빅데이터에 숨겨진 가치는 데

이터의 신선성에 의존하는데, 이는 어떤

데이터가 저장되고 어떤 데이터를 버려야

하는지를 결정하는 것과 관련되어 있다.

분석 매커니즘: 빅데이터 분석 시스템은 제

한된 시간 내에 대규모의 이질적 데이터

를 처리할 수 있어야만 한다. 전통적인


KOSEN Expert Review



페이지 2/12

데이터베이스는 규모성과 확장성을 고려

하지 않았기 때문에 이런 요구에 부응할

수 없다. 비관계적 데이터베이스는 구조

화되지 않은 데이터 처리에 특별한 장점

을 보여왔으며, 빅데이터 분석에 주류가

되기 시작하였다.

데이터 보안: 대부분의 빅데이터 서비스 제

공자 또는 보유자는 그들의 제한된 역량

때문에 대규모 데이터 세트를 효율적으로

유지하고 분석할 수 없다. 따라서 그런

데이터를 분석할 수 있는 전문가 또는 도

구에 의존하게 되는데, 이는 잠제적 보안

위험을 증가시킨다.

에너지 관리: 메인 프레임 컴퓨팅 시스템의

에너지 소비는 경제와 환경 측면에서 많

은 주목을 받았다. 데이터의 양과 분석적

수요의 증가에 따라 빅데이터의 처리, 저

장, 전송은 더 많은 전기에너지를 필연적

으로 소모하게 될 것이다. 따라서 시스템

수준의 전력 소비 통제와 관리 메커니즘

의 확장성과 접근성이 확보되어야 한다.

확장성과 규모성: 빅데이터의 분석 시스템

은 현재와 미래 데이터 세트를 지원해야

만 한다. 분석 알고리즘은 점진적으로 증

가하고 더 복잡한 데이터 세트를 처리할

수 있어야만 한다.

협력: 빅데이터 분석은 학제적 연구로 빅데

이터의 잠재성을 확보하기 위해 다른 영

역에 있는 전문가들의 협력을 필요로 한

다. 완전한 빅데이터 네트워크 아키텍처

는 다양한 분야에 있는 과학자들과 엔지

니어를 돕기 위해 구축되어야 하고 그들

의 전문성을 충분히 확보해서 분석 목적

을 완수하도록 협력하여야 한다.

2. 빅데이터 관련 기술

2.1. 클라우드 컴퓨팅

클라우드 컴퓨팅의 주요 목표는 집중화

된 관리하에 대규모 컴퓨팅과 저장 자원을 사

용하여 빅데이터 애플리케이션에 정밀한 컴퓨

팅 역량을 제공하려는 것을 목표로 한다. 따

라서 클라우드 컴퓨팅의 발전은 빅데이터 저

장과 처리 솔루션을 제공한다[5, 6].

클라우드 컴퓨팅과 빅데이터 간에는 많

은 중복된 기술이 있지만, 다음의 두 가지 관

점에서 다르다. 첫째, 클라우드 컴퓨팅은 IT

아키텍처를 변환시키지만 빅데이터는 비즈니

스 의사 결정에 영향을 준다. 둘째, 빅데이터

와 클라우드 컴퓨팅은 서로 다른 고객을 목표

로 한다. 클라우드 컴퓨팅은 최고정보책임자

를 목표로 하지만, 빅데이터는 최고경영책임

자를 목표로 한다.

빅데이터와 클라우드 컴퓨팅의 발전은

서로 분명하게 점진적으로 융합하게 된다. 클

라우드 컴퓨팅은 시스템 수준의 자원을 제공

하지만, 빅데이터는 클라우드 컴퓨팅에 의해

지원되는 상위 수준에서 운영되고 데이터베이

스와 유사한 기능과 효율적인 데이터 처리 역

량을 제공한다. EMC 사장인 키싱어(Kissinger)

는 빅데이터 애플리케이션이 클라우드 컴퓨팅

에 기반을 두어야 한다고 지적하였다.

2.2. 사물인터넷

사물인터넷(Internet of Things, 이하 IoT)에

서 엄청난 양의 네트워킹 센서들은 현실에서

모바일 장치, 운송 설비, 공공 설비, 가전 제

품 등의 다양한 장치와 기계에 삽입되어 환경

데이터, 지리 데이터, 우주 데이터, 물류 데이

터와 같은 다양한 데이터를 수집할 수 있게

한다. 비록 현재는 IoT 데이터가 빅데이터의

주요한 부분은 아니지만, 향후에는 IoT 데이터

가 빅데이터의 가장 중요한 부분이 될 것이다.

현재 IoT 의 데이터 처리 역량은 수집된 데이

터에 비해 취약하기 때문에, IoT 의 발전을 촉

진하는 빅데이터 기술의 발전이 필요하다. 다

른 한편으로 IoT 의 폭넓은 발전은 양과 유형

에 있어 데이터의 높은 성장을 촉진해서 애플

리케이션과 빅데이터의 발전을 위한 기회를

제공할 것이다[7].

2.3. 데이터 센터

빅데이터의 출현은 데이터 센터에 안정

적인 개발 기회와 엄청난 도전을 가져왔다.


KOSEN Expert Review



페이지 3/12

빅데이터의 성장은 데이터 센터의 진화와 혁

신을 촉진한다. 데이터 센터는 빅데이터 지원

을 위해 저장, 네트워크, 컴퓨팅 기술 등의 발

전을 촉진하여야 하고, 대규모 데이터를 처리

할 수 있는 역량을 개선해야 하며, 데이터 센

터의 운영 비용을 감소하는 방안을 수립하여

야 한다. 빅데이터 패러다임에서 데이터 센터

는 하드웨어 장비뿐만 아니라 강화된 소프트

역량을 보유하여야 한다. 데이터 센터는 비즈

니스 인력이 현존하는 데이터를 분석하는 것

을 돕고, 비즈니스 운영에 있어 문제를 발견

하고, 빅데이터로부터 솔루션을 개발할 것을

도와야 한다.

2.4. 하둡

현재 하둡은 업계에서 스펨 필터링, 네트

워크 검색, 클릭 스트림 분석, 소셜 추천 등의

빅데이터 애플리케이션에 가장 폭넓게 사용된

다. 또한 많은 연구가 하둡에 기반을 두고 있

다[8]. 야후, 페이스북 등은 하둡을 활용한 빅

데이터 애플리케이션을 운영하고 있고,

Cloudera, IBM, MapR, EMC, Oracle 등은 하둡을

확장한 상업용 솔루션을 제공한다.

3. 빅데이터 생성과 수집

빅데이터 가치 사슬은 일반적으로 데이

터 생성, 데이터 획득, 데이터 저장, 데이터

분석의 네 단계로 분리된다.

3.1. 빅데이터 생성

데이터 생성은 빅데이터의 첫 단계다. 인

터넷을 예를 들어보면 검색어, 포럼 게시글,

채팅 기록, 마이크로 블로그 메시지 등이 생

성된다. 이런 데이터는 사람들의 일상생활과

밀접한 관계가 있으며, 전체적 가치는 높지만

개별적으로는 가치가 적다는 특징이 있다. 그

렇지만 축적된 빅데이터의 탐사를 통해 사용

자의 습관과 취미 같은 유용한 정보를 얻을

수 있다. 더 나아가 장기 또는 분산 데이터

소스를 통해 생성된 데이터 세트는 더 규모가

크고, 다양하며, 복잡한 데이터가 된다. 그런

데이터 소스는 센서, 비디오, 클릭 스트림 등

을 포함한다. 현재 빅데이터의 주요한 원천은

기업의 운영과 거래 정보와 IoT 에서의 물류

와 센서 정보, 인터넷에서 인간 상호작용 정

보와 위치 정보, 과학 연구에서 생성된 정보

등을 포함한다.

기업 데이터: 2013년에 IBM은 기업의 내부

데이터가 빅데이터의 주요 원천이라고 보

고했다. 기업의 내부 데이터는 온라인 거

래 데이터와 온라인 분석 데이터로 주로

구성된다. 또한 생산, 재고, 판매, 재무 데

이터 등도 기업의 내부 데이터를 구성하

는데, 기업의 정보화와 데이터에 기인한

행위를 포착하는 것을 목표로 한다. 지난

수십 년 동안 기업 데이터는 기업의 이익

을 개선하는 데 많은 기여를 했다.

IoT 데이터: IoT의 네트워크 아키텍처는 센

싱 계층, 네트워크 계층, 애플리케이션 계

층으로 구분할 수 있다. 센싱 계층은 데

이터 획득에 대해 책임이 있고 주로 센서

네트워크로 구성된다. 네트워크 레이어는

정보 전송과 처리에 대한 책임을 지며,

근접 전송은 센서 네트워크에 의존하고

원격 전송은 인터넷에 의존한다. 애플리

케이션 계층은 IoT 의 특별한 애플리케이

션을 지원한다. IoT 로 생성되는 데이터는

다음의 특징이 있다. 첫째, IoT 에서 대규

모 데이터 획득 장치가 분산되어 구현되

어서 간단한 숫자 데이터를 수집하는 데

사용된다. 데이터 분석과 처리 수요를 맞

추기 위해 현재 수집되는 데이터뿐만 아

니라 일정한 시간 안에 있는 과거의 데이

터를 저장해야 한다. 따라서, IoT 에 의해

생성된 데이터는 대규모 데이터란 특성을

가진다. 둘째, 다양한 데이터 획득 장치

때문에 획득된 데이터가 다르고 그러한

데이터는 상이성을 갖는다. 셋째, IoT에서

모든 데이터 수집 장치는 특별한 장소에

놓여지고, 모든 데이터는 시간 정보를 갖

고 있다. 따라서 시간과 공간 상관관계는

IoT 로부터 얻어지는 데이터의 중요한 속

성이다. 넷째, IoT 에서는 대량의 잡음이

데이터의 수집과 전송 시 발생할 수 있다.


KOSEN Expert Review



페이지 4/12

다섯째, 획득 장치로부터 수집된 데이터

세트는 소량의 비정상적 데이터가 가치가

있다. 예를 들어 교통 비디오의 축적 중

에 교통법규를 위한 장면을 캡쳐한 적은

비디오 프레임이 정상적인 교통 상황을

보이는 것보다 가치 있다.

바이오메디컬 데이터: 바이오메디컬 장비는

21세기 초부터 혁신적으로 발전되어왔다.

바이오메디컬 애플리케이션을 위한 지능

적이고 효율적이며 정확한 분석 모델과

이론적 시스템을 구축하여 복잡한 생물학

적 현상 뒤에 있는 중요한 통제 메커니즘

을 발견할 수 있다. 인간 게놈 프로젝트

의 완료와 시퀀싱(sequencing) 기술의 지

속적인 발전으로 이 영역에서 빅데이터

애플리케이션이 폭넓게 확산되었다. 임상

치료와 의료 연구 개발로부터 생성된 데

이터 또한 급속히 증가하고 있다. 구글,

마이크로소프트, IBM 같은 회사들은 생물

학적 빅데이터와 관련된 연구와 전산 분

석에 투자를 하고 있다.

기타 다른 분야에서의 데이터 생성: 과학

애플리케이션의 증가함에 따라 데이터 세

트의 규모가 점차적으로 증가하고 있고,

생리학, 우주학, 에너지 물리학 등의 학문

분야는 그 발전을 빅데이터 분석에 의존

하고 있다.

3.2. 빅데이터 수집

빅데이터 수집은 데이터 수집, 데이터 전

송, 데이터 전처리 등을 포함한다. 빅데이터

수집 동안에 일단 원시 데이터가 수집되면,

서로 다른 분석 애플리케이션을 지원하는 적

절한 저장 관리 시스템에 그것을 전송할 수

있는 효율적 전송 메커니즘을 구현하여야 한

다. 수집된 데이터 세트는 때때로 중복되거나

필요없는 데이터를 포함하는데, 이것은 불필

요한 저장 공간을 증가시키고 결과적으로 데

이터 분석에 부정적 영향을 미친다. 데이터

압축 기술은 중복을 감소시키기 위해 적용될

수 있으며 데이터 전처리 작업은 효율적 데이

터 저장과 이용을 확보하는 데 필수적이다.

3.2.1. 데이터 수집

데이터 수집은 데이터 생성 환경하에 따

라 원시 데이터를 축적하기 위해 적합한 데이

터 수집 기술을 구현한다. 로그 파일은 데이

터 소스 시스템에 의해 자동적으로 생성된 기

록 파일로 분석을 위해 설계된 파일 포맷으로

활동을 기록한다. 로그 파일은 일반적으로 거

의 모든 디지털 장치에 사용된다. 웹 사이트

에서 사용자의 행동을 포착하기 위해 로그 파

일을 사용할 수 있다. 센서는 물리적 양을 측

정하고 그것을 처리하기 위해 읽을 수 있는

디지털 신호로 변환하여 일상에 사용된다. 센

서 데이터는 음파, 목소리, 진동, 운동, 화학,

날씨, 압력, 기온 등으로 구분될 수 있다. 감

지된 정보는 유/무선 네트워크를 통해 데이터

수집 포인트로 전송된다. 현재 네트워크 데이

터 수집 기술은 전통적인 Libpcap 기반 패킷

캡처 기술, Zero-copy 패킷 캡처 기술,

Wireshark, SmartSniff, WinNetCap 같은 특화된

네트워크 모니터링 소프트웨어 등이 있다.

Libpcap 기반 패킷 캡처 기술: Libpcap 은

네트워크 데이터 패킷 캡처 기능 라이브

러리로 많이 사용된다. 이것은 어떤 특별

한 시스템에 의존하지 않고 데이터 링크

계층에서 데이터를 수집하기 위해 주로

사용된다. 이것은 간단하고, 사용하기 편

리하며 다른 시스템 간에 잘 이식되지만,

비교적 효율성이 낮다. 따라서 고속 네트

워크 환경에서는 Libpcap 을 사용할 경우

상당한 패킷 손실이 발생할 수 있다.

Zero-copy 패킷 캡쳐 기술: Zero-copy 는 패

킷을 송/수신할 때 내부 메모리 간에 어

떤 복사도 발생하지 않는다는 것을 의미

한다. 전송 시에는 데이터 패킷이 애플리

케이션의 사용자 버퍼로부터 직접적으로

시작되고 네트워크 인터페이스를 통과하

여 외부 네트워크에 도착한다. 수신 시에

는 네트워크 인터페이스가 사용자 버퍼에

직접 데이터 패킷을 전송한다. Zero-copy

의 기본 아이디어는 데이터 복사 시간을

감소시키고, 시스템 호출을 감소시키며,


KOSEN Expert Review



페이지 5/12

중앙처리장치의 하중을 감소시키는 것이

다.

모바일 장치: 현재 모바일 장비가 폭넓게

사용되고 있다. 모바일 장비 기능이 점점

더 강력해져서, 다양한 데이터뿐만 아니

라 더 복잡하고 다양한 수단을 제공한다.

모바일 장치는 위치 시스템을 통해 지리

정보를 획득할 수 있고, 마이크로폰을 통

해 오디오 정보를 획득할 수 있으며, 카

메라를 통해 사진, 비디오, 거리 사진, 이

차원 바코드, 기타 멀티미디어 정보를 수

집할 수 있고, 터치스크린이나 중력 센서

를 통해 사용자의 몸동작과 몸 언어 정보

를 습득할 수 있다. 수십 년 동안 무선

운영자들은 그런 정보를 수집하고 분석하

여 모바일 인터넷의 서비스 수준을 개선

하여왔다.

3.2.2. 데이터 전송

원시 데이터가 수집되면, 처리 또는 분석

을 위해 데이터 저장 인프라로 전송된다. 데

이터 전송은 데이터 센터 간 전송(Inter-DCN

transmissions)과 데이터 센터 내 전송(Intra-DCN

transmissions) 등으로 구성되어 있다.

데이터 센터 간 전송: 데이터 센터 내 전송

은 데이터 소스로부터 데이터 센터 간에

발생하며, 일반적으로 현존하는 물리적

네트워크 인프라를 사용한다. 트래픽 수

요의 급속한 증가 때문에 물리적 네트워

크 인프라는 고용량, 고전송율, 비용 효율

적인 광 전송 시스템에 의해 구성되었다.

지난 20 년 동안 관리 장비와 기술은 지

속적으로 발전되어 왔다. IP 기반 파장분

할다중화(wavelength division multiplexing:

WDM) 네트워크, 직교주파수분할다중화

(orthogonal frequency-division multiplexing:

OFDM) 등이 그러한 예이다.

데이터 센터 내 전송: 데이터 센터 간 전송

은 데이터 센터 내에서 데이터 통신 흐름

이다. 데이터 센터 내 전송은 데이터 센

터 내에 통신 메커니즘(예, 데이터 서버

의 물리적 연결 플레이트, 칩, 내부 메모

리, 데이터 센터의 네트워크 아키텍처, 통

신 규약 등)에 의존한다. 데이터 센터는

내부 연결 네트워크로 서로 연결된 다수

의 통합된 서버 렉으로 구성된다. 오늘날

대부분의 데이터 센터의 내부 연결 네트

워크는 다양한 유형의 네트워크를 기반으

로 한 2 계층 또는 3 계층 구조이다. 최근

에 데이터 센터를 위한 많은 광 네트워크

가 제안되었다. 네트워크 가상화는 데이

터 센터 네트워크의 효율과 용도를 개선

할 것으로 기대된다.

3.2.3. 데이터 전처리

데이터 원천의 다양성 때문에 수집된 데

이터 세트는 잡음, 중복, 일관성 등의 측면에

서 다양하다. 의미 없는 데이터를 저장하는

것은 소모적인 일이며, 데이터 품질은 데이터

분석에 심각하게 영향을 미친다. 따라서 효율

적인 데이터 분석을 가능하게 하기 위해서는

데이터 전처리를 통해 서로 다른 데이터 원천

으로 수집된 데이터를 통합하여야 한다. 다음

과 같은 데이터 전처리 프로세스 기술이 사용

된다.

통합: 데이터 통합은 현대 사업용 정보 처

리에 초석으로 서로 다른 소스로부터 수

집된 데이터를 결합하여 데이터에 대한

통일된 관점을 사용자에게 제공한다. 이

분야는 전통적 데이터베이스 분야에서 성

숙한 분야로 데이터 웨어하우스(data

warehouse)와 데이터 페더레이션(data

federation)이라는 방법이 있다. 데이터웨

어하우스는 서로 다른 데이터베이스 시스

템에 축적된 데이터를 공통의 데이터로

변환해서 관리하는 데이터베이스를 말한

다. 데이터 웨어하우스는 ETL(추출, 변환,

로드)이라 불리우는 프로세스를 포함한다.

데이터 패더레이션은 메타 데이터베이스

의 일종으로 다수의 데이터베이스를 단일

의 가상데이터베이스로 맵핑하는 기술이

다. 가상데이터베이스는 실제 데이터를

포함하고 있지 않으며, 실제 데이터의 위

치와 관련된 정보 또는 메타데이터를 포


KOSEN Expert Review



페이지 6/12

함하고 있다. 이런 접근 방법은 데이터

흐름 또는 검색 프로그램과 애플리케이션

의 고성능 요구 사항을 만족시키지 못한

다는 한계가 있다.

정제: 데이터 정제(data cleansing)는 부정확

하고, 불완전하며, 논리적이지 않은 데이

터를 찾아서 데이터 품질을 향상시키기

위해 변경하거나 삭제한다. 일반적으로

데이터 정제는 오류 유형 정의와 결정,

오류 검색과 식별, 오류 수정, 오류 사례

와 오류 유형 문서화, 미래 오류를 감소

시킬 수 있는 데이터 입력 절차 수정 등

다섯 가지 보완적 과정을 포함한다. 데이

터 정제는 데이터 일관성을 유지하는 데

가장 중요한 기술이다. 데이터의 일관성

은 은행, 보험, 소매업, 통신, 교통 통제

등과 같은 많은 분야에 폭넓게 적용된다.

중복 제거: 데이터의 중복은 데이터의 반복

또는 공급 과잉을 말하며, 많은 데이터

세트에서 발생한다. 데이터 중복은 불필

요한 데이터 전송 비용을 증가시킬 수 있

고 저장 시스템에 결함(예, 저장 공간의

소모, 데이터 불일치, 데이터 신뢰성 감소,

데이터 손상 등)을 일으킬 수 있어 중복

감지, 데이터 필터링, 데이터 압축 같은

다양한 중복 제거 방법이 제안되었다. 그

러나 중복 감축은 또한 부정적 효과를 초

래할 수 있기 때문에 중복 감축의 이익과

비용의 균형에 신경을 써야 한다. 이미지

와 비디오 형태의 데이터는 시간적 중복,

공간적 중복, 통계적 중복, 감지 중복 등

의 상당한 중복이 있다. 일반적인 데이터

전송 또는 저장에서 반복되는 데이터 제

거는 특별한 데이터 압축 기술을 활용해

제거한다. 중복된 데이터 삭제는 저장 요

구를 많이 축소시키는데, 이것은 특별히

빅데이터 저장 시스템에 중요하다. 데이

터 세트의 다양성을 고려하면, 단일 데이

터 전처리 과정과 기술을 개발하는 것은

쉽지 않은 일이다. 특별한 특성, 문제, 성

과 요구 사항, 데이터 세트의 기타 요소

가 고려되어야만 적절한 데이터 전처리

전략을 선택할 수 있다.

4. 빅데이터 저장

빅데이터의 폭발적 성장은 저장과 관리

에 특별한 주의를 필요로 한다. 빅데이터 저

장에 있어서는 대규모 저장 시스템, 분산 저

장 시스템, 빅데이터 저장 메커니즘 등이 중

요한 고려 요인이다.

4.1. 대용량 데이터 저장 시스템

대용량 데이터 수요를 충족시키는 다양

한 저장 시스템이 있다. 현존하는 시스템은 직

접 연결 저장 장치(DAS: Direct Attached Stoage)

와 네트워크 저장 장치(network storage)로 구

분할 수 있으며, 후자는 네트워크 연결 저장

장치(NAS: Network Attached Storage)와 저장 영

역 네트워크(SAN: Storage Area Network)로 세

분화할 수 있다.

직접 연결 저장 장치에서는 다양한 하드

디스크가 서버에 직접적으로 연결되고 데이터

관리는 서버 중심적이어서 저장 장치는 주변

장치이고, 각각은 일정량의 입출력 자원을 소

비하며 각각의 애플리케이션 소프트웨어에 의

해 관리된다. 이런 이유로 직접 연결 저장 장

치는 소규모의 서로 연결된 서버에만 적합하

지만, 저규모성 때문에 직접 연결 저장 장치

는 저장 용량이 증가할 때 효율성이 낮다. 따

라서 직접 연결 저장 장치는 주로 개인 컴퓨

터와 소규모 서버에 사용된다.

네트워크 저장장치는 사용자들에게 데이

터 접근과 공유에 대한 통합 인터페이스를 제

공하기 위해 네크워크를 구현하는 것이다. 네

트워크 저장 장치는 특별한 데이터 교환 장비,

디스크 어레이, 데이프 라이브러리, 기타 저장

매체를 포함한다. 네트워크 저장 장치는 강력

한 확장성으로 특징지어진다. 네트워크 연결

저장 장치는 실제로 네트워크의 부가적 저장

장치로, TCP/IP 프로토콜을 통해 허브 또는 스

위치로 네트워크에 직접 연결된다. 네트워크

연결 저장 장치에서 데이터는 파일의 형태로

전송되며, 직접 연결 저장 장치와 비교해서 네

트워크 연결 저장 장치의 서버에서 입출력 부

하는 서버가 네트워크를 통해 간접적으로 저

장 장치에 접근하기 때문에 감소한다.


KOSEN Expert Review



페이지 7/12

네트워크 연결 저장 장치는 네트워크 지

향적인 반면, 저장 영역 네트워크는 확장할

수 있고 대역 집약적인 네트워크(예, 광섬유

연결된 고속 네트워크)로 데이터를 저장하기

위해 설계되었다. 저장 영역 네트워크에서는

내부 노드들 간에 다중 경로가 최대 수준의

데이터 공유와 데이터 관리가 가능하도록 구

현되어 데이터 저장 관리가 저장 근거리 통신

망 안에서 비교적 독립적이다.

4.2. 분산 저장 시스템

대규모 데이터를 저장하기 위한 분산 시

스템을 사용하기 위해 다음 요인을 고려해야

한다.

일관성: 하나의 분산 저장 시스템은 데이터

를 협력적으로 저장하기 위한 다수 서버

를 필요로 한다. 더 많은 서버들이 있을

수록 서버 오류의 확률은 증가할 것이다.

일반적으로 데이터는 서버 오류 발생시

가용성의 확보를 위해 다수의 조각으로

분리되어 서로 다른 서버에 저장된다. 그

러나 이런 접근 방법은 같은 데이터의 복

제본이 서로 다를 수 있다는 문제를 초래

한다. 일관성은 같은 데이터의 다수 복제

본 간의 동일성의 확보를 목표로 한다.

가용성: 분산 저장 시스템은 다수의 서버에

운영된다. 더욱더 많은 서버가 사용됨에

따라 서버 오류를 피할 수 없다. 부분적

인 서버 오류가 발생하더라도 전체 시스

템은 읽기와 쓰기라는 관점에서 고객의

요구를 만족시키는 데 심각하게 영향을

받지 말아야 한다. 이런 속성을 가용성이

라 한다.

분할 허용성(partition tolerance): 분산 저장

시스템 내의 다중 서버는 네트워크로 연

결된다. 네트워크는 링크 또는 노드 장애

와 일시적 정체가 발생할 수 있다. 분산

시스템은 네트워크 장애에 의해 발생하는

문제에 일정 수준의 허용성을 가져야만

한다. 분산 저장은 네트워크가 분할될 때

잘 작동하는 것이 바람직하다.

에릭 브루어는 분산 시스템이 일관성, 가

용성, 분할 가능성에 관한 요구를 동시에 만

족시킬 수 없고, 세 요구 사항 중에 두 가지

만 동시에 만족시킬 수 있다는 CAP 이론을

제안했다. Gilber 와 Lynch 는 2002 년 이 이론

의 정확성을 증명했다[9]. 분할 가용성을 고려

하지 않는 CA 시스템은 네트워크 오류를 관

리할 수 없어서 많은 서버에 사용하기 위해

확장할 수 없기 때문에, 대부분의 대규모 저

장 시스템은 가용성을 고려하지 않은 CP 또

는 일관성을 고려하지 않는 AP 시스템을 채

용한다. CP 시스템은 적절한 부하가 있지만

데이터 정확성에 대해 엄격한 요구가 필요한

경우 사용된다. BigTable 과 HBases 가 대표적

인 CP 시스템이다. AP 시스템은 일관성을 확

보하기 때문에 정확한 데이터는 일정 시간이

지난 후에 확보될 수 있다. 따라서 AP 시스

템은 엄격한 실시간 요구가 없는 상황에 사용

된다. Dynamo와 Cassandra는 대표적인 AP 시

스템이다.

4.3. 빅데이터 저장 메커니즘

빅데이터 저장 메커니즘은 파일 시스템,

데이터베이스, 프로그래밍 모델 등의 세 가지

로 구분할 수 있다.

파일 시스템은 상위 수준에서 애플리케

이션의 기반이다. 구글의 GFS 는 대규모, 분

산, 데이터 집약적 애플리케이션을 지원하는

확장 가능한 파일 분산 시스템이다. GFS 가

갖는 단점은 Colossus 에 의해 극복되었다[10].

HDFS 와 Kosmosfs 는 GFS 의 오픈소스 제품

이다. 마이크로소프트는 검색과 광고 비즈니

스를 지원하기 위해 Cosmos 를 개발하였고,

페이스북은 대규모의 작은 크기의 사진을 저

장하기 위해 Haystack 을 사용하였다. 타오바

오는 TFS와 FastDFS를 개발하였다.

전통적인 관계형 데이터베이스는 빅데이

터의 도전을 충족시킬 수 없다. NoSQL 데이

터베이스는 빅데이터 저장을 위한 인기 있는

수단이 되었다. NoSQL 데이터베이스는 유연

한 모드, 간단하고 쉬운 복제, 간단한 API, 일

관성, 대규모 데이터 지원 등의 특성을 지닌

다. NoSQL 데이터베이스는 빅데이터의 핵심


KOSEN Expert Review



페이지 8/12

기술이 되고 있다. NoSQL 데이터베이스는 키-

값 데이터베이스(key-value database), 칼럼 지

향 데이터베이스(column-oriented database), 문

서 지향 데이터베이스(document-oriented

database) 등으로 구분할 수 있다.

첫째, 키-값 데이터베이스는 단순한 데이

터 모델에 의해 구성되고, 데이터는 키-값에

저장된다. 모든 키는 유일하고 사용자는 키를

사용하여 값에 질의할 수 있다. 지난 수년 동

안 아마존의 Dynamo 시스템을 기반으로 한

많은 키-값 데이터베이스가 개발되었다 (예,

Voldmort, Redis, Tokyo Cabinet, Tokyo Tyrant,

Memcached, Memcache DB, Riak, Scalaris 등).

둘째, 칼럼 지향 데이터베이스는 행(row)

대신에 열(column)을 따라 데이터를 저장하고

처리한다. 행과 열은 확장성을 실현하기 위해

다수 노드로 분할된다. 칼럼 지향 데이터베이

스는 구글의 BigTable 에 영감을 받았다.

BigTable은 수천 개의 상업용 서버에 있는 대

규모 데이터를 처리하기 위해 설계된 분산되

고 구조화된 데이터 저장 시스템이다. 다른

칼럼 지향 데이터베이스에는 Casandra, HBase,

Hypertable 등이 있다. Casandra 는 페이스북에

의해 개발되었고 2008 년에 오픈소스로 제공

되었다. Casandra 는 BigTable 과 Dynamo 에서

주요 개념을 채용했다. HBase 는 자바로 프로

그램된 BigTable 클론으로 아파치 하둡의 일

부이다.

셋째, 문서 지향 데이터베이스는 키-값

데이터베이스에 비해 더 복잡한 데이터 형태

를 지원할 수 있다. 문서는 엄격한 모드를 따

르지 않기 때문에 모드 디자인을 수행할 필요

가 없다. 문서 지향 데이터베이스에는

MongoDB, SimpleDB, CouchDB 등이 있다.

MongoDB는 문서를 Binary JSON(BSON) 객체

로 저장한다. 모든 문서는 기본 키(primary

key)로 ID 를 갖는다. MongoDB 에서 질의는

JSON과 유사한 구문으로 표현된다. SimpleDB

는 아마존의 웹 서비스에서 사용되는 분산 데

이터베이스다. SimpleDB에서 데이터는 저장되

고 획득되며 질의될 수 있는 다양한 도메인으

로 조직화된다. 도메인은 서로 다른 속성과

프로젝트의 이름/값 조합 세트 등을 포함한다.

아파치 CouchDB 는 Erlang 으로 쓰여진 문서

지향 데이터베이스다. CouchDB에서 데이터는

JASON 객체로 저장되고 접근되는 키/이름과

값에 의해 명명된 필드로 구성된 문서로 조직

화된다.

빅데이터는 일반적으로 수백 또는 수천

개의 서버에 저장되어, 기존의 병렬 처리 모

델(예, Message Passing Interface 또는 Open

Multi-Processing)은 대규모 병렬 프로그램을

충분히 지원할 수 없다. 최근에 NoSQL 의 성

능을 효율적으로 개선할 수 있는 MapReduce,

Drayd, All-Pairs, Pregel 같은 병렬 프로그래밍

모델이 제안되었다. MapReduce 에서 컴퓨팅

모델은 사용자에 의해 프로그램될 수 있는

Map 과 Reduce 라는 두 함수만을 가진다. Map

함수는 입력 키-값 쌍을 중간 키-값 쌍으로

생성한다. 그러고 나서 MapReduce 는 같은 키

와 관련된 모든 중간 값을 결합하여 그것들을

Reduce 함수에 전송한다. 마지막으로 Reduce

함수는 값 세트를 더 작은 세트로 압축한다.

MapReduce 의 장점은 병렬 애플리케이션 개

발을 위한 복잡한 단계를 제거했다는 것이다.

프로그래밍 효율성을 향상시키기 위해 Sawzall

(구글), Pig Latin(야후), Hive(페이스북), Scope(마

이크로소프트) 등이 개발되었다. Drayd 는 대

단위 데이터의 병렬 애플리케이션 처리를 위

한 일반 목적 분산 실행 엔진이다. Drayd에서

애플리케이션 개발자는 애플리케이션의 통신

모드로 묘사하고 데이터 전송 메커니즘을 표

현하기 위해 임의로 방향성 비순환 그래프

(directed acyclic graph)를 선택할 수 있다.

DryadLINQ 는 Dryad 의 고급 언어이다. All-

Pairs 는 바이오메트릭스, 바이오인포메틱스,

데이터 마이닝 애플리케이션용으로 특별히 설

계된 시스템이다. All-Pairs 는 주어진 함수로

두 데이터 세트를 비교하는 데 중점을 둔다.

구글의 Pregel 은 대규모 그래프의 처리를 지

원한다. 일반적으로 Pregel 의 입력과 출력은

동형 방향 그래프(isomorphic directed graphs)다.

이상의 프로그래밍 모델에 의해 영감을 받아

반복적 계산법(iterative computation), 장애 허용

메모리 계산법 (fault-tolerant memory

computations), 점진적 계산법(incremental com-

putation), 데이터에 관련된 흐름 통제 의사 결

정(flow control decision making related to data) 등


KOSEN Expert Review



페이지 9/12

같은 더 복잡한 계산 작업을 수행하는 모델이

제안 되었다.

5. 빅데이터 분석

데이터 분석은 유용한 가치를 추출하고,

제안 또는 의사 결정을 제공한다는 목적을 갖

는 빅데이터 가치 사슬에서 가장 중요한 단계

이다. 전통적 데이터 분석은 데이터의 가치를

극대화하기 위하여 대규모 데이터를 분석하기

위해 적절한 통계적 방법을 사용하는 것을 의

미한다. 전통적 데이터 분석은 클러스터 분석,

요인분석, 상관관계 분석, 회귀분석, 통계적

분석, 데이터 마이닝 알고리즘 등을 포함한다.

빅데이터 초기에 사람들은 기업과 개인

을 위한 가치를 제공하기 위해 어떻게 대규모

데이터로부터 주요한 정보를 추출할 것인가에

대해 관심을 가졌다. 현재 빅데이터의 주요

처리 방법은 블룸필터(Bloom Filter), 해싱

(hashing), 인덱스(index), 트리엘(triel), 병렬 컴

퓨팅(parallel computing) 등이 있다.

시의성 요구 사항에 따라 빅데이터 분석

은 실시간 분석과 오프라인 분석으로 분류할

수 있다. 실시간 분석은 주로 전자 상거래와

금융 분야에 사용된다. 실시간 분석을 위한

아키텍처에는 전통적 관계형 데이터를 사용한

병렬 클러스터링과 메모리 기반 컴퓨팅 플랫

폼이 있다(예, EMC 의 Greenplum 과 SAP 의

HANA). 오프라인 분석은 실시간 반응이 필요

하지 않는 애플리케이션을 개발하기 위해 사

용된다. 오프라인 분석 도구에는 링크드인의

Kafka, 페이스북의 Scribe, 타오바오의

Timetunnel, 하둡의 Chukwa 등이 있다.

빅데이터 분석은 메모리 수준 분석, 비즈

니스 인텔리전스 수준 분석, 대용량 수준 분

석 등으로 구분될 수 있다. 메모리 기반 분석

은 데이터의 양이 클러스터의 최대 메모리보

다 낮은 경우 사용된다. 비즈니스 인텔리전스

수준 분석은 데이터의 규모가 메모리 수준을

초과하지만 비즈니스 인텔리전스 분석 환경에

서 가능할 때 사용된다. 마지막으로 대용량

수준 분석은 데이터의 규모가 비즈니스 인텔

리전스 제품과 전통적인 관계형 데이터베이스

의 용량을 초과하는 경우에 사용된다. 데이터

분석 알고리즘의 시간과 공간 복잡성은 데이

터의 유형과 애플리케이션 요구 사항에 따라

다르다.

빅데이터 마이닝과 분석의 많은 도구들

이 있다. 가장 많이 사용되는 다섯 가지 유형

의 분석 도구는 다음과 같다: R(30.7%)은 오픈

소스 프로그래밍 언어와 소프트웨어 환경으로

데이터 마이닝과 시각화를 위해 개발되었다.

Excel(29.8%)은 마이크로소프트의 오피스의 주

요 컴포넌트로, 강력한 데이터 처리와 통계분

석 역량을 제공한다. Rapidminer(26.7%)는 오픈

소스 소프트웨어로 데이터 마이닝, 기계 학습,

예측 분석 등을 위해 사용된다.

KNMINE(21.8%)은 오픈소스 데이터 통합, 데

이터 처리, 데이터 분석, 데이터 마이닝 플랫

폼이다. Weka/ Pentaho(14.8%)은 자바 기반 오

픈소스 기계 학습과 데이터 마이닝 소프트웨

어다.

6. 빅데이터 애플리케이션

빅데이터 분석은 기존의 데이터 분석 기

술로부터 대규모의 데이터를 처리하기 위해

발전되었다. 빅데이터 애플리케이션은 상업적

애플리케이션, 네트워크 애플리케이션, 과학적

애플리케이션으로의 진화로부터 탄생했다. 가

장 중요한 데이터 분석 분야에는 구조화된 데

이터 분석, 텍스트 분석, 웹사이트 분석, 멀티

미디어 분석, 네트워크 분석, 모바일 분석 등

이 있다. 구조화된 데이터 분석은 성숙한 사

업용 기술(관계형데이터베이스, 데이터웨어하

우스, OLAP, 비즈니스 프로세스 관리 등)을

사용한다. 텍스트 분석은 덱스트 표현과 자연

어 처리에 기반을 둔다. 자연어 처리는 컴퓨

터가 텍스트를 분석, 해석, 텍스트 생성 등을

수행할 수 있게 한다. 웹 데이터 분석은 웹

콘텐트 마이닝, 웹 구조 마이닝, 웹 사용 마이

닝 등으로 구분할 수 있다. 멀티미디어 데이

터 분석은 멀티미디어 데이터(이미지, 오디오,

비디오 등)가 급속히 증가하게 됨에 따라 발

전되었다. 최근 주요한 연구 분야는 멀티미디

어 요약, 멀티미디어 주석, 멀티미디어 인덱스

와 검색, 멀티미디어 제안, 멀티미디어 이벤트

감지 등이 있다. 네트워크 데이터 분석은 초


KOSEN Expert Review



페이지 10/12

기 정량분석과 상회전 네트워크 분석으로부터

온라인 소셜 네트워크 분석으로 진화했다. 트

위터, 페이스북, 링크드인 등 많은 온라인 소

셜 네트워킹 서비스가 폭넓게 사용되고 있다.

소셜 네트워크 분석에는 링크 기반 구조 분석

(예, 링크 예측, 커뮤니티 발견, 소셜 네트워

크 진화, 사회적 영향력 분석 등)과 콘텐트

기반 분석(예, 텍스트, 멀티미디어, 위치, 코멘

트 분석 등)이 있다. 빅데이터 애플리케이션

에는 다음과 같은 유형이 있다.

기업 내 빅데이터 애플리케이션: 현재 빅데

이터는 주로 기업에서 사용된다. 비즈니

스 인텔리전스와 OLAP 등은 빅데이터

애플리케이션의 선구자이다. 기업 내 빅

데이터 애플리케이션은 생산 효율성과 경

쟁력을 개선할 수 있다. 빅데이터 애플리

케이션은 마케팅, 판매, 운영, 공급망, 재

무 등의 영역에 적용할 수 있다.

빅데이터 기반 IoT 애플리케이션: IoT는 빅

데이터의 원천일 뿐 아니라 빅데이터 애

플리케이션의 주요 시장이다. 물류 회사

는 IoT 빅데이터에 대한 경험이 있다. 스

마트 시티(smart city)는 IoT 데이터의 애

플리케이션을 기반으로 한 연구이다.

온라인 소셜 네트워크 지향 빅데이터 애플

리케이션: 이 유형의 애플리케이션에는

네트워크 공공 의견 분석, 네트워크 인텔

리전트 수집과 분석, 사회화된 마케팅, 정

부 의사 결정 지원, 온라인 교육 등이 있

다. 이 유형의 애플리케이션은 콘텐트 기

반 애플리케이션과 구조 기반 애플리케이

션으로 구분할 수 있다. 이 유형의 애플

리케이션은 사용자의 행위를 더 잘 이해

할 수 있게 하고, 조기 경보, 실시간 모니

터링, 실시간 피드백이란 측면에서 사회

적 경제적 행위의 법칙을 완벽히 익힐 수

있게 도울 수 있다.

건강과 의료 빅데이터 애플리케이션: 빅데

이터는 의료 데이터를 효율적으로 저장하

고, 처리하고, 질의하며 분석할 수 있는

잠재력을 가지고 있다. 빅데이터 애플리

케이션은 건강관리 비즈니스에 깊게 영향

을 미칠 것이다.

집단 지성: 무선통신과 센서 기술의 신속한

발전으로 모바일폰과 태블릿이 더 강력한

컴퓨팅과 센싱 역향을 가진다. 따라서 클

라우드 센싱은 모바일 컴퓨팅의 주요한

문제가 되었다. 클라우드 소싱은 대규모

일반 사용자를 기반으로 선택해서 과제를

무료와 자발적 방법으로 분산한다.

스마트 그리드: 스마트 그리드는 전통적 에

너지 네트워크를 최적화된 에너지의 생산,

공급, 소비를 위한 전산, 통신, 통제와 통

합한 차세대 전력 그리드이다. 스마트 그

리드와 관련된 빅데이터는 다양한 원천

(사용자의 에너지 사용 습관, 페이저 측

정, 에너지 소비 데이터, 에너지 시장 가

격과 입찰 데이터, 관리/통제/유지 보수

데이터)으로부터 발생한다. 스마트 그리

드의 빅데이터 애플리케이션은 그리드 기

획, 에너지 생성과 에너지 소비 간 상호

작용, 간헐적 신생 에너지에 대한 접근

등의 분야에 사용될 수 있다.

7. 도전 과제와 전망

7.1. 도전 과제

빅데이터 분석은 많은 도전에 직면하고

있지만, 현재 연구는 아직 초기 단계이다. 빅

데이터의 시각화, 저장, 분석의 효율성을 개선

하기 위한 노력이 필요하다.

이론적 측면에서 다음과 같은 연구가 필

요하다. 첫째, 빅데이터의 기반적 문제(빅데이

터 정의, 구조적 모델, 정형화된 기술, 연구

시스템 등)에 대한 연구가 필요하다. 둘째, 데

이터 품질의 평가 시스템과 데이터 컴퓨팅 효

율화의 평가 표준/벤치마크 등에 대한 빅데이

터 표준화 연구가 필요하다. 마지막으로 빅데

이터 컴퓨팅 모드의 진화(예, 메모리 모드, 데

이터 플로우 모드, PRAM 모드, MR 모드 등)

에 대한 연구가 필요하다.

기술적 측면에서는 다음과 같은 노력이

필요하다. 첫째, 넓고 다양한 데이터 원천 때

문에 이질성은 항상 빅데이터의 한 특징이며,

데이터 형식 전환의 효율을 저해하는 요인이

다. 따라서 빅데이터 형식 변환에 대한 연구


KOSEN Expert Review



페이지 11/12

가 필요하다. 둘째, 빅데이터의 전송은 일반적

으로 고비용을 초래하여 빅데이터 컴퓨팅에

대한 애로 요인이 된다. 따라서 빅데이터 전

송에 대한 연구가 필요하다. 셋째, 빅데이터의

실시간 성능은 많은 애플리케이션 시나리오에

서 주요 문제이며, 이를 해결하기 위한 노력

이 필요하다. 마지막으로 빅데이터 처리를 위

한 데이터 재사용, 데이터 재조직화, 데이터

소진 등에 관한 연구가 필요하다.

성공적인 빅데이터 애플리케이션이 이미

있지만 빅데이터 관리, 빅데이터의 검색, 마이

닝, 분석, 빅데이터의 통합과 출처 관리, 빅데

이터 애플리케이션 개발 등의 많은 실제적인

문제가 해결되어야 한다. IT 에서 안전과 보안

은 항상 두 가지 주요한 고려 사항이다. 빅데

이터 시대에 데이터의 양이 빠르게 증가함에

따라 더욱더 심각한 위험이 있다. 특별히 빅

데이터는 빅데이터 프라이버시 문제, 데이터

품질 관련 문제, 빅데이터 안전 메커니즘 문

제, 정보 보안에 있어 빅데이터 등을 고려해

야 한다.

7.2. 전망

빅데이터의 출현은 많은 기회를 제공했

다. IT 시대에는 기술이 주요 관심사였지만,

빅데이터 시대에는 정보에서 데이터 가치와

진보로 인해 데이터가 기술의 발전을 주도할

것이다. 빅데이터는 사회적 경제적 영향을 가

질 뿐만 아니라 모든 사람의 삶과 사고에 영

향을 미칠 것이다. 빅데이터의 출현에 따른

영향을 요약하면 다음과 같다. 첫째, 보다 규

모가 크고, 다양하며 구조가 복잡한 빅데이터

를 처리하기 위한 더 나은 방법을 개발해야

한다. 둘째, 빅데이터는 그 가치가 막대하기

때문에 빅데이터를 완벽히 익힌다는 것은 자

원을 완전히 익힌다는 것을 의미한다. 셋째,

빅데이터는 과학의 교차 융합을 촉진할 것이

다. 넷째, 시각화는 빅데이터 애플리케이션에

서 의사 결정에 사용될 수 있다. 다섯째, 오늘

날 비즈니스 데이터의 복잡성은 비즈니스 논

리를 압도하며, 따라서 프로그램은 알고리즘

집약적에서 데이터 집약적으로 변환하고 있다.

마지막으로 빅데이터는 사고의 혁신을 촉발할

것이다.

8. 분석자 결론

본 보고서에서는 빅데이터의 배경을 먼

저 살펴보았다. 빅데이터는 그 가치가 막대하

기 때문에 많은 관심을 끌고 많은 연구가 수

행되고 있다. 빅데이터 표현, 중복 제거와 데

이터 압축, 데이터 라이프 사이클 관리, 분석

메커니즘, 데이터 보안, 에너지 관리, 확장성

과 규모성 등이 주요한 빅데이터의 도전 과제

이다. 클라우드 컴퓨팅, IoT, 데이터 센터, 하

둡 등은 빅데이터와 관련된 주요 기술이다.

빅데이터 가치 사슬은 빅데이터 생성, 데이터

수집, 데이터 저장과 데이터 분석 등의 네 단

계로 구성된다. 본 보고서는 이와 관련한 기

술을 검토하였다. 빅데이터에는 구조화된 데

이터 분석, 텍스트 데이터 분석, 웹 데이터 분

석, 멀티미디어 데이터 분석, 네트워크 데이터

분석, 모바일 데이터 분석 등 다양한 데이터

분석 애플리케이션이 있다. 빅데이터는 다양

한 도전 과제가 있으며, 성공적인 빅데이터

기술은 결과적으로 사고방식의 혁신을 일으킬

것으로 예상된다.

References

[1] Chen, M., S. Mao, and Y. Liu, Big data: A

survey. Mobile Networks and Applications, 2014.

19(2): p. 171-209.

[2] Agrawal, D., P. Bernstein, E. Bertino, S.

Davidson, U. Dayal, M. Franklin, J. Gehrk, L. Haas,

A. Halevy, J. Han, H.V. Jagadish, A. Labrinidis, S.

Madden, Y. Papakonstantinou, J.M. Patel, R.

Ramakrishnan, K. Ross, C. Shahabi, D. Suciu, S.

Vaithyanathan, and J. Widom, Challenges and

Opportunities with Big Data. 2012.

[3] Chaudhuri, S., U. Dayal, and V. Narasayya, An

overview of business intelligence technology.

Communications of the ACM, 2011. 54(8): p. 88-98.

[4] Labrinidis, A. and H. Jagadish, Challenges and


KOSEN Expert Review



페이지 12/12

opportunities with big data. Proceedings of the

VLDB Endowment, 2012. 5(12): p. 2032-2033.

[5] Agrawal, D., S. Das, and A. El Abbadi. Big data

and cloud computing: current state and future

opportunities. in Proceedings of the 14th

International Conference on Extending Database

Technology. 2011. ACM. p. 530-533.

[6] Agrawal, D., S. Das, and A. El Abbadi, Big data

and cloud computing: new wine or just new bottles?

Proceedings of the VLDB Endowment, 2010. 3(1-

2): p. 1647-1648.

[7] Zaslavsky, A., C. Perera, and D.

Georgakopoulos, Sensing as a service and big data.

arXiv preprint arXiv:1301.0159, 2013.

[8] Dittrich, J., J.-A. Quian, #233, and -Ruiz,

Efficient big data processing in Hadoop MapReduce.

Proc. VLDB Endow., 2012. 5(12): p. 2014-2015.

[9] Gilbert, S. and N. Lynch, Brewer's conjecture

and the feasibility of consistent, available, partition-

tolerant web services. ACM SIGACT News, 2002.

33(2): p. 51-59.

[10] McKusick, K. and S. Quinlan, GFS: evolution

on fast-forward. Communications of the ACM,

2010. 53(3): p. 42-49.


빅데이터의 동향과 · 2015. 4. 1. · 중복 제거와 데이터 압축: ... 데이터...

Documents

Transcript of 빅데이터의 동향과 · 2015. 4. 1. · 중복 제거와 데이터 압축: ... 데이터...