1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2 빅데이터의 인기:...

189
1 1. 빅데이터가 주목 받게 배경 최근 들어 빅데이터 이야기로 언론의 지면이 한창 달아오르고 있다. 2011초만 해도 빅데이터는 IT 업계 일각에서 유망 트렌드의 하나로 소개되는 정도에 불과했지만, 불과 1만인 2012년에 접어들면서 광범위한 관심을 끄는 이슈로 급부상했다. 빅데이터가 얼마나 이목을 끌고 있는지는 가지 사례만 봐도 분명히 드러난다. 매년 1월이면 스위스 다보스에 세계 각국 정치, 경제의 핵심 인사들이 모여 세계적 현안을 점검하는 세계경제포럼(World Economic Forum, 일명 다보스 포럼)열린다. 여기서 던져지는 이슈 하나하나에 세계의 이목이 집중되곤 한다. 그런데 바로 올해 2012세계경제포럼에서 ‘빅데이터’를 국제 개발의 새로운 가능성을 여는 중요한 기술 하나로 지목했다. 우리 앞에 밀어닥친 재정 위기, 기후 변화, 에너지, 환경, 안보, 빈곤 문제 등이 산적해 있는데 하필 빅데이터일까? 이런 글로벌 차원의 난제가 부각될수록, 해결을 위해 더욱 광범위한 정보가 필요해지고 있기 때문이다. 세계적으로 폭증하는 데이터를 효과적으로 관리하고, 속에서 유용한 정보를 추출해낼 있는 기술에 대한 갈증이 더해지는 것은 당연한 귀결이다. 이어 329, 미국 백악관 과학기술정책실(OSTP : Office of Science and Technology Policy)에서 미국의 빅데이터 역량을 강화하기 위한 범정부적인 연구개발 계획을 발표했다. ‘빅데이터 연구개발 주도권’이라 명명된 야심 계획에서 미국 연방정부는 6정부 부처 관련 기관이 2달러를 투자하여 분야에서 빅데이터 경쟁력을 끌어올리겠다는 구상 천명했다. 국방부, 국토안보부, 에너지부, 보훈부, 보건인적서비스부, 항공우주국(NASA), 국립인문학기금(NEH), 국가과학재단(NSF) 참여 부처의 면면만 봐도 빅데이터 사안이 얼마 광범위하게 걸쳐 있는지 있다. 미국이 글로벌 금융위기 이후 월등한 경쟁력을 갖추 있는 IT 분야의 주도권 확대에 열을 올리고 있는 점을 감안한다면, 이런 연구개발 투자는 미국이 빅데이터를 미래 IT 분야의 핵심 기술로 인식하고 있다는 명확한 증거이기도 하다. 이런 가쁜 흐름이 IT 강국을 자처하는 한국을 비켜갈 없다. 201111, 대통령 소속 국가정보화전략위원회는 대통령 보고 자리에서 빅데이터의 분석 활용을 실현하기 위한 전과 미래 정책 방향을 제시하기도 했다. 이처럼 국내외를 가리지 않는 빅데이터에 대한 관심 덕분에 2012들어 국내 언론에서도 관련 기사들이 거의 매일 끊이지 않고 오르내리고 있다. 1차시 빅데이터의 정의 빅데이터가 만드는 세상 : 경영의 새로운 패러다임 1차시 학습 교안

Transcript of 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2 빅데이터의 인기:...

Page 1: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

1

1. 빅데이터가 주목 받게 된 배경

최근 들어 빅데이터 이야기로 언론의 지면이 한창 달아오르고 있다. 2011년 초만 해도

빅데이터는 IT 업계 일각에서 유망 트렌드의 하나로 소개되는 정도에 불과했지만, 불과 1년

만인 2012년에 접어들면서 광범위한 관심을 끄는 이슈로 급부상했다.

빅데이터가 얼마나 이목을 끌고 있는지는 몇 가지 사례만 봐도 분명히 드러난다.

매년 1월이면 스위스 다보스에 세계 각국 정치, 경제의 핵심 인사들이 모여 세계적 현안을

점검하는 세계경제포럼(World Economic Forum, 일명 다보스 포럼)이 열린다. 여기서

던져지는 이슈 하나하나에 전 세계의 이목이 집중되곤 한다. 그런데 바로 올해 2012년

세계경제포럼에서 ‘빅데이터’를 국제 개발의 새로운 가능성을 여는 중요한 기술 중 하나로

지목했다.

우리 앞에 밀어닥친 재정 위기, 기후 변화, 에너지, 환경, 안보, 빈곤 문제 등이 산적해 있는데

왜 하필 빅데이터일까? 이런 글로벌 차원의 난제가 부각될수록, 그 해결을 위해 더욱

광범위한 정보가 필요해지고 있기 때문이다. 전 세계적으로 폭증하는 데이터를 효과적으로

관리하고, 그 속에서 유용한 정보를 추출해낼 수 있는 기술에 대한 갈증이 더해지는 것은

당연한 귀결이다.

이어 3월 29일, 미국 백악관 과학기술정책실(OSTP : Office of Science and Technology

Policy)에서 미국의 빅데이터 역량을 강화하기 위한 범정부적인 연구개발 계획을 발표했다.

‘빅데이터 연구개발 주도권’이라 명명된 이 야심 찬 계획에서 미국 연방정부는 6개 정부 부처

와 관련 기관이 총 2억 달러를 투자하여 각 분야에서 빅데이터 경쟁력을 끌어올리겠다는 구상

을 천명했다. 국방부, 국토안보부, 에너지부, 보훈부, 보건인적서비스부, 항공우주국(NASA),

국립인문학기금(NEH), 국가과학재단(NSF) 등 참여 부처의 면면만 봐도 빅데이터 사안이 얼마

나 광범위하게 걸쳐 있는지 알 수 있다. 미국이 글로벌 금융위기 이후 월등한 경쟁력을 갖추

고 있는 IT 분야의 주도권 확대에 열을 올리고 있는 점을 감안한다면, 이런 연구개발 투자는

미국이 빅데이터를 미래 IT 분야의 핵심 기술로 인식하고 있다는 명확한 증거이기도 하다.

이런 숨 가쁜 흐름이 IT 강국을 자처하는 한국을 비켜갈 리 없다. 2011년 11월, 대통령 소속

국가정보화전략위원회는 대통령 보고 자리에서 빅데이터의 분석 및 활용을 실현하기 위한 비

전과 미래 정책 방향을 제시하기도 했다. 이처럼 국내외를 가리지 않는 빅데이터에 대한 관심

덕분에 2012년 들어 국내 언론에서도 관련 기사들이 거의 매일 끊이지 않고 오르내리고 있다.

1차시 빅데이터의 정의

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

1차시 학습 교안

Page 2: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

2

<그림 1-1> 빅데이터의 인기 : 국내외 인터넷 검색 빈도

<그림 1-1>은 2010년 각 분기별로 네이버 뉴스 검색에서 빅데이터가 언급된 횟수 및 구글에

서 빅데이터가 검색된 빈도를 나타낸 그래프이다.

여기서 보다시피 상승곡선은 2011년 말부터 한층 가팔라졌다. 2012년 1/4분기에는 1,309건,

그리고 2/4분기에는 무려 1,953건의 빅데이터 관련 기사들이 쏟아졌으니, 거의 하루 평균

10개 이상 나온 셈이다.

그렇다면 빅데이터가 무엇이기에 이렇게 한국은 물론 전 세계적인 이목이 집중되는 것일까?

빅데이터에 대한 이야기들을 풀어가기 전에, 그 정체부터 좀 더 자세히 짚어보자.

1) 데이터의 무한질주 시대

2011년 인류가 쏟아낸 데이터의 양은 무려 1조 9,000억 기가바이트를 넘어섰다. 2012년에

는 다시 50% 가까이 증가한 2조 7,000억 기가바이트, 2020년에는 이마저도 초라해 보일

35조 기가바이트에 도달할 전망이다. 그러다 보니 10억을 뜻하는 단위 접두사 ‘기가(Giga)’나,

1조를 뜻하는 ‘테라(Tera)’도 데이터의 양을 표현하기에 모자랄 지경이 되었다. 따라서 최근

데이터의 양을 표현하는 데에는 페타(Peta), 엑사(Exa), 제타(Zetta), 요타(Yotta) 등의 접두

사가 쓰이곤 한다.

Page 3: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

3

<자료 : EMC (2012). “The Journey to Big Data”를 토대로 재구성.>

일상적인 숫자 감각으로는 이게 어느 정도인지 가늠하기도 쉽지 않다. 대략의 크기를 가늠해

보기 위해 1메가바이트의 데이터를 한 스푼에 가득 담긴 모래알의 양이라고 생각해보자. 그렇

다면 1페타바이트는 해운대 백사장 전체, 1엑사바이트는 한반도 해안선의 모든 백사장에 깔린

모래알의 양에 해당한다.

이러한 단위 접두사를 이용하면 2012년에 쏟아질 데이터 총 2조 7,000억 기가바이트는 2.7

제타바이트, 매일 쏟아지는 데이터는 평균 7.5엑사바이트가 되는 셈이다. PC에 달려 나오는

하드디스크드라이브(HDD) 용량이 보통 1테라바이트 정도이니, 하루에 생성되는 데이터를 모

두 담기 위해서는 PC용 HDD가 무려 750만 개나 필요한 것이다.

Page 4: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

4

구글의 전 CEO 에릭 슈미트(Eric Schmidt)는 문명이 시작되면서부터 2003년까지 인류가 쌓

아 올린 데이터가 5엑사바이트 수준이라고 이야기한 바 있다. 그런데 이제 그만한 데이터는

하루가 채 지나기도 전에 생성되는 시대가 되어버렸다. 이처럼 데이터는 우리의 예상을 너무

나 손쉽게 뛰어넘어 그야말로 ‘무한질주’하고 있다.

2. 빅데이터의 세 가지 특징

일단 빅데이터를 접한 순간, 우리는 ‘빅(Big)’이 주는 강렬한 느낌에 사로잡히기 마련이다. 대

부분의 사람들에게 ‘빅’은 뭔가 거대한 몸집을 가진 존재라는 이미지를 준다. 따라서 ‘빅데이터’

라는 용어에서도 막연히 ‘큰’, 즉 양적으로 매우 방대한 데이터라는 인상을 받기 마련이다. 그

렇다면 과연 얼마나 큰 데이터를 빅데이터라고 할 수 있을까? 요즘 PC에 흔히 장착되는 1테

라바이트짜리 HDD를 꽉 채울 분량의 데이터면 빅데이터일까? 아니면 수십, 수백, 수천 테라

바이트쯤 되어야 할까? 어느 쪽도 정답이 아니다. 빅데이터는 단순히 그 크기만으로 정의할

수 없다.

여기서 ‘빅’의 의미를 정확하게 이해하기 위해 잠시 상상의 나래를 펼쳐보자.

깎아지른 절벽 사이로 난 길을 떠올려보면 좋을 것이다. 어느 날 산사태가 나서 이 길이 막혀

버렸다. 집채만 한 바윗덩어리와 수많은 자갈, 흙, 나무 잔해 등이 뒤엉켜 있다. 길을 막고 있

는 장애물들을 치워야만 목적지를 향해 나아갈 수 있다. 반면에 우리가 갖고 있는 것이라고는

삽과 망치, 지렛대 같은 것들뿐이라면? 이 장애물은 그야말로 어마어마하게 ‘거대하게’ 보일

것이다.

이 거대한 장애물을 좀 더 자세히 들여다보면 골칫거리가 한두 가지가 아니다. 우선 집채만

한 바위들이 가득하다. 몇 사람이 달려들어 용을 써도 좀처럼 움직이지 않는다. 하나하나를 보

면 작게 보이는 자갈이나 흙도 어렵기는 마찬가지이다. 한 삽을 퍼서 치우나 싶다가도 어느새

위에서 새로운 자갈들과 흙더미가 무너져 내려와 또 쌓여버린다. 나무도 난감하긴 마찬가지이

다. 노출된 뿌리와 가지 등이 엉켜서 하나하나 끊어내지 않으면 치울 수가 없다.

이런 거대한 장애물들을 치우기 위해서는 효과적인 연장, 중장비와 기술이 필요하다. 강력한

유압잭과 전기톱이 있어야 무거운 장애물을 들고, 복잡하게 엉킨 나뭇더미들을 잘라낼 수 있

다. 또 힘 좋은 불도저나 포클레인이 있어야 장애물들을 도로 바깥으로 옮겨 밀어낼 수 있고,

추가 붕괴를 막고 안전하게 작업을 마치기 위해서는 작업 중간중간 위험한 경사면에 방벽을

세우는 기술도 활용해야 한다.

이쯤 되면 감을 잡으셨을지 모르겠다. 그렇다, 빅데이터에서 이야기하는 ‘빅’은 이 산사태 장애

물 사례처럼 효과적으로 처리하는 것을 가로막는 갖가지 어려움을 종합적으로 일컫는 표현이

다. 일부에서는 빅데이터를 ‘대용량 데이터’라고 건조하고 밋밋하게 번역하지만, 어감을 제대로

살려 말하자면 ‘엄청난 데이터’라고 이해하는 것이 더 적당하다.

Page 5: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

5

그렇다면 크기 이외에 어떤 특징들이 빅데이터를 규정하는 기준이 될까? 데이터 중에는 크기

는 상대적으로 작지만 처리하기는 훨씬 까다로운 것들이 있다.

예 > 일상에서 쓰는 대화체 표현들을 떠올려보자. 평소에 주고받는 말들은 자세히 적어놓고

보면 문법과 맞지 않는 경우가 많다. 불쑥불쑥 한두 마디씩 던지는 말은 짧지만 맥락을 이해

하지 못하면 도대체 무슨 의미인지 모를 때도 많다. 이런 표현들이 엄청나게 모여 있는 곳이

트위터나 미투데이와 같은 단문형 마이크로블로그(microblog)이다.

트위터 기준으로 하나하나의 글은 140자로 제한되어 있기 때문에, 사실 크기로만 보면

마이크로블로그 글은 많이 모아도 그다지 거대해 보이지 않는다. 140자가 차지하는 메모리는

고작 280바이트이고, 1억 개의 글이 모인다고 해도 스마트폰 한두 개 메모리 용량 정도인

28기가바이트밖에 안 된다. 그러나 이 수많은 글 속에서 적절한 의미를 뽑아내고 무엇이

이슈인지 분석해내는 일은 생각만큼 쉽지 않다. 각자 140자로 제한된 길이지만 여기에는

갖가지 속어, 함축적 표현, 비꼬는 표현 등이 난무한다. 더군다나 한국어처럼 ‘아’ 다르고 ‘어’

다르며 중의적 표현이 매우 많은 언어라면 ‘대략 난감’한 사태가 벌어지기 십상이다.

예 > 비행기 운항 중에 기록되는 데이터들이 있다. 우리가 한국에서 미국으로 비행기를 타고

가면서 무료함을 달래느라 영화를 보고 뒤척이며 잠을 청하는 사이에도, 비행기 곳곳에

장착된 센서들은 수많은 데이터들을 저장한다. 시시각각 변하는 위치, 고도, 기체 바깥과

내부의 압력, 온도, 그에 따른 동체와 날개 곳곳의 진동 등 세밀한 데이터들이 기록된다. 항공

관제소와의 교신 기록 등이 있지만 대부분은 수치화된 데이터이며, 10여 시간 비행을 해도

나오는 기록은 대략 수십에서 수백 기가바이트를 넘지 않는다. 역시 크기만으로는 대단하지

않다. 하지만 이것도 막상 정확히 그 의미를 분석하고, 기체 어느 부분에 이상이 있는지 등의

유용한 정보를 뽑아내기 어렵기는 마찬가지이다. 정보로서 가치가 있는 판단을 내리기

위해서는 수십, 수백 군데 센서에서 수집된 데이터를 모아 종합적으로 평가해야 하기

때문이다. 이것도 일종의 빅데이터이다.

반대로 양적으로는 제법 크지만 다루기 쉬운 데이터도 있다.

예 > 국내 이동통신사에서는 매일 1,000만 명이 넘는 가입자들이 수억 통이 넘는 전화를 주

고받는다. 각 회사는 가입자들의 사용요금을 매기기 위해 통화 당사자, 통화 시간, 업/다운로

드한 패킷 수 등의 이용 데이터를 저장하고 관리한다. 이러한 데이터도 빅데이터일까? 생각해

보면 이런 데이터들은 미리 잘 정해진 형식을 갖추고 있고, 요금 산정도 어렵지 않다. 통화 당

사자 정보는 가입자마다 매겨져 있는 일련번호로, 통화 시간은 초 단위로, 이용 데이터는 패킷

숫자로 저장하면 된다.

요금 정보도 사용량에 비례하는 비교적 간단한 수식으로 나올 것이다. 이렇게 미리 구조적으

로 잘 짜인 상태로 저장되고 분석도 어렵지 않은 데이터는 심지어 수천 테라바이트짜리라 하

더라도 빠르게 검색하고 활용할 수 있다. 이러한 데이터까지 빅데이터라고 갖다 붙이기는 곤

란하다.

Page 6: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

6

따라서 빅데이터는 이른바 ‘3V’로 통칭되는 다음 세 가지 특징을 골고루 이용하여 정의되어야

한다.

<그림 1-2> 빅데이터의 세 가지 특징

1) 규모

빅데이터라 불리기 위해서는 일단 데이터 집합의 크기가 커야 한다. 그러면 어느 정도나 큰

데이터를 ‘빅’데이 터라 부를 것인가? 엄밀한 정의는 없지만, 대략적으로 적게는 수

테라바이트에서 많게는 수 페타 바이트 정도 크기의 데이터 집합을 지칭하는 것이 일반적이다.

최근 이 정도 크기의 데이터는 과학기술 영역에서 심심치 않게 쏟아지고 있다. 반물질, 미니

블랙홀 등 온갖 과학적 상상력을 자극했던 실험 장치로 유럽원자핵공동연구소(CERN)의 거대

가속기(LHC)가 있는데, 이 거대한 장치에서는 2010년에만 무려 13페타바이트의 데이터가 쏟

아져 나왔다. 생물학, 의학 분야에서 핫 이슈로 떠오르고 있는 인간의 유전체 정보, 즉 ‘인간

게놈 프로젝트’의 성과도 광범위하게 공유되기 시작했다. 1,000개의 게놈 프로젝트에서 모인

데이터가 아마존 웹서비스를 통해 무료로 공개되기 시작했는데, 그 양은 200테라바이트에 달

한다. 밤하늘에 펼쳐진 우주 구석구석을 찍어 데이터화하여 우주의 신비를 밝히겠다는 ‘슬론

Page 7: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

7

디지털 스카이 서베이(SloanDigital Sky Survey)’ 프로젝트도 있다. 현재 2단계까지 완료되었

는데, 지금까지 수집된 데이터만도 140테라바이트에 달한다.

비즈니스 세계에서 쏟아지는 데이터도 이에 못지않은 엄청난 양이다. 세계 최대 소매유통업체

인 월마트는 전 세계 15개국에 8,500개가 넘는 매장을 갖고 있다. 이 점포들에서 취급하는

상품의 수만 해도 엄청나고, 거래 총액도 막대하여 2011년 본사 연간 매출만 500조 원 가까

이 되었다. 그러다 보니 월마트가 관리하고 있는 각종 거래 데이터만 벌써 2,500테라바이트

를 넘어선 데 이어, 지금 이 순간에도 그 양은 계속 빠르게 증가하고 있다.

이런 거대 기업이 아니더라도 생각보다 훨씬 많은 기업들이 분석을 필요로 하는 대용량 데이

터를 이미 보유하고 있다. 미국기업들을 대상으로 ‘조직 내에서 분석 전용으로 관리하는 데이

터 총량’을 물어본 데이터 웨어하우징 인스티튜트(TDWI)의 설문조사에 의하면, 약 37%의 기

업이 이미 10테라바이트 이상의 데이터를 갖고 있다고 응답했다. 10테라바이트를 대략적인

빅데이터의 양적 기준으로 잡는다면, 이미 3분의 1 이상의 기업이 빅데이터를 갖고 있는 셈이

다. 분석용 데이터 이외에 차후 용도를 발굴할 가능성이 있는 데이터까지 포함한다면 그 비율

은 더 올라갈 것이다.

<그림 1-3> 인터넷 공간을 흐르는 다양한 데이터의 규모와 속도(2011년 기준)

<자료 : GOOD & Munday, O. (2011). “The World of Data.”

<http://awesome.good.is/transparency/ web/1009/the-world-of-data/flash.html>을 토대로 재구

성.>

Page 8: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

8

2) 다양성

단순히 큰 규모만으로 빅데이터라고 할 수 없는 또 다른 이유는 오늘날 쏟아지고 분석해야 할

데이터 형태가 매우 다양하다는 점이다. 이제까지 초점의 대상이 되어왔던 데이터는 대부분

비교적 형태가 잘 잡혀 있고 관리하기도 쉬웠다.

기업에서 다루는 재무 데이터들이 대표적인 예이다. 현재도 각종 원자재 구매, 연구개발비 지

출 내역, 제품 생산 내역, 유통 재고, 판매 내역과 같은 데이터들은 세심하게 수집되고, 정해

진 서식에 따라 대부분 잘 구조화되어 관리된다.

이처럼 특정 형식에 맞춰 잘 정리된 데이터를 정형적, 또는 구조적(structured) 데이터라고 부

른다. 아주 개략적으로 이야기하자면, 스프레드시트(MS엑셀 등)에서 작업하듯 열과 행을 정리

하여 일목요연한 표로 만들 수 있는 데이터를 정형 데이터라고 생각하면 된다. 이런 데이터를

다루기 위해 이미 1970년대부터 이른바 관계형 데이터베이스(RDB : Relational Database) 기

술이 발전해왔으며, 오늘날까지도 널리 쓰이고 있다.

그러나 최근 쏟아지는 데이터들은 이처럼 미리 형식을 하나하나 정해놓기 어려운 것들이

태반이다. 우리가 일상적으로 인터넷을 통해 많이 이용하는 데이터들은 어떤 것이 있을까?

언론사나 포털사이트에 뜬 뉴스 게시물, 블로그나 온라인 커뮤니티 게시판의 게시물, 유튜브

등에 올라와 있는 동영상, 팟캐스트, 음악, 사진 등 매우 다양하다. 매일 받아들이는 이런

데이터들을 하나하나 나누고 차곡차곡 분류, 정리하여 달마다 표로 만들어 제출하라고 한다면?

생각만 해도 머리가 지끈지끈 아파질 것이다. 유튜브에서 인기 있다고 살펴본 동영상 한

토막조차 체계적으로 정리하려면 파일 이름은 무엇인지, 주제는 무엇인지, 크기는 몇 초

분량인지, 인코딩은 무엇으로 되어 있는지, 내용은 어떤지, 등장인물은 누구이며 몇 명인지

등등 정리할 기준을 세우는 것만 해도 고민이다. 이런 데이터들은 미리 잡아놓은 틀에 우겨

넣으려고 할 때마다 생각지도 못했던 예외가 발생하기 일쑤이다.

기업이 맞닥뜨리는 데이터 문제는 더욱 심각하다. 미국 3위 신용평가사인 트랜스유니온

(TransUnion) 담당자의 하소연을 들어보자. 오늘날 개개인의 신용정보를 평가하기 위해 처리

해야 할 데이터는 어마어마하다. 개인의 신상명세, 금융거래 기록, 소비 기록은 물론 법원의

각종 처분 기록, 납세 기록 등 다양한 공공 데이터도 반영해야 한다. 반영해야 할 데이터의 출

처만 8만 3,000군데가 넘는다고 한다. 그나마 대부분이 비교적 구조화가 잘된 거래 기록이라

고 해도, 제공하는 곳마다 그 형식이 제각각 이어서 총 4,000가지 이상이다. 이것을 일단 통

일된 양식에 맞게 정리하는 일부터가 어마어마한 작업이다.

더군다나 제공되는 데이터 안에는 하나하나 뜯어내야 할 내용들 천지이다. ‘2005. 1. 3 Outer

St. Vatican Hall City’ 같은 간단한 텍스트 데이터 하나만 해도 정확한 의미를 파악해 정보를

나눠놓으려면 애매하다. 경우에 따라 ‘2005년 1월 3일, 세인트 바티칸 홀 시(市) 외곽’으로

해석할 수도 있고, ‘2005년 1월, 세인트 바티칸 홀 시 아우터 거리 3번지’로 해석할 수도 있

Page 9: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

9

다. 하루에 한두 건도 아닌 수백만, 수천만 건이 이런 식으로 쏟아져 들어오면 보통 문제가 아

니다. 이처럼 데이터 하나하나마다 크기와 내용이 사뭇 달라 통일된 구조로 정리하기 어려운

데이터를 비정형, 또는 비구조적(unstructured) 데이터라고 한다.

<그림 1-4> 비구조적 데이터의 급증 및 비중

<자료 : IDC (EMC (2011). “Big Data, Big Opportunity”에서 재인용).>

비정형 데이터는 갈수록 그 비율이 늘어나, 앞으로 맞닥뜨릴 전체 데이터 가운데 약 90% 이

상을 차지할 것으로 전망된다.

3) 속도

또 다른 난관은 바로 데이터가 쏟아져 들어오는 속도이다. 불과 20년 전인 1990년대

초까지만 해도 빠른 데이터 통신망은 매우 값비싼 자원이었고, 많은 설치비를 내고 회선을

끌어와 역시 다달이 많은 사용료를 지불해야 했다. 따라서 일반 사용자들은 PC에 모뎀을 달고

전화선을 이용해 통신하는 것이 고작이었다. 30~40대 분들이라면 초창기 모뎀의 전송 속도가

2,400bps(초당 300바이트)에 불과해 1메가바이트짜리 파일 하나 받느라 두 시간 넘게

기다려야 했던 시절을 아련히 떠올릴 것이다. 당시에는 기술적 한계가 명확하여 데이터 축적

속도에 골머리를 앓을 필요가 없었다.

그러나 이제는 가정용 PC와 유무선 공유기에 연결된 네트워크 장비마다 1Gbps(초당

100메가바이트 이상) 급의 전송 속도를 쉽게 내고 있다. 4세대 이동통신 기술로 선전하며

한창 보급 중인 LTE 네트워크도 평균 초당 약 40메가바이트를 전송할 수 있다. 데이터를

주고받는 속도가 초창기 전화 모뎀 시절보다 10만 배나 빨라진 것이다.

이에 따라 정보는 생성-유통-소비의 전 주기가 그야말로 눈 깜짝할 사이에 이루어지고 있다.

단적인 예로 지난해 전 세계를 달구었던 핫뉴스의 전파 과정을 들 수 있다.

Page 10: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

10

2011년 5월 2일 새벽(파키스탄 현지 시각), 미군은 파키스탄 북동부 아보타바드의 안전가옥

에 은신 중이던 오사마 빈 라덴을 급습하여 사살했다. 작전이 종결되고 시신을 후송하는 단계

에 접어들자, 백악관은 5월 1일 밤 9시 45분(미국 동부 시각)에 몇 시간 내로 대통령의 중대

발표가 있을 거라는 막연한 예고를 했다. 그런데 불과 40분 만인 밤 10시 24분, 예비역 해군

정보장교이자 부시 행정부 당시 럼스펠드 국방장관의 보좌관이었던 키스 어반(Keith Urbahn)

이 믿을 만한 소식통을 통해 빈 라덴이 죽었다는 소식을 들었다고 트위터에 올렸다. 이 소식

은 삽시간에 전 세계로 퍼져나갔는데(<그림 1-5> 참조), 그 속도가 무려 초당 5,000회에 이

를 정도였다. 오바마 대통령의 대국민 연설이 실제 거행된 밤 11시 35분이 되기도 전에, 이

미 전 세계의 트위터 공간은 빈 라덴 사망 소식으로 떠들썩했다. 발 빠른 언론사들은 백악관

보도자료를 받기도 전에 트위터발 속보라며 ‘빈 라덴 사망’을 타전했다.

<그림 1-5> 트위터상에서 ‘빈 라덴 사망’ 소식의 전파 모습

<자료 : SocialFlow (2011). “Breaking Bin Laden : A Closer Look.”

<http://blog.socialflow.com/ post/5454638896/breaking-bin-laden-a-closer-look>.>

이러한 현상은 먼 나라 이야기가 아니다. 최근에는 자연재해나 각종 사고 속보가 뉴스보다도

이런 마이크로블 로그에 먼저 뜨기 일쑤이다. 기존 대중매체에서는 사고 소식을 접한 기자가

현장으로 출동하여 카메라로 촬영하고 전송해야 일반 국민들이 정보를 접할 수 있었다. 반면

이제는 모두가 들고 다니는 스마트폰으로 사진이나 동영상을 찍고 GPS의 위치 태그를

삽입하여 트위터에 올리면, 다른 사람들이 이를 리트윗하여 정보를 접하곤 한다.

2011년 7월 27일 아침, 서울 우면산 일대에 갑자기 300밀리미터에 달하는 폭우가 내리며

엄청난 산사태가 발생해 우면산 기슭 남부순환로 주변의 아파트, 형촌마을, 전원마을 등이

토사로 아수라장이 되었다. 방송사의 재난 뉴스는 한참 후에야 나왔지만, 산 옆구리를 따라

쏟아지는 물과 토사의 생생한 모습은 트위터에서 금세 화제가 되었다.

Page 11: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

11

오죽하면 이제 기자들 사이에서도 현장 취재보다 트위터 검색으로 정보를 얻고 기사를 쓰는

게 더 빠르다는 이야기가 나오고 있다.

빅데이터 시대 이전에는 어떤 사건이 일어나도 그 데이터를 수집, 처리하여 사람들에게

전달하기까지 시간적 간격이 컸다. TV 생중계가 보편화되기 이전에는 모든 뉴스가 신문사에

모아졌고 ‘일괄(batch) 작업’ 방식으로 처리되어 매일 아침이나 저녁에 전달되었다. 하지만

이제 대중들은 트위터를 통해 ‘거의 실시간’으로 데이터를 받을 수 있다. 그런가 하면 빈 라덴

습격 작전에서 보듯, 미국 오바마 대통령 등은 백악관 지하실에서 위성 생중계(즉 스트리밍)로

현장 상황을 파악하고 지휘할 수도 있게 되었다.

결국 빅데이터 시대의 기업에는 사건 발생과 데이터 수집 사이의 간격을 좁혀 더욱

역동적으로 경영 환경 변화에 대응할 기회가 커지고 있다. 이른바 기업의 민첩성이

빅데이터로 더욱 향상될 수 있게 된 것이다. 일례로 신제품을 출시하거나 프로모션을 실시할

경우, 금세 반응이 포착되고 있다. 이제는 고인이 된 스티브 잡스(Steve Jobs)가

아이폰(iPhone) 신제품을 발표할 때마다 수많은 누리꾼들은 숨죽이고 지켜보다가 실시간으로

엄청난 감상과 반응을 인터넷 게시판, 블로그, SNS 등 곳곳에 쏟아냈다. 과거에는 기업

활동에 대한 반응을 수집하고 이를 새로운 의사결정에 반영하려면 짧아도 며칠, 길면 몇 주

이상이 걸리는 게 보통이었지만, 이제는 그 주기가 몇 시간, 심지어 분 단위로 단축된 것이다.

더군다나 오늘날에는 이러한 민첩한 감지와 대응이 선택이 아닌 필수 역량이 되고 있다.

당장 기업과 관련된 나쁜 소문이 하나 퍼지기라도 하면 삽시간에 포털사이트 검색어 상위권에

오르며 화젯거리로 떠오른다. 진위 여부에 상관없이 이러한 소문에 재빨리 대응하지 않으면

하룻밤 사이에 천하의 악독한 기업으로 낙인 찍히고 영업에 심각한 타격을 입는 일이 다반사

이다. 즉각적으로 상황을 파악하고 정확한 공식 입장을 내놓아야만 비로소 문제가 해결된다.

Page 12: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

12

1. 빅데이터의 좁은 의미와 넓은 의미

빅데이터의 특징인 규모, 다양성, 속도 등 세 차원을 종합하면, 좁은 의미의 빅데이터를 다음

과 같이 정의할 수 있다.

물론 빅데이터가 엄밀히 확정된 학술적 용어는 아니기 때문에, 실제로는 여기에 들어맞지 않

더라도 빅데이터라고 부르는 경우도 많음을 유념해야 한다. 하지만 빅데이터가 인기를 끌면서

데이터 집합뿐 아니라 더욱 넓은 의미로도 쓰이고 있다.

앞서 빅데이터를 설명하기 위한 사례에서도 봤듯이 적당한 연장과 중장비, 기술이 뒷받침되어

야만 거대한 데이터를 다룰 수 있다. 즉 과거에 주로 다룬 비교적 작은 크기의 정형화된 데이

터에서 쓰이던 것과는 다른 차원의 기술과 인력이 요구된다.

따라서 좁은 의미의 빅데이터를 관리하고 분석하는 데 필요한 인력과 조직, 제반 기술과 인프

라를 따로 떼어놓고 생각하기는 어려우므로 이들까지 한데 묶어 다음과 같이 넓은 의미의 빅

데이터로 정의하기도 한다.

2차시 빅데이터의 의미와 유용성

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

2차시 학습 교안

좁은 의미의 빅데이터란?

보통 수십에서 수천 테라바이트 정도의 거대한 크기를 갖고, 여러 가지 다양한 비정

형 데이터를 포함하고 있으며, 생성-유통-소비(이용)가 몇 초에서 몇 시간 단위로 일

어나 기존의 방식으로는 관리와 분석이 매우 어려운 데이터 집합을 의미

넓은 의미의 빅데이터란?

기존의 방식으로는 관리와 분석이 매우 어려운 데이터 집합, 그리고 이를 관리·분석

하기 위해 필요한 인력과 조직 및 관련 기술까지 포괄하는 용어

Page 13: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

13

<그림 2-1> 좁은 의미와 넓은 의미의 빅데이터

1) 기업 빅데이터의 두 가지 유형 : 빅 거래 데이터와 빅 상호작용 데이터

다양성을 기준으로 빅데이터를 보면 구조적 형태의 데이터와 그에 대비되는 비구조적(혹은 비

정형) 형태의 데이터로 나눌 수 있다. 이를 기업에서 데이터가 어디서 어떻게 생겨나는지의

관점에서 구분할 수도 있다.

우선 대부분의 구조적 데이터는 각종 거래를 처리하는 과정에서 발생한다. 거래는 특정한 형

식에 맞춰 일어나고 대부분 숫자로 기록되기 마련이다.

이에 비해 비구조적 데이터는 사람들 간, 사람과 기계 간, 혹은 기계들 간의 상호작용으로 생

산된다. 사람이 구사하는 언어와 기계 간에 주고받는 기초적인 정보는 최소한의 양식을 갖추

고 있을 뿐 세세한 형식은 제각각이고 체계화되지 않은 경우가 대부분이다. 이에 착안하여 전

자를 빅 거래 데이터(구조적), 후자를 빅 상호작용 데이터(비구조적)로 대응시키기도 한다.

‘빅 거래 데이터’는 기업들이 기존에 보유하고 있는 시스템, 이른바 레거시 시스템(Legacy

System)에 존재하는 데이터를 말한다.

백화점을 예로 들어보자.

신제품이 거래처로부터 백화점에 전달되거나 고객이 백화점에서 쇼핑을 하는 경우, 재고 변동

사항이나 판매 기록에 즉시 반영되어야 한다. 이러한 업무나 거래를 처리하는 정보 시스템이

존재하는데, 이렇게 1차적으로 생성된 정보 시스템의 데이터들을 온라인 거래 처리(OLTP :

Online Transaction Processing) 데이터라고 한다.

그런데 이것만 가지고는 데이터의 효용성이 떨어진다. 이를 분석해 시장이나 고객 분석에

활용하기 위해서는 OLTP 데이터를 정리해서 계속 쌓아두는 2차적인 데이터 저장소가

Page 14: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

14

필요하다. 바로 데이터웨어하우스(DW : Data Warehouse)이다. 그리고 이와 같은

데이터베이스의 데이터를 의사결정 등의 목적을 위해 분석하는 방법 중 보편적인 것이 온라인

분석 처리(OLAP : Online Analytical Processing)이다.

<그림 2-2> 빅데이터 프로세싱을 위한 빅 거래 데이터와 빅 상호작용 데이터

<자료 : Informatica (2012). “Big Data Unleashed.”>

이러한 데이터 처리 목적으로는 예전부터 시장을 장악해온 오라클(Oracle) DB, IBM DB2,

마이크로소프트(MS) SQL Server, 그리고 오픈소스 프로젝트로 출발한 MySQL(현재 오라클이

소유) 등이 기업 현장에서 널리 쓰여왔다.

사실 빅데이터 시대가 본격화되기 이전부터 기업 경영에서는 OLTP에서 점차 OLAP, DW

방향으로 무게중심이 이동하면서 방대한 1차 데이터뿐 아니라, 이를 가공한 2차 데이터들까지

크게 증가하고 있었다. 전산화된 거래 시스템이 구축된 뒤 시간이 흐르면서 누적되는 양도

많은 데다가, 점차 세분화된 데이터들이 함께 기록되고 엮여오고 있었다.

비유하자면 주식인 쌀 생산도 증가하고 있지만, 좀 더 큰 가치를 창출하기 위해 쌀과자,

쌀막걸리 등 2차 가공 식품도 증가하는 것과 같은 현상이라 할 수 있다. 이처럼 쌀 생산이

Page 15: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

15

거대 기업농으로 변하고 2차 가공식품 산업도 커지면서 새로운 기술이 도입된 가공시설을

갖춰야 하듯이, 이제는 본격 적인 가공을 위해 진일보된 빅데이터 기술들을 접목해야 하는

시점에 도달했다. 따라서 빅 거래 데이터는 기존 데이터 활용의 연장선상에 서 맞이하는

빅데이터라고 이해하면 된다.

또 다른 한 축으로 자리 잡고 있는 ‘빅 상호작용 데이터’는 클릭스트림, 이미지/텍스트, 과학

자료와 각종 센서 및 RFID(Radio Frequency Identification) 데이터 등 새로운 기술 혁신에

따른 사람과 사람, 사람과 기계, 기계와 기계 간의 상호 작용으로 생성되어 크게 증가하는 데

이터들이다.

사람과 사람 사이의 상호작용으로 발생하거나(SNS상의 대화 등), 기계와 기계 간의 상호작용

으로 생산되는데(센서들 간의 교신), 특히 사람들이 컴퓨터나 디지털 기기를 사용하며 남긴 흔

적이나 기록 등이 큰 비중을 차지하고 있다. 과거에는 단편적으로 활용되었으나 빅데이터 시

대에 오면서 새로운 가치가 본격적으로 드러나고 있는 것들이다. 과거에는 들판에 널린 식물

중에서 찧기 쉬운 몇몇 곡식만 골라 먹었다면, 이제는 가공기술이 발달해 그간 못 먹고 버려

왔던 열매와 식물, 약초까지 두루 골라 먹을 수 있게 된 것이라고 이해하면 된다.

2. 빅데이터의 유용성

빅데이터에 대한 정의를 내렸으나, 아직도 의문은 가시지 않을 수 있다. 써먹으려면 복잡하기

그지없는 빅데이터에 왜 관심이 집중되는 것일까? 그것은 이러한 어려움을 감수할 만큼 귀중

하고 달콤한 효용이 숨어 있기 때문이다.

<그림 2-3> 빅데이터의 유용성

Page 16: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

16

1) 규모 측면의 유용성

빅데이터 수준으로 큰 데이터를 다룰 수 있게 되면, 우선 정보의 왜곡을 줄일 수 있다. 기존에

는 데이터를 수집하는 데 비용과 시간이 많이 들었기 때문에 제한된 데이터로부터 전체의 특

성을 알아내는 기법에 의존할 수밖에 없었다. 이것이 바로 일반적인 표본 추출(sampling)과

통계(statistics) 이면에 내포된 전제이다.

하지만 표본 추출은 표본이 적절히 설계되지 않거나 추출이 편향되게 이루어질 위험(표본 오

차)이 높으며, 실제 조사 과정상의 문제로 결과가 왜곡될 위험(비표본 오차)도 상당하다. 각종

선거마다 여론조사가 번번이 어긋나는 광경을 보면 이를 잘 알 수 있다. 설령 수집 기술이 발

달해서 많은 데이터를 모으더라도 적절한 빅데이터 처리·분석 기법 없이는 여전히 정보의 왜

곡을 감수할 수밖에 없다. 분석이 가능한 수준으로 데이터를 병합하거나 디테일한 정보를 삭

제하면서 정형화된 형태로 끼워 맞춰야 하기 때문이다. 그 동안에는 이 과정에서 소실되는 정

보의 가치에 별로 주목하지 않았으나, 이것이 상당한 가치를 지니고 있다는 점이 밝혀지고 있

다.

그뿐만 아니라 데이터가 커지면서 오히려 작은 데이터에서는 사용할 수 없었던 색다른 기법들

이 가능해지기도 한다. 이를테면 인간의 미묘한 언어를 이해하기 위해서는 되도록 수많은 맥

락을 패턴으로 미리 숙지하고 있어야 한다.

‘bat’, ‘ball’, ‘diamond’라는 세 단어를 던져주면 (남자들이라면) 대번에 야구를 떠올린다. 그

리고 각각 ‘야구 방망이’, ‘야구공’, ‘야구장 내야’라는 의미에 연결시킨다. 하지만 단순히 영어

단어와 의미의 대응 관계만을 수록한 영어사전과 대조해서는 전혀 그러한 맥락을 알아챌 수

없다. ‘bat’는 박쥐라는 뜻도 있고, ‘ball’은 무도회라는 뜻으로도 쓰인다. ‘diamond’는 말 그대

로 보석 다이아몬드를 떠올리기 십상이다. 인간이 직관적으로 내리는 판단에 버금가는 수준까

지 가려면 이들 단어가 함께 쓰이는 많은 야구 관련 이야기들을 충분히 학습하지 않으면 안

된다.

이러한 아이디어가 접목된 좋은 사례가 바로 ‘구글 번역(Google Translate) 서비스’이다.

<그림 2-4> 구글 번역 서비스

<자료 : 구글 번역 사이트>

Page 17: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

17

과거에도 수많은 자동 번역 서비스들이 나왔지만, 막상 번역 결과를 보면 실망스럽기 그지없

었다. 정확한 문맥을 파악하지 못해 전혀 엉뚱한 뜻을 대응시키고 어색한 결과를 내는 경우를

많이 겪어봤을 것이다. 이는 인간이 쓰는 문장을 문법 구조에 따라 분해하고 사전을 이용하여

하나하나 대치시킨 다음에 재조합하는 방식을 썼기 때문이다.

사람도 외국어를 처음 배울 때 이런 방식으로 번역을 하지만 결과는 몹시 어색하기 그지없다.

그럴 때 외국어 학습서나 경험 많은 선배들은 어떻게 조언할까? 흔히 하는 말이 바로 “외국어

문장을 많이, 통째로 외워버려!”이다. 처음에는 굉장히 무책임한 조언이라고 원망도 하겠지만,

공부를 하다 보면 이 말이 진리임을 깨닫고는 한다. 단어 하나하나로 접근하지 말고, 문장 전

체의 패턴을 기억해놓은 뒤 단어 한두 개만 살짝 바꾸면 의미 전달이 훨씬 정확해지기 때문이

다. 이것이야말로 아주 초보적인 언어 본능만을 갖고 태어난 아이들이 언어를 익히는 방식이

고, 동시에 구글 번역이 택한 방법이다.

구글이 이를 위해 이용한 초기 학습 데이터는 유럽연합(EU)에서 얻었다. EU는 서로 다른 언

어를 사용하는 유럽 여러 나라들로 구성되어 있다. 따라서 EU에서 작성되는 각종 법률, 규약

등의 공문서는 각국 언어로 모두 공들여 번역되며, 당연히 번역 내용 사이에 뜻의 차이가 없

는지도 매우 꼼꼼하게 점검된다.

또한 구글은 ‘구글 도서(Google Books) 프로젝트’를 통해 전 세계 다양한 언어로 된 책들을

전자화하는 작업을 추진해왔다. 세계적으로 유명한 책들은 동일한 내용이 수많은 언어로 번역

되어 있기 때문에 이 또한 좋은 학습 자료가 된다. 구글은 이렇게 의미가 정확히 대응되는 각

언어로 된 문서 수십억 장을 이용해 다양한 번역 패턴을 찾아내고 서비스를 시작했다. 좋은

반응이 나오는 것도 당연하다.

그런데 사실 이 방법은 구글이 처음 시도한 게 아니다. 1990년대 초 IBM도 같은 아이디어로

자동 번역 서비스를 시도했다. 이때 이용한 자료는 캐나다 공문서였다. 캐나다는 영어와 프랑

스어를 공용어로 쓰므로 모든 공문서가 이 두 가지 언어로 작성된다. 그러나 IBM의 시도는

실패로 돌아갔다.

왜 그랬을까? 2000년대 구글과 달리, 1990년대 IBM이 학습에 활용했던 문서는 수백만 장 규

모에 불과했기 때문이다. 인간 언어의 복잡 미묘한 패턴을 잡아내기 위해서는 수백만 장도 결

코 큰 데이터가 아니다. 오늘날 다양한 문제 해결에 필요한 훨씬 복잡 미묘한 패턴을 잡아내

려면 빅데이터가 필요하다.

2) 다양성 측면의 유용성

빅데이터의 다양성도 새로운 가능성을 열어준다. 빅데이터를 수집하고 분석할 수 있게 되면서

훨씬 다양한 데이터의 활용이 가능해졌다. 특히 다양한 비정형 데이터에서 생각지도 못했던

결과를 얻는 일이 빈번해졌다. 인상적인 변화는 사람들의 실질적인 생각과 행동이 표출되는

Page 18: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

18

검색엔진이나 소셜 미디어에서 종종 나오고 있다.

‘구글 트렌드(Google Trends) 서비스’는 국내 포털사이트에서 제공하는 실시간 검색어 순위와

비슷하다.

<그림 2-5> 구글 트렌드 서비스

<자료 : http://www.indaily.co.kr/client/news/newsView.asp?nBcate=F1012&nMcate=

M1001&nIdx=23782&cpage=1&nType=1 >

다른 점은 검색어별로 과거에 어느 정도 검색이 많이 이루어졌는지 일목요연한 이력을 제공해

준다는 것이다. 이 데이터를 이용하면 각 시점별로 특정 사안에 대해 사람들의 관심이 얼마나

집중되고 있는지 파악할 수 있다.

재미있는 응용 사례들이 많이 나왔는데, 대표적인 것이 독감 유행 징후의 감지이다. 기존에는

독감 유행을 포착하기 위해서 정부 보건당국이 각 지역 병원으로부터 환자 통계 데이터를 넘

겨받아 취합하는 번거로운 과정을 거쳐야 했다. 따라서 보통 빨라도 일주일 정도는 시간이 지

연될 수밖에 없다.

그런데 인터넷 시대의 변화된 생활 패턴에서는 독감 증상이 나타나면 곧바로 인터넷 검색을

하기 마련이다. 독감의 증상, 치료법, 가까운 병원 등 관련된 정보 검색 활동이 이루어지고,

이와 관련된 검색어도 활발하게 입력된다. 또한 접속자의 컴퓨터 인터넷 주소를 역추적하면

위치정보도 알아낼 수 있기 때문에, 어느 지역에서 이러한 검색이 활발히 이루어지는지도 파

악할 수 있다. 이 관계를 조사해본 결과, 구글 트렌드로 정부 보건당국보다 더 빨리 독감 유행

사실을 감지할 수 있음이 밝혀졌다.

구글 트렌드는 독감 같은 병력뿐만 아니라 소비 지출 같은 경제 상황 파악에도 유용하다. 전

통적으로 소비 동향은 소비자태도지수 설문조사 등을 통해 파악했다. 하지만 이 역시 표본 추

출과 조사 과정의 오류 가능성에서 벗어날 수 없다. 그런데 최근 연구에 의하면, 미국의 소비

지출 예측에 구글 트렌드를 이용해봤더니 더욱 정확한 예측이 가능했다고 한다.

Page 19: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

19

소셜 미디어도 세간의 민심을 파악하는 데 매우 유용한 데이터 소스임이 드러나고 있다. 대표

적으로 나날이 급변하는 정치 민심을 파악하기 위해 소셜 미디어 분석이 다양하게 이루어지고

있다. 영국의 정치 정보 사이트 트윗민스터(Tweetminster)는 2010년 영국 총선 결과를 예측

하기 위해 트위터 멘션을 집계했다. 영국 각 당의 각료와 하원의원 등 대표 정치인 리스트를

만들고, 이들이 트위터에서 얼마나 언급되고 있는지 헤아려본 것이다. 비교적 간단한 방법임에

도 불구하고 이 결과는 아래의 표처럼 상당히 정확한 것으로 밝혀졌다. 심지어 영국 6대 여론

조사기관의 결과와 비교해도 단 한 군데만이 이보다 더 나은 예측을 했을 정도였다.

2010년 영국 총선 예측과 실제 결과

<주 : ICM과 TNS-BMRB는 영국의 대표적인 여론조사기관.>

<자료 : The Guardian (2010). / http://www.guardian.co.uk/media/pda/2010/may13/twitter-twe

etminster- election>

이러한 사례는 빅데이터의 다양성이 주는 매력의 일부에 불과하다.

특히 최근 들어 고객의 행태를 정확히 이해하는 것이 긴요해지면서 더욱 그러하다. 뇌 과학,

소비자 행동 이론이나 행태경제학, 뉴로마케팅(Neuromarketing) 등이 발전하면서 고객의 의

사결정에는 이성적인 판단 기준 이외에도 다양한 감정적 요소가 개입된다는 것이 이제는 상식

으로 자리 잡고 있다. 그렇기에 미묘한 감정 변화를 촉발하는 다양한 요소들까지 헤아리는 한

층 더 고차원적인 정보가 필요해지고 있다. 그러한 정보는 기존의 정형화된 매출 기록만 들여

다봐서는 얻을 수 없다. 훨씬 광범위한 비정형 데이터 속에서 그 실마리를 찾아야 한다. 그 비

밀에 한 발짝 접근할수록 엄청난 가치를 향한 문이 열릴 것임은 분명하다.

3) 속도 측면의 유용성

정신 없을 정도로 빠르게 움직이는 빅데이터의 속성도 이전과 다른 가치의 원천이 되고 있다.

무엇보다 빠른 발생과 유통 속도 덕분에 실시간으로 광범위한 상황 파악이 가능해진 점이 두

드러진다. 앞서 우면산 산사태나 독감 유행, 소비심리 측정 등의 사례에서 볼 수 있듯이, 직접

나서서 광범위한 감지 시스템을 구축하지 않더라도 공개된 빅데이터만 제대로 분석하면 상황

파악에 걸리는 시간을 엄청나게 단축시킬 수 있다. 이처럼 상황이 악화되기 전에 발 빠르게

선제 대응할수록 비용 절감 효과도 엄청나게 높아지기 마련이다. 각국 정부가 방재 시스템 개

선에 빅데이터를 활용할 방법을 적극적으로 모색하는 것도 당연한 수순이다.

Page 20: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

20

발 빠른 대응은 때로 기업의 운명을 바꾸기도 한다. 리스크 관리 분야에서 잘 알려진 사례로

2000년 3월 17일, 미국 뉴멕시코 앨버커키 에 위치한 필립스 반도체 공장의 화재 사고가 있

다. 이 공장에서는 휴대전화에 들어가는 핵심 부품인 무선통신용 칩을 제작, 납품하고 있었다.

최대 고객사는 노키아와 에릭슨으로, 두 회사 모두 생산 물량의 약 40%를 조달 받고 있었다.

필립스는 당초 이 화재 피해로 일주일 정도 생산이 지연될 것이라고 통보했다. 에릭슨은 이

말을 철석같이 믿고 별다른 추가 대책을 세우지 않았다. 그러나 화재 진압 당시 살포된 소화

액 등이 반도체 공정에 필요한 청정실 내부를 크게 오염시켜 생산 차질은 몇 주 이상 지속되

었다. 그 결과 에릭슨은 부품 부족으로 상당한 생산 차질을 빚어 2000년 2/4분기에 2억 달

러의 영업손실을 입고 말았다.

반면 노키아는 사고가 발생하자마자 자체 대응팀을 가동하여 독자적으로 파악한 결과, 생산

차질이 6주 이상 빚어질 것이라는 결론을 내렸다. 이어 재빨리 대체 공급선 마련에 박차를 가

해 휴대전화 완제품 생산에 차질이 없도록 했다. 일대 혼란을 겪은 에릭슨이 각국 고객들로부

터 신망을 잃는 사이, 노키아는 더욱 승승장구할 수 있었다. 이를 기점으로 노키아는 세계 1

위 휴대전화 업체의 입지를 확실히 굳혔고, 에릭슨은 점차 시장에서 존재감이 옅어지게 되었

다.

이처럼 경쟁자보다 앞선 감지-대응 능력은 결정적인 경쟁력 차이로 직결된다. 빅데이터는 이

러한 신속한 감지-대응 시스템을 더욱 정교하게 구축할 수 있는 토대가 된다. 특히 최근에는

각종 제품에 수많은 센서가 내장되고 있으므로, 여기서 수집한 데이터를 무선 인터넷으로 실

시간 전송해 문제를 파악하고 고객이 직접적인 불편함을 느끼기 전에 미리 해결책을 제시하는

서비스도 활발히 개발되고 있다. 대표적인 예가 자동차 분야이다.

’볼보’ 에서는 시범 차종에 대해 고객이 자동차를 운전하는 과정에서 수집되는 수많은 데이터

를 본사 분석 시스템에 전송하도록 했다. 초기에는 자동차에 저장된 데이터를 직접 전송하는

것이 어려워서 고객이 자동차를 서비스센터에 맡기면 데이터를 다운로드 받아 유선으로 본사

서버에 전송하는 방식을 이용했다. 이어 통신기술의 발전과 함께 점차 무선으로 실시간 전송

하는 시스템으로 확장해나갔다. 그리고 이렇게 수집된 빅데이터를 분석하여 제품 개발 단계에

서는 미처 예상하지 못했던 고객의 운전 패턴과 차체 결함, 잠재 니즈 등을 찾아낼 수 있었다.

볼보자동차는 볼보그룹이 1999년 포드에 매각했으며, 포드 자회사로 있던 시절에 데이터 이

용 노력을 다각도로 기울였다. 볼보자동차는 다시 2010년 중국의 지리(吉利)자동차에 매각되

었지만, 포드는 그간의 성과를 이어받아 현재까지 이와 관련된 노력을 적극적으로 지속하고

있다.

이러한 노력의 성과는 상당히 주목할 만한 것이었다. 특히 향후 대규모 리콜로 발전할 수 있

는 결함을 불과 1,000여 대가 팔린 시점에서 금세 찾아내어 선제적인 대응도 할 수 있었다.

보통 이런 결함은 수만에서 수십만 대의 차량이 팔리고 실제 고객들이 불편을 느껴 클레임을

Page 21: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

21

걸고 나서야 발견되는데, 그때는 이미 사태를 수습하기에는 한발 늦어 막대한 리콜 비용을 들

일 수밖에 없다.

승승장구하며 2008년 세계 시장점유율 1위로 올라선 도요타도 2010년 가속페달 결함으로

미국에서 230만 대, 전 세계에서 1,000만 대를 리콜하는 악재가 터지면서 고전한 바 있다.

앞으로 자동차에도 빅데이터가 효과적으로 활용된다면 그러한 비용을 엄청나게 줄일 수 있을

것이다.

어디 그뿐이겠는가. 이미 오래 전에 도요타가 발표한 미래 스마트카의 비전에는 이런 식으로

개개 차량의 문제를 파악한 뒤 자동으로 고객에게 이를 통보해주고, 수리를 해줄 수 있는 서

비스센터 예약까지 연계해주는 시스템이 담겨 있었다.

인터넷에서 이른바 ‘김 여사’로 불리는 불특정 다수의 여성 운전자는 물론, 많은 남성 운전자

들도 차량이 말썽을 부리고 돌발 상황이 발생하면 어떻게 대처해야 할지 몰라 종종 애를 먹곤

한다. 그런 고객들에게 이렇게 미리 문제를 헤아려 서비스를 받는 방법까지 제시해준다면 엄

청난 매력 포인트가 될 것임은 자명하지 않겠는가. 2012년 5월 발표한 기아의 신형 세단 K9

에도 SK텔레콤과 제휴한 유보(UVO) 스마트컨트롤 시스템이 장착되어 이동통신망을 이용한

내비게이션 서비스와 원격 차량진단 서비스가 제공되고 있다.

이처럼 앞으로는 자동차뿐만 아니라 우리 생활과 밀접한 제품 곳곳에 이러한 기능이 내장되어

한발 앞서 만족도 높은 서비스를 제공하는 흐름이 지속될 것이다.

Page 22: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

22

1. 2012년은 빅데이터 시대의 원년

앞서 빅데이터의 유용성에 대해 살펴보았지만, 아직 금전적인 기대 효과까지 상세하게 추산하

기란 쉽지 않다. 다만 세계적인 경영컨설팅 회사 맥킨지 산하의 맥킨지 글로벌 인스티튜트

(MGI)의 연구에 의하면, 미국의 의료 서비스 부문에서만 연간 3,000억 달러의 편익과 생산성

0.7% 증가 효과를, 유럽의 공공 행정 부문에서도 매년 2,500억 유로의 편익과 생산성 0.5%

증가 효과를 낼 것으로 기대된다. 그 외에도 미국 소매사업 부문은 이익이 60% 증대될 수

있으며, 제조업도 제품 배치와 조립 비용의 최대 50%, 운전자본도 7% 절감할 수 있으리라

예측된다.

이러한 효과는 아직 본격적으로 개발되지 않은 광산의 금처럼 대부분 빛을 보지 못하고 묻혀

있다. 지금 보고 있는 빅데이터의 가능성은 거대한 금맥 가운데 일부에 지나지 않는다. 이 막

대한 효과를 채굴하기 위해 각 기업들은 저마다의 연장과 노하우를 갖고 한자리씩 차지하러

몰려가고 있는 것이다. 그러나 모두에게 달콤한 미래가 기다리고 있는 것은 아니다. 과거 골드

러시 때마다 맨주먹으로 대박의 꿈을 품고 몰려온 이들 가운데 상당수가 실패하고 빈털터리로

돌아갔듯이, 빅데이터에 혹해 달려든 기업들도 적절한 역량과 전략적 혜안을 갖추지 못한다면

실망 속에 쓸쓸히 돌아서야 할 것이다. 이러한 역량 배양을 위해 2000년대 초반부터 세심한

공을 들여온 구글의 수석 경제학자(Chief Economist) 할 배리언(Hal R. Varian)은 다음과 같

이 이야기한 바 있다.

2012년은 이러한 능력이 본격적으로 빛을 발하는 하나의 전환점, 즉 빅데이터 시대의 원년이

되리란 예측이 팽배하다. 지난 10년이 빅데이터 기술의 가능성을 확인하는 시간이었다면, 앞

으로의 10년은 단계적으로 여러 고비를 거쳐가며 빅데이터 기술이 실생활로 파고드는 시간이

될 것이다. 이미 발 빠른 기업들은 이러한 능력을 확보하고 빅데이터 금맥을 움켜쥐기 위해

골드러시를 시작한 상태이다.

그렇다면 이번 장에서는 빅데이터 시대에 편승하기 전에, 다양한 층위를 관통하는 시대적 흐

름의 관점에서 왜 빅데이터가 우리 곁으로 성큼 다가오고 있는지, 뒤이어 빅데이터가 어떠한

분야에 활용되고 있는지 알아보자.

첫 번째 관전 층위는 당연히 데이터와 관련된 기술 환경일 것이다. 빠르게 성숙하고 있는 빅

데이터 기술의 역동성을 우선 체감하는 일이 제일 중요할 것이다. 하지만 이제까지 많은 기술

3차시 빅데이터의 확산 배경

데이터를 얻는 능력, 즉 데이터를 이해하는 능력, 처리하는 능력,

가치를 뽑아내는 능력, 시각화하는 능력, 전달하는 능력이야말로

앞으로 10년간 엄청나게 중요한 능력이 될 것이다.

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

3차시 학습 교안

Page 23: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

23

들이 그러했듯 모든 기술이 시장과 세간의 주목을 받는 것은 아니다.

따라서 두 번째 관전 층위는 빅데이터가 유행하고 있는 이면에 작용하는 경영 환경이 되어야

한다. 왜 이 시대 기업들이 이러한 기술을 적극적으로 수용할 수밖에 없는지, 그들의 절박한

사정도 함께 살펴볼 필요가 있다.

2. 빅데이터 활용 배경 1 – 꿈을 현실로 만드는 기술 환경의 변화

1) 저장 매체의 발달과 저장 비용의 하락

데이터가 이렇게 폭발적인 증가 일로를 걷고 있는 이유는 몇 가지로 나누어 생각해볼 수 있다.

쉽게 생각할 수 있는 첫 번째 이유는 데이터 저장 매체의 발달이다. 인류의 역사를 보면, 문자

의 발명 이후 점토판, 식물의 껍질이나 동물의 가죽, 죽간(竹簡) 같은 나뭇조각 등이 쓰이다가

제지술과 인쇄술이 발명되면서 기록물이 크게 늘어났다. 과거에는 거의 흔적도 없이 사라진

수많은 인간 활동과 지식 정보가 종이에 활자로 인쇄되어 차곡차곡 쌓이게 된 것이다. 하지만

종이는 담겨 있는 정보에 비해 차지하는 부피가 매우 크다는 약점이 있다. 미국 국회도서관은

무려 1억 권이 넘는 책을 소장하고 있는데, 이만한 책을 쌓아놓기 위해서는 웅장한 건물과 서

가를 갖춰야 한다.

20세기에 들어와서는 여기에 사진용 필름, 축음기 음반(레코드), 카세트테이프, 비디오테이프

등의 아날로그 저장 매체들이 추가되었다. 문자로 기호화된 책과 문서의 한계에서 벗어나, 음

성과 영상이 세밀한 은 입자(필름)와 자성물질(테이프) 등에 기록되면서 정보의 양은 훨씬 풍

성해지고 부피는 줄어들었다. 저자가 공들여 압축하고 정제해 써 내려간 도서의 문장에 비해

음성, 영상 등이 훨씬 용량을 많이 차지하는데도 말이다.

디지털 시대가 본격 도래하기 이전인 1988년, 인류가 확보한 아날로그 데이터 저장 능력은

262만 테라바이트 수준이었다고 한다. 그리고 그 중 90% 이상은 필름, 카세트테이프, 비디

오테이프 등이었다.

그러나 1990년대 이후 디지털 혁명이 일어나고 텍스트, 음성, 영상 데이터가 모두 디지털화

되면서 데이터 저장 능력의 향상 흐름은 획기적으로 강해졌다. 컴퓨터 저장 장치가 플로피디

스크에서 하드디스크로, 다시 플래시메모리로 바뀌면서 이제는 길거리 도처에서 발견되는 스

마트폰 하나하나에도 수십 기가바이트의 메모리가 탑재되어 있다. 그 안에 각종 사진 파일, 음

악 파일, 동영상 파일을 넣고 다니면서 이동할 때마다 드라마, 예능 프로그램, 영화, 애니메이

션을 보는 사람들의 모습은 우리 주변에서 익숙한 풍경이 되어버렸다.

Page 24: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

24

<그림 3-1> 1988~2007년 인류의 데이터 저장 용량 변화

이러한 기술의 진보와 더불어 데이터를 저장하는 데 드는 비용도 날이 갈수록 엄청나게 떨어

지고 있다. <그림 3-2>는 1기가바이트의 데이터를 저장하는 데 필요한 하드디스크드라이브

(HDD) 가격이 지난 30년간 어떻게 변화했는지를 보여준다. 그냥 보면 밋밋한 직선으로 보이

지만, 왼쪽 축이 눈금당 10배씩 차이 나는 로그 단위로 되어 있으므로 실제로는 엄청나게 폭

락해왔음을 알 수 있다.

<그림 3-2> 1980~2010년 기가바이트당 HDD의 가격 변화

<자료 : Komorowski, M. (2010). “A History of Storage Cost.”/ http://www.mkomo.com/cost-per-gigabyte>

Page 25: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

25

굳이 그래프를 보지 않아도 이런 비용 하락은 쉽게 체감할 수 있다. 앞서 말한 미국 국회도서

관 책 1억 권의 데이터도 디지털화하면 대략 15테라바이트에 불과하다. 요즘 많이 팔리는 PC

용 1테라바이트짜리 HDD의 시중 가격이 10만 원 정도이니, 150만 원만 있으면 미국 국회도

서관을 집에 들여놓을 수 있는 셈이다. 음악도 크게 다르지 않다. 전 세계에 출시되어 있는 모

든 음악을 디지털 압축하여 저장하면 600달러어치의 HDD로 충분하다는 연구도 있다.

비용의 이런 극적인 하락은 데이터의 생산과 소비 행태까지 바꿔놓는다.

사진을 예로 들어보자. 필름 카메라를 사용하던 시절에는 촬영을 제약하는 가장 큰 요소가 바

로 필름이었다. 24장 또는 36장을 찍을 수 있는 필름 용량도 한계였고, 찍고 나서도 사진이

어떻게 나왔는지 보려면 현상소에 맡겨 최소 몇 시간은 기다려야 했다. 필름 구입비, 사진 인

화비 등을 생각하면 사진 한 장을 즐기기 위한 시간과 비용은 만만치 않았다.

하지만 디지털카메라 시대에 들어온 지금, 저장 장치 비용은 거의 무시할 수준이 되었다. 사진

1,000장은 족히 들어갈 수십 기가바이트짜리 메모리카드 하나를 이제는 예전 필름 몇 통 가

격이면 살 수 있다. 데이터 이동과 재사용도 얼마든지 가능해졌다. 행여나 필름이 떨어질까 조

심스레 셔터를 누르던 시대는 이미 지나가고, 내키는 대로 얼마든지 찍고 확인하고 마음에 안

들면 지워버리는 행태가 일상화되었다.

이처럼 저장 매체 기술의 발달은 데이터 생산에 드는 수고와 비용을 극적으로 줄임으로써 데

이터 폭증에 톡톡히 기여하고 있다. 마음껏 데이터를 소비하는 생활 습관은 앞으로도 계속되

어 방대한 빅데이터를 만들어낼 것이다.

2) 사람과 사람, 기계와 기계 간 ‘연결’ 증가

다음으로 더욱 주목해야 할 부분은 바로 현대 IT의 총아인 통신 기술의 발달과 그로 인한 ‘연

결성(connected ess)’ 증가를 꼽을 수 있다. 예전에는 컴퓨터가 대단히 희소한 자원이었고, 컴

퓨터를 이용할 수 있는 사람도 매우 한정되어 있었다. 반세기 전인 1960년대만 해도 사람과

컴퓨터의 비율은 컴퓨터 한 대당 100명꼴로 소수의 컴퓨터에 여러 사람이 달라붙을 수밖에

없었다. 대학에 한두 대 있는 컴퓨터를 쓰기 위해 펀치카드(punch card) 에 정성스레 프로그

램을 작성하고 담당 직원에게 제출한 뒤 한참이 지나야 결과를 받을 수 있던 시대였다.

이후 1980~1990년대 PC 보급이 확대되면서 그 비율은 거의 일대일이 되었다. 더 이상 남의

눈치 볼 필요 없이 키보드로 두들기고 결과를 볼 수 있는 시대가 온 것이다. 2010년대인 오

늘날에는 이도 모자라 집에 PC를 갖춰놓고 가방 속에 스마트패드나 노트북을 넣고 다니는 사

람들이 많다. 이미 사람보다 컴퓨터가 많은 시대가 되었으며, 2016년에는 1인당 평균 모바일

기기 개수가 1.4대로 늘어날 것이라 예측되고 있다.

단순히 개수만 늘어난 것도 아니다. 대부분의 사람들이 하나씩 들고 다니는 스마트폰의 성능

은 불과 수년 전의 PC 성능보다도 훨씬 좋다. 집에서 굴러다니는 구형 스마트폰의 내부 소프

Page 26: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

26

트웨어를 교체하여 다양한 가정용 기기를 제어하는 데 이용하는 DIY족들도 늘어나고 있다.

이러한 경향은 미래에도 계속 확대될 전망이다. 앞으로는 개인용 기기 이외에도 일상에서 사

용하는 기기 곳곳에 컴퓨터가 내장될 것이다. 이미 스마트 TV나 스마트 냉장고가 시판되고 있

듯이, 앞으로는 자동차부터 각종 가전제품, 그리고 어딘가 숨어 있는 장치들 구석구석까지 컴

퓨터와 무선통신 장치가 들어설 것이다. 미국 IT 시장조사기관 가트너(Gartner)는 2040년경

이 되면 어디를 가든 수백 대의 컴퓨터가 주변을 둘러싸고, 이들과 정보를 주고받는 시대가

될 것이라 전망하고 있다.

이처럼 통신 기능을 갖추고 고도의 계산을 할 수 있는 컴퓨터가 생활 곳곳에 내장되면 연결은

더욱 많아진다. 100명이 서로 아무런 소통을 하지 않고 있다면 이는 단순히 100개의 점에 지

나지 않지만, 이들이 서로 소통을 시작하면 ‘100×99/2 = 4,950개’의 선이 추가된다. 그 수는

늘어나는 주체 개수의 제곱에 비례해 증가한다. 적극적인 인구 정책으로 전 세계 인구수는 앞

으로 증가세가 한풀 꺾일지도 모르지만, 대신에 앞서 본 대로 통신이 가능한 지능형 디바이스

(device)가 엄청나게 늘어나면서 연결은 더더욱 늘어나고, 따라서 이들 사이를 오가는 데이터

도 폭증할 수밖에 없다.

이러한 미래상에 맞춰 이미 여러 선진 기업들도 다양한 비전을 내세우고 있다. 대표적으로

IBM은 현재의 기술 발전을 지속 가능한 발전과 효율 향상, 사회적 진보로 이어가기 위해 ‘스

마터 플래닛(Smarter Planet : 더 똑똑한 세상)’ 구상을 발표했다. 인간은 물론 각종 사물에 센

서와 통신 모듈을 내장시켜 서로 정보를 주고받는 네트워크를 만들고, 여기서 주고받는 엄청

난 데이터를 지능적으로 이용하여 좀 더 효율적인 세상을 만들자는 것이다. 대표적으로 전력

공급자와 공장, 가정, 사무실 등의 전력 소비자가 상호 실시간 통신을 하며 전력 사용 패턴을

모니터링하고 적절히 생산과 배분을 조정하여 에너지 효율을 극대화하려는 스마트 그리드

(Smart Grid) 기술이 여기에 포함된다.

<그림 3-3> IBM의 스마터 플래닛 비전

<자료 : IBM>

IBM이 현재 빅데이터에 막대한 투자를 하고 업계 주도권을 고수하려 바짝 고삐를 죄는 이유

도 여기서 드러난다. 스마터 플래닛 비전의 핵심은 단순히 하드웨어적인 네트워크를 만드는

것이 아니다. 이 네트워크에서 주고받는 막대한 데이터를 직접적인 편익 향상과 가치 창출에

Page 27: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

27

이용할 수 있는 빅데이터 기술이 함께 구비되어야만 비로소 실현이 가능해지기 때문이다.

IBM뿐만 아니라 GE는 에코매지네이션(Ecomagination), 휴렛팩커드는 센스(CeNSE : Central

Nervous System for Earth)라는 이름으로 이러한 인식을 공유하고 있다. 이처럼 사회 인프라

구석구석의 연결 확대와 빅데이터의 발전은 당분간 함께 진행되어나갈 필연적 흐름이다.

3) 급격히 진보하고 있는 데이터 관리 및 분석 기술

과거에 디지털 데이터를 연구하던 사람들에게는 매우 친숙한 사진이 하나 있다. 바로 ‘레나

(Lena)’라는 이름의 가로세로 512픽셀짜리 테스트 이미지 한 장이다. 이 사진의 주인공은 스

웨덴 출신 모델 레나 쇠데르베리(Lena Soderberg)이다. 서던캘리포니아 대학(USC) 연구자들

은 유명 성인잡지 《플레이보이》 1972년 11월호를 장식했던 그녀의 매혹적인 누드 사진을 보

고 오묘한 감동을 받아 이 사진을 공들여 스캐닝하고 얼굴 부분만 잘라 이미지 파일로 만들었

다. 그리고 당시 연구 중이던 갖가지 기술을 시험 적용해보는 테스트 이미지로 쓰기 시작했다.

<그림 3-4> 텍스트 이미지 ‘레나’(왼쪽)와 이 사진이 실린 [플레이보이] 표지

이후 이 파일은 널리 퍼져나가 전 세계의 이미지 처리 기술 연구자들 사이에서 표준 이미지로

활용되며 유명세를 톡톡히 치렀다. 1970년대만 해도 영상 데이터 처리 연구에는 이 한 장의

이미지 파일만으로 충분했다. 당시의 기술 수준으로는 이만한 데이터 용량을 처리하기도 버거

웠기 때문이다.

오늘날에는 디지털 이미지 양이 1970년대와는 비교할 수 없이 증가했다. 불과 1990년대만

해도 디지털 이미지 데이터베이스라고 하면 수만 장 수준에 불과했는데 말이다. 당시에는 이

런 사진을 검색하는 기술도 초당 수천 장 수준이었으므로 그럭저럭 몇 초를 기다리면 이미지

를 분석하고 원하는 정보를 뽑아낼 수 있었다. 그런데 오늘날 플리커(Flickr)나 피카사(Picasa)

등 대표적 온라인 이미지 공유 사이트에 저장된 사진 분량은 상상을 초월해 데이터베이스마다

수십억 장에 이른다. 만약 영상 데이터 처리 기술이 답보 상태에 있었다면, 제아무리 컴퓨터

성능이 좋아져도 늘어나는 데이터를 감당하지 못했을 것이다. 이미지 데이터베이스에 필요한

Page 28: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

28

정보를 뽑아내도록 명령을 내린 뒤에 몇 분 이상을 기다려야 결과를 볼 수 있기 때문이다.

다행히 디지털 이미지를 분석하고 색인화하는 기술도 엄청나게 발전하고 있다. 오늘날 학계에

서 발표하는 최신 기술은 굳이 슈퍼컴퓨터를 쓰지 않더라도 초당 수억 장의 사진을 처리, 검

색할 수 있을 정도로 진보했다. 플리커, 피카사 등이 아직 최신 기술을 채택하지 않은 상태로

도 꽤나 놀라운 결과들을 보여주는 것을 생각하면, 이런 기술이 적용된 미래에는 어떤 세상이

펼쳐질지 기대되지 않는가?

이미지 처리 기술은 빅데이터 관련 기술의 극히 일부에 불과하지만, 다른 비정형 데이터와 관

련된 기술도 마찬가지로 급속하게 진보하고 있다. 이러한 기술적 진보가 뒷받침되고 있기에

빅데이터가 더욱 가치를 발하고 세간의 관심 대상이 될 수 있는 것이다. 특히 ‘애널리틱스

(Analytics)’로 불리는 데이터 분석 기술의 발달 덕분에 엄청난 규모의 모호한 데이터도 사람

대신 컴퓨터가 분석할 수 있는 시대가 열리고 있다. 이러한 빅데이터 분석 기술의 다양한 면

모는 매우 광범위하고 전문적이므로 뒤에서 차근차근 살펴보기로 하겠다(<Insight·빅데이터 기

술의 이해> 참조).

3. 빅데이터 활용 배경 2 – 기업 경쟁 환경의 격화

지금까지는 기술적 환경의 성숙에 대해 살펴보았다. 그러나 기술이 발전한다고 해서 항상

시장의 이슈로 대두되는 것은 아니다. 기술적으로는 이미 오래 전부터 가능했던 일이라 해도

시장 환경과 딱 맞아떨어지지 않으면 대중화되기 어렵다. 시대를 앞서간 수많은 기술이

시장에 받아들여지지 않고 그대로 잊힌 경우도 수없이 있어왔다. 때로는 경제성이 없어

외면당한 경우도 있고, 상당한 성공 가능성이 점쳐졌지만 소비자들이 막상 필요로 하지 않아

금세 시들해진 기술도 있다. 그런 면에서 빅데이터가 시장 환경과는 어떻게 맞아 떨어 지고

있는지도 매우 중요한 문제이다.

그렇다면 빅데이터를 필요로 하는 기업들은 어떠한 상황인가? 우선 쉽게 체감할 수 있는 IT

업계부터 살펴보자. 인터넷 혁명 이후 오늘날 IT 업계의 판도 변화를 보면 숨 가쁘다는

말로도 부족하다. 최근에 일어나고 있는 극적인 변화는 노키아와 소니, 야후 등 불과 10년 전

세계 IT 대표주자들의 급격한 쇠퇴이다.

노키아는 2012년 1/4분기 세계 휴대전화 시장점유율에서 약 23%를 차지하는 데 그쳐,

25%를 넘어선 삼성전자에 이어 2위로 밀려났다. 이는 1998년 모토로라를 제치고 세계

1위에 등극한 지 14년 만의 일이다. 뿐만 아니라 1/4분기에만 9억 3,000만 유로의

영업손실을 입고, 세계 유수의 신용평가기관들이 투자 부적격 수준으로 신용등급을

강등시키는 수모를 겪고 있다.

과거 트리니트론 TV, 바이오 노트북 등으로 IT 업계의 강력한 존재감을 나타내던 소니 또한

참담한 실적을 발표했다. 2011 회계연도 적자 규모가 무려 4,500억 엔을 넘어 사상 최대의

손실을 입었고, 주가도 1,135엔(2012년 5월 11일 기준)으로 떨어져버렸다. 2007년

Page 29: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

29

7,000엔을 오르내리던 것에 비하면 참담한 수준이다.

한때 세계 인터넷 업계의 주역이던 야후는 그럭저럭 이익을 내면서 최악의 상황은

모면했다지만, 매년 매출이 쪼그라드는 쇠퇴 국면을 벗어나지 못하고 있다. 대규모 인력

구조조정과 비용 절감 대책으로 수익성을 보전하고 있지만, 다시 성장으로 돌아서기는

힘들다는 비관적 예측이 지배적이다. 이처럼 10년, 아니 5년이면 웬만한 거대 기업도 빈사

상태로 추락하기에 충분한 시간이 되어버렸다.

그런가 하면 여전히 잘나가고 있지만 영향력은 예전 같지 않은 기업들도 있다. 인텔, 마이크로

소프트, 휴렛팩커드 같은 PC 시대의 강자 기업들이다.

인텔은 PC용 CPU(중앙처리장치) 시장에서는 AMD 등 경쟁자들을 따돌리고 독주하고 있지만,

스마트폰 시대로 들어오면서 급부상하는 모바일 애플리케이션 프로세서(AP) 시장에서는 별

존재감을 나타내지 못하고 있다. 스마트 기기 관련 부품 시장에 어떻게 인텔이 성공적으로 편

입하는지가 미래 성장 전략의 관건으로 꼽히고 있다.

마이크로소프트도 비슷한 상황이다. 윈도우 OS와 오피스 등을 내세워 PC 시장은 물론 광범위

한 기업용 소프트웨어 시장을 장악하고 있으며, 현금 흐름도 여전히 탄탄하다. 하지만 모바일

OS 시장에서는 윈도우 모바일이 실패한 이후 지금껏 성공작을 내놓지 못하고 있다. 절치부심

한 야심작 윈도우폰 7을 내놓고 노키아와 전략적 제휴를 맺었으며, 윈도우 8과 새 태블릿까지

직접 출시했지만 여전히 미래는 불투명하다.

반면 현재 세계적인 각광을 받고 잘나가고 있는 IT 기업들은 이와는 사뭇 다르다. 서비스 분

야에서는 구글, 아마존, 페이스북, IBM 등을, 디바이스 분야에서는 애플, 삼성전자 등을 꼽을

수 있다. 이 가운데 하드웨어에 집중하는 곳은 삼성전자뿐이고, 나머지 기업들은 거의 하나같

이 미국기업으로 강력한 서비스 사업 역량과 거대한 사용자 플랫폼을 갖추고 있다.

<그림 3-5>에서 보듯, 매일 수억 명의 방문자가 들락거리는 구글은 검색 서비스를 기반으로

한 맞춤형 광고로 수익을 올리고 있다. 이 플랫폼 위에서 구글이 다루고 있는 데이터 또한 모

든 생활 분야를 망라한다. 지리, 교통, 여행, 숙박 정보 등 검색을 통해 우리의 관심이 미치는

영역이라면 대부분 구글의 손이 뻗어 있다. 이미 연간 379억 달러에 달하는 매출에, 영업이익

만도 116억 달러에 이르러 수익성도 탁월하다.

마찬가지로 아마존도 애초에는 서적 유통에서 출발했지만, 이제는 미국 최대 온라인 마켓으로

성장하여 방대한 상품을 취급하고 있다. 특히 고객들이 어떤 물건을 찾고, 추가로 어떤 물건에

관심이 있는지 쇼핑과 관련된 막대한 데이터를 갖고 있다. 수익성이 절대적으로 좋다고 볼 수

는 없으나, 480억 달러에 달하는 매출과 변치 않는 성장성에 대해서는 낙관적인 전망이 대세

이다.

세계 최대 SNS(Social Networking Service)로 등극한 페이스북도 승승장구하기는 마찬가지이

Page 30: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

30

다. 20억 명의 회원 및 1,000억 건의 친구 관계를 기반으로 각 회원들의 프로파일과 취향을

망라한 데이터를 갖고 있다. 물론 페이스북은 2012년 5월 상장된 이후 주가가 시초가를 밑도

는 수준에서 맴돌면서 또 하나의 닷컴 버블이 아니냐는 의혹에 시달리고 비관론이 득세하기도

했다. 지적대로 아직 매출 등의 실적은 구글의 10분의 1밖에 안 되는 상황에서 최근 페이스

북에 쏟아진 관심이 과도한 감은 있다. 허나 그들이 아직도 업계의 기대주이며, 충분히 밝은

미래를 열어나갈 역량이 있다는 점에는 큰 이견이 없다.

<그림 3-5> 대표적인 빅데이터 기업들의 핵심 데이터 및 규모

그렇다면 이와 같이 하드웨어 제조업체는 소수만이 살아남고 서비스 플랫폼 기업이 득세하는

오늘날의 현상, 이것이 시사하는 바는 과연 무엇일까?

4. 기업 경쟁력의 무게중심의 이동

이는 IT 업계에서 경쟁력을 결정하는 무게중심이 이동하고 있음을 보여준다. 2000년대 중반까

지도 위세를 떨친 IT 업계의 대표적인 캐치프레이즈는 ‘인텔 인사이드(Intel Inside)’였다. 즉 인

텔 CPU가 내장되어 있다는 뜻이다. 컴퓨터를 구분하는 데에는 486, 펜티엄, 센트리노 등으로

인텔 CPU 상품명이 쓰였고, 이에 따라 그 수준이 매겨졌다. 소비자들은 이런 하드웨어의 차

이로 각 제품을 다르게 인지했던 것이다. 다시 말해, 당시에는 핵심 하드웨어 요소가 제품의

가치를 결정짓는 가늠자였다.

반면 오늘날은 어떠한가? 요즘도 PC마다 인텔 인사이드 스티커는 여전히 붙어 있지만 여기에

눈길을 주는 사람은 별로 없다. 스마트폰만 해도 마니아가 아닌 이상 그 안에 삼성 엑시노스

AP가 쓰였는지, 퀄컴(Qualcom m)의 스냅드래곤 AP가 쓰였는지, 텍사스인스트루먼트(Texas

Page 31: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

31

Instruments)의 OMAP이 쓰였는지 큰 관심을 두지 않는다. 그나마 눈에 확 들어오는 디스플

레이가 AMOLED(능동형 유기발광 다이오드)인지, LCD(액정)인지가 관심사이기는 하지만 차

별화 요소로서의 영향은 많이 줄었다.

그 이면에는 IT 제품들이 고도로 모듈화되면서 범용품화(commodification)가 빠르게 진척되

는 현상이 도사리고 있다. 순수하게 기술적인 측면을 따지면, 디지털 시대에는 경쟁자들이 모

방하기 어려운 비밀을 담은 블랙박스라 할 만한 것이 별로 남아 있지 않다. 아날로그 시대에

는 세밀한 튜닝으로 상당한 품질의 차이를 만들어낼 수 있었기에, 역분해를 통해 겉보기에 똑

같은 사양으로 제품을 만들어도 소비자의 체감 성능은 확 달랐다.

그러나 디지털 시대에 들어와서는 대부분 기술이 표준화되고, 시장에서 조달 가능한 범용 칩

에 다양한 기능이 내장되어 있다. 대표적으로 오늘날에는 복잡한 기술 없이도 디지털 TV를 쉽

게 만들 수 있다. LCD 패널 등은 삼성, LG, 샤프 등 몇몇 대형 업체들로부터 구입하면 되고,

전자회로에서 구현할 핵심 기능들은 대만의 미디어텍이나 엠스타가 공급하는 통합 칩을 갖다

쓰면 된다. 이런 부품만 잘 사다가 조립해도 충분한 성능이 나오기 때문에, 자체 제조를 하지

않고 아웃소싱을 광범위하게 활용하는 네트워크형 비즈니스도 일반화된 것이다.

세계 스마트폰 시장을 주름잡는 애플이나, 미국 TV 시장의 강자 비지오(Vizio)도 변변한 자체

생산 능력 없이 이러한 요소를 잘 조합하는 것만으로 성공 가도를 달리고 있다. 반면 범용품

화 진행으로 하드웨어 특성으로는 차별화가 어려워지고, 가격과 디자인 등으로 승부를 걸 수

밖에 없게 되면서 대부분의 하드웨어 업체들은 고전을 면치 못하고 있다.

이 가운데 현재 경쟁력을 좌우하는 요소로 각광받고 있는 것은 단연 소프트웨어이다. 애플의

아이폰이 불러일으킨 열풍을 살펴보면 쉽게 이해할 수 있다. 소비자들이 아이폰에 열광한 것

은 감각적인 하드웨어의 영향도 있었지만, 결국에는 iOS나 아이튠즈(iTunes)를 중심으로 기발

한 앱과 콘텐츠를 손쉽게 이용할 수 있다는 점에 마음이 사로잡힌 까닭이다. 스마트폰을 선택

할 때 소비자들은 iOS냐, 안드로이드냐, 윈도우폰이냐 하는 운영체제(OS)를 먼저 갈라놓고 그

다음에 하드웨어적인 요소를 따진다.

그러나 소프트웨어도 과연 영원한 경쟁력 결정 요소로 남을 수 있을까? 요즘 전개되는 흐름을

보면 이 또한 불안하기는 마찬가지이다. 이른바 오픈소스 소프트웨어가 광범위하게 등장하는

것만 봐도 알 수 있다. 초창기에는 단순히 프로그래머들의 심심풀이 곁작업에 불과하던 시절

도 있었지만, 오늘날의 오픈소스 소프트웨어들은 상용 소프트웨어 이상의 성능을 내고 업데이

트도 활발히 이루어지는 경우가 많다.

당장 안드로이드 OS의 기반이 된 리눅스(Linux)도 오픈소스 프로젝트의 성과물이다. 빅데이터

관리 소프트웨어만 해도 ‘하둡(Hadoop)’등 많은 부분이 오픈소스이다. 이런 오픈소스 소프트

웨어가 활성화될수록, 예전처럼 소프트웨어를 상업적으로 개발하여 수익을 얻는 기업들 또한

대부분 치열한 경쟁과 낮아지는 이익률로 고전하게 된다. 하드웨어 분야에서 범용품화가 진척

Page 32: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

32

되며 야기된 업계의 변화는 소프트웨어 분야에서도 비슷하게 전개될 가능성이 높다.

그렇다면 과연 어떤 경쟁력 결정 요소가 남을 것인가? 이렇게 하드웨어와 소프트웨어의

차별화가 어려워지는 세상이 오면 데이터의 가치가 더욱 빛을 발할 것이라는 전망이 우세하다.

빅데이터는 그 특성상 범용품화 되기가 매우 어렵다. 기업의 관심을 끄는 빅데이터의 많은

부분들이 복제나 모방이 어렵기 때문이다. 이는 단순히 기술적인 문제도 있겠지만, 대다수

빅데이터에는 기업의 업무 활동에서 얻게 되는 고객의 개인정보가 들어 있다는 점이 더욱

중요하다.

요즘도 뉴스를 보면 대형 포털사이트나 온라인 쇼핑몰 등에서 고객의 개인정보가 해킹이나

내부자의 누출로 인해 대거 노출되어 사회적 파문으로 번지는 경우가 종종 발생한다. 이로

인해 국회와 정부에서는 기업의 데이터 수집과 유통에 엄격한 법적 규제를 부과하고 있다.

이러한 규제 때문에 B2C 서비스를 통해 고객과의 접점이 많은 기업을 제외하면, 나머지

기업들은 데이터를 모으기도, 다른 기업이 모은 데이터를 갖다 쓰기도 어려운 실정이다.

이러한 흐름과 관련하여 웹 2.0의 주창자이자, 저명한 IT 전문 출판사 오라일리 미디어의

최고경영자(CEO)인 팀 오라일리(Tim O’Reilly)는 다음과 같은 말을 남겼다.

역설적으로 빅데이터의 강자 기업들은 이러한 전망을 더욱 능동적으로 이용하고 있다. 근래

도처에서 각광받는 이른바 ‘프리미엄(Freemium) 전략’을 보자. 이는 ‘공짜(free)’와 ‘웃돈

(premium)’의 합성어로서 미끼가 될 만한 부분은 공짜로 제공해 판을 키우고, 부가적인 제품

과 서비스로 실질적인 수익을 챙기는 전략이다. 할인매장에서 전단지에 경품이나 파격 할인

상품을 내세우고 손님을 일단 매장으로 유인한 다음, 함께 사가는 다른 제품에서 이익을 내는

방식을 떠올리면 된다. 프린터는 거의 이익 없이 팔아버리고 잉크 카트리지 등 소모품에서 이

익을 내는 것도 유사하다.

오늘날 IT 업계에서도 구글의 안드로이드 OS를 보면 이를 잘 알 수 있다. PC는 구입할 때마

다 일정 금액이 OS 가격으로 책정되어 직접 마이크로소프트의 판매 수입으로 넘어간다. 반면

구글은 이런 소중한 OS를 공짜로 스마트폰 업체들에 제공하고 있다. 하지만 안드로이드 스마

트폰을 제대로 쓰려면 구글 계정을 만들어야 하며, 결국 구글 플랫폼 위에서 다양한 서비스를

이용하고 부지불식중 구글의 광고를 건드릴 수밖에 없다. 구글은 안드로이드를 공짜로 제공하

고 광고에서 웃돈을 챙기는 프리미엄 전략을 쓰는 것이다. 그런데 자세히 보면 이러한 공짜

미끼가 이제는 소프트웨어가 되고 있다. 메신저 서비스는 공짜로 제공하고 부대 광고나 소셜

게임 등으로 수익을 내려는 카카오톡처럼 말이다. 결국 미끼 소프트웨어는 전통적인 수익 모

델에 의존하는 기존 업체들의 이익을 크게 잠식하고 있다.

데이터는 소프트웨어 인프라가 대부분 오픈소스화 또는

범용품화 되는 시스템에서 (가치의) 유일한 원천 요소이다.

Page 33: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

33

그뿐만이 아니다. 빅데이터와 관련해 페이스북은 더욱 대담하게도 자사의 방대한 시스템을 관

리하는 소프트웨어와 서버 하드웨어에 대한 상세한 정보까지 공개했다(Open Compute

Project). 구글과 페이스북 등 대규모 시스템 운영 업체들이 이용하는 것은 초대형 상용 슈퍼

컴퓨터가 아니라, 하나하나는 PC 정도에 불과한 저렴한 컴퓨터를 수백, 수천 개씩 병렬로 연

결한 것이다. 이러한 시스템을 이용하면 기존의 거대 상용 서버에 비해 구축 비용을 10분의

1 이하로 낮출 수 있다. 따라서 표면적으로만 보면, 이런 하드웨어의 설계 도면과 세부 사양

은 물론 관리 소프트웨어까지 공개하는 행위는 핵심 경쟁력을 노출시키는 자살 행위이다.

<그림 3-6> 페이스북 데이터센터(왼쪽)와 페이스북이 공개한 자사 서버의 내부 구조

<자료 : http://opencompute.org>

하지만 그 이면에는 하드웨어와 소프트웨어를 공개해도 꿈쩍하지 않을 핵심적인 가치가 차고

넘친다는 자신감이 깔려 있다. 바로 빅데이터에 대한 자신감이다. 다른 기업들이 페이스북의

하드웨어와 소프트웨어는 모방해도 빅데이터는 모방할 수 없을 것이기 때문이다. 오히려 이런

대담한 공개로 곤경에 처할 쪽은 기존의 서버와 관리 소프트웨어 매출에 타격을 입을 경쟁 업

체들이다. 이야말로 오라일리가 말한 대로 하드웨어와 소프트웨어의 범용품화를 가속시킴으로

써 빅데이터를 ‘유일하게 남을 가치의 원천 요소’로 만드는 전략의 현장이다.

지금까지 살펴보았듯이 빅데이터는 다양한 잠재 가치를 갖고 있다. 도래하는 미래 경쟁 환경

은 이러한 잠재 가치를 더욱 모방하기 어렵고 독보적으로 만들어줄 것이다. 잠재 가치를 효과

적으로 끌어내어 하드웨어와 소프트웨어의 무뎌진 차별성을 만회하는 기업이 미래 경쟁의 승

자로 부상할 수 있다는 점, 이것이 바로 쟁쟁한 IT 기업들이 빅데이터로 몰려가고 있는 이유

이다. 빅데이터가 어떻게 기업의 경쟁력에 결정적인 영향을 미치는지는 2부에서 좀 더 상세히

살펴볼 것이다.

Page 34: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

34

1. 빅데이터 기술의 개념 및 구분

빅데이터 기술은 ‘데이터의 획득-저장/관리-분석-활용’ 전반에 걸친 광범위한 기술을 모두 포괄

하는 개념이다. 이 가운데 획득에서 저장/관리에 이르는 부분은 데이터 자체에 관심이 집중되

어 있으며, 따라서 상당 부분이 전산학의 영역이다. 하지만 그 이후 분석에서 활용까지의 부분

은 현실의 다양하면서도 복잡한 문제를 해결하는 데 초점을 두고, 데이터는 해결을 위한 열쇠

이자 재료로 쓰인다. 그러다 보니 문제의 성격에 따라 동원되는 지식과 기술도 광범위하게 흩

어져 있다.

대체로 전산학 외에 수학, 통계학, 물리학, 인지과학, 경영학 등의 지식과 기술이 많이 쓰이지

만, 경우에 따라서는 더욱 광범위한 공학과 심리학, 언어학, 인류학 등 인문사회과학 지식도

요구된다. 최근 부상하는 ‘데이터 과학(Data Science)’은 이 가운데 핵심적인 지식과 기술을

융합하여 별도의 영역으로 정립하려는 시도라고 볼 수 있다.

빅데이터 기술은 크게 기존 기술과 새로운 기술로 구분된다. 전자는 빅데이터라는 현상이 주

목을 받기 전부터 존재해왔던 데이터 관리 언어 SQL(Structured Query Language : 구조화

질의어)과 관련된 기술들이다.

반면 후자는 빅데이터라는 용어가 등장하는 데 결정적 역할을 한 신규 기술들로, 좀 더 유연

하지만 복잡한 데이터 관리 언어 NoSQL(SQL을 쓰지 않는 질의어)을 기반으로 한다. 이는 좁

은 의미의 빅데이터 개념을 반영하는 기술들로, <그림 4-1>에서처럼 비구조적 데이터 형태를

획득, 조직화, 분석하기 위한 분산파일 시스템(DFS), 맵리듀스(MapReduce), NoSQL 등을 의

미한다.

4차시 빅데이터 기술의 이해

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

4차시 학습 교안

Page 35: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

35

<그림 4-1> 빅데이터의 기존 기술(SQL 기반)과 신규 기술(NoSQL 기반)

<자료 : Oracle (2011). “Big Data for the Enterprise.”>

그러나 빅데이터를 넓은 의미로 해석하면 기존 기술들도 빅데이터 기술에 포함될 수 있다. 특

히 고도의 알고리즘에 기반을 둔 분석 기술들은 빅데이터 시대에 새로 나타났다기보다는 기존

분석 기술들(특히 애널리틱스)이 더욱 발전한 것이다. 그리고 이들의 중요성은 빅데이터 현상

이 심화됨으로써 더욱 커지고 있다.

앞서 빅데이터의 특징을 속도, 규모, 다양성 등으로 정의했는데, 데이터 규모가 커지는 것 이

외에도 데이터 생성 및 처리 속도, 다양한 데이터 형태, 데이터 구조의 가변성(모호성) 등이

높아지면 기업에는 빅데이터적인 대응이 필요하다. 물론 단순히 규모나 속도 측면의 빅데이터

는 기존의 획득, 저장, 분석 기술(소위 BI, 즉 비즈니스 인텔리전스)로도 대처할 수 있다.

반면 데이터 형태가 비구조적인 다양성 문제나 데이터 의미의 모호성이 큰 경우(다시 말해,

데이터 구조의 가변성이 높아지는 경우)에는 기존 기술보다는 데이터 처리의 유연성이 높은,

새롭게 등장하고 있는 빅데이터 기술들이 유리하다(<그림 4-2> 참조).

Page 36: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

36

<그림 4-2> 기존 기술(BI) 또는 신규 빅데이터 기술이 유효한 경우

<자료 : Forrester Research (2011). “Expand Your Digital Horizon with Big Data.”>

이제 비구조적 데이터를 처리하는 새로운 빅데이터 기술들을 소개하고자 한다. 현실적으로 이

러한 빅데이터 기술을 모두 소개하는 것은 불가능하므로, 우선 획득과 조직화 영역에 초점을

두고 몇 가지 대표적인 기술을 간단히 살펴보도록 하자. 그리고 5차시에서 빅데이터가 실현하

는 경영 혁신들을 설명하며 분석과 관련된 기술들을 소개하기로 한다. 특히 고객 감성 분석

(Customer Sentiment Analysis)과 시각화(Visualization) 등은 7차시 <발견에 의한 문제 해

결>에서, 각종 애널리틱스(Analytics)는 9차시 <의사결정의 오류>에서 소개할 것이다.

Page 37: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

37

2. 대표적인 빅데이터 기술

1) 데이터 서버의 성능 업그레이드 – 종적 대 횡적 확장

오늘날 빅데이터 열풍을 만들어내는 데 가장 중요한 역할을 한 기업은 역시 구글이다. 구글은

전 세계적인 방대한 검색엔진 서비스를 구축해가는 과정에서 많은 기술적 난제들을 극복해야

했는데, 또한 이를 저렴한 방법으로 해결하는 것을 목표로 했다.

전 세계 수많은 사용자들이 매초 날리는 수많은 검색 질의에 대해, 재빨리 전 세계 웹사이트

들의 정보를 훑어 답을 제시해주려면 당연히 엄청난 연산 능력이 필요하다. 예전 같았으면 대

형 IT 기업들이 판매하는 고가의 대형 서버로 이를 해결했을 것이다.

문제는 전 세계 인터넷 환경이 끊임없이 진화하며 넓어지고 있다는 점이다. 인터넷이 보편화

된 이래 사용자는 엄청나게 늘어났으며, 담당해야 하는 웹사이트와 거기에 담긴 정보도 비약

적으로 증가해왔다. 여기에 맞춰 안정적인 서비스를 제공하려면 서버의 성능도 계속 업그레이

드해야 한다.

쉽게 생각할 수 있는 해결책은 서버를 그때그때마다 더 빠른 CPU와 많은 메모리를 갖는 고급

형으로 교체하는 것이다. 이를 좀 더 엄밀한 용어로 ‘종적 확장(Vertical Scaling)’이라고 한다.

하지만 이럴 경우 시스템의 구축과 관리, 교체에 들어가는 비용이 엄청날 수밖에 없다. 초기의

구글처럼 수익 기반도 빈약한 벤처회사 에서 한 푼이 아쉬운 투자 자금을 고가의 서버를

증설하는 데 퍼붓고 있을 수만은 없었다.

구글은 이를 해결하기 위해 애초부터 PC급의 개별 컴퓨터(노드)를 여러 개 병렬로 연결하여

처리하는 클러스터 시스템(Cluster System)을 구상하고 발전시켰다. 성능을 높이려면 노드의

개수를 늘리면 된다. 100개이던 노드를 200개, 300개로 늘리면 시스템의 처리 능력도 그만큼

높아진다. 이처럼 모듈화된 노드를 덧붙여 성능을 높이는 ‘횡적 확장(Horizontal

Scaling)’이라고 한다.

횡적 확장 방식은 관리할 대상이 늘어나므로 그만큼 관리가 까다로워지는 반면, 비용은 대폭

줄일 수 있다. 각 노드를 시중에서 쉽게 구할 수 있는 PC용 부품과 리눅스 OS를 이용해 매우

저렴하게 만들 수 있기 때문이다. 저렴한 대신에 고장이 잦아질 수는 있지만, 그렇더라도 고장

난 노드를 갈아버리면 그만이니 유지 비용도 낮다.

더욱 중요한 점은 아무리 컴퓨터 부품 기술이 빠르게 진보해도 데이터가 늘어나는 속도를 따

라잡기에는 역부족이라는 것이다. 따라서 종적 확장만으로 대응하는 것은 근본적으로 힘에 부

친다. 결국 데이터가 폭증하는 빅데이터 시대를 감당하려면 횡적 확장에 더욱 기댈 수밖에 없

다.

Page 38: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

38

2) 데이터 파일의 효율적인 분산 관리 – 구글 파일 시스템

횡적으로 확장되는 시스템에서 꼭 해결해야 하는 난제는 신뢰성 높은 서비스를 제공하는 것이

다. 구축 및 유지-보수 비용이 낮다고 해도 사소한 고장으로 서비스 전체가 지장을 받는다면

곤란하다. 이를 해결하기 위해 구글의 창업자 래리 페이지(Larry Page)와 세르게이 브린

(Sergey Brin)은 사업 초기부터 클러스터 시스템에 알맞은 특유의 파일 관리 시스템을 개발하

는 데 많은 공을 들였다. 그 결과 이들은 스탠퍼드 대학 시절부터 빅파일(BigFiles)이란 프로

젝트를 통해 쌓은 경험을 바탕으로, 새로운 구글 파일 시스템(GFS : Google File Syste m)을

만들어냈다.

구글 파일 시스템은 몇 가지 가정을 기반으로 만들어졌다. 각 노드는 저가형이다 보니 언제든

고장이 날 수 있고, 대부분의 파일은 크기가 매우 크며, 주로 이루어지는 작업은 수백 킬로바

이트에서 몇 메가바이트짜리 대량 파일을 순차적으로 읽어오거나 몇 킬로바이트짜리 소량 파

일을 임의의 위치에서 읽어오는 작업이라는 가정 등이 그것이다. 무엇보다 요청에 아주 빨리

반응하는 것보다는 수많은 요청이 쏟아져 들어오는 상황에서 충분히 안정적으로 작동하는 것

을 목표로 했다.

그 원리를 이해하기 위해 식사 시간마다 주문이 쏟아지는 대형 음식점을 떠올려보자. 체계가

덜 잡힌 식당에 손님이 몰리면 아수라장이 되는 경우를 모두 경험해봤을 것이다. 웨이터들은

중구난방으로 주문을 넣고, 주방에서는 주문 관리와 역할 분담이 제대로 되지 않는다. 결과적

으로 어떤 주문은 누락되어 손님의 원성이 쏟아지고, 어떤 주문은 뒤엉켜 이미 다 먹었는데

아까 시킨 요리가 또 나오기도 한다. 이런 혼란이 벌어지는 식당에 다시 가고 싶은 손님은 없

을 것이다.

제대로 일을 처리하는 식당이 되려면 많은 일을 효율적으로 분담하는 체계가 잡혀야 한다. 일

단 주방에 전문 요리사가 여럿 대기하고 있는 것은 기본이다. 그러나 한 요리사가 하나의 요

리만 할 줄 알면 비효율적이다. 특정 요리에 주문이 집중될 수 있으므로, 서로의 전문 요리 기

술을 다른 이들에게도 가르쳐 한 요리사가 여러 요리를 할 수 있게 만들어놔야 한다.

또한 실제 식사 시간에는 책임 있는 주인장이 요리사와 웨이터 사이에서 교통정리를 해주어야

한다. 우선 각 요리사가 지금 무슨 요리를 만들 수 있는지, 그리고 지금 맡은 요리가 몇 가지

나 되는지 확인해야 한다. 그 상태에서 주문이 들어오면, 웨이터에게 그 요리를 만들 수 있으

면서도 손이 비는 요리사를 알려주고 그에게 가도록 지시한다. 그러면 요리를 만들고 받아가

는 것은 요리사와 웨이터가 알아서 처리한다.

중간중간 주인은 요리사들이 일을 잘 처리하고 있는지, 혹시 문제는 없는지 계속 점검한다. 이

렇게 역할 분담을 확실히 하면 폭풍처럼 주문이 쏟아져도 비교적 질서 정연하게 처리할 수 있

다.

구글 파일 시스템의 원리도 이와 같다. 우선 구글이 수집한 데이터는 수많은 조각(chunk) 서

Page 39: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

39

버에 64메가바이트 크기의 조각으로 나뉘어 저장된다. 이들 데이터 조각은 어느 한 서버에만

저장되지는 않는다.

그랬다가는 이 서버가 갑자기 다운될 경우 데이터가 사라져버리기 때문이다. 따라서 중간중간

데이터 조각을 복제하여 (전부는 아니지만) 다른 조각 서버에도 저장해놓는다. 그리고 필요한

데이터가 어느 조각에 담겨 어느 서버에 있는지 그 정보는 모두 마스터라는 하나의 중앙 시스

템이 모아서 관리한다.

이제 외부 응용 프로그램에서 데이터를 요청하면 모두 일단 마스터가 접수한다. 마스터는 해

당 데이터를 갖고 있으며, 응용 프로그램에 현재 부하가 적은 조각 서버를 찾아내어 접속한

다음 파일을 받아가라고 안내하고는 사실상 손을 뗀다. 그러면 응용 프로그램과 해당 조각 서

버가 직접 통신하며 파일을 전송한다. 마스터는 데이터 조각의 위치를 알려줄 뿐 직접 데이터

입출력에 관계하지는 않기 때문에 많은 요청이 밀려들어와도 감당할 수 있다. 대신 마스터는

도중에 계속 각 조각 서버의 상태를 점검하고, 데이터 조각이 충분히 복제되도록 관리한다.

구글 파일 시스템이 이전 기술과 달라진 점 가운데 하나는 빅데이터 시대에 맞게 데이터 조각

을 64메가바이트로 넉넉하게 잡은 것이다. CD 한 장에 들어갈 만한 동영상 파일(약 650메가

바이트)이 있다면 예전의 관리 방식으로는 이것을 수천 개의 작은 조각으로 나누어 관리했지

만, 구글 파일 시스템은 64메가바이트짜리 큼지막한 조각 10개로 나누어 관리한다. 이러면

마스터의 부담도 줄어들고 이점도 많다.

일기를 쓸 때 매일매일 A4 용지 한 장을 새로 꺼내어 쓰고 매번 바인더에 꽂는 것보다, 미리

몇백 장의 종이가 제본된 일기장을 하나 사서 한 장씩 쓰면 훨씬 관리하기 편할 것이다. 일기

는 수시로 부분부분 버려야 하는 게 아니라 계속 덧붙여나가는 데이터 성격을 갖고 있기 때문

이다.

빅데이터 시대의 데이터는 이처럼 전반적으로 크기도 커지고 기존의 덩어리에 덧붙여나가는

형태가 많아졌기에, 구글 파일 시스템이 강점을 톡톡히 발휘할 수 있는 조건이 마련된 셈이다.

2000년대 초 정립된 구글 파일 시스템은 이후 다양한 구글 서비스에 성공적으로 쓰이면서 다

른 빅데이터 관리 기술에도 큰 영향을 주었다.

3) 구글의 데이터 처리 프로그래밍 모델 – 맵리듀스

데이터의 분산 처리 파일 시스템은 매우 중요한 기반이지만, 그것만으로는 빅데이터를 효과적

으로 처리할 수 없다. 관리하고 있는 빅데이터를 이용해 분석을 수행한다고 할 때, 이를 여러

노드에 나누어 작업을 시키고, 다시 이를 모아 완전한 결과를 만들어내기 위한 프로그램이 필

요하다. 구글은 이 영역에서도 맵리듀스(MapRedu ce)라는 모델을 개발하여 지대한 공헌을

했다. 이는 말 그대로 널리 쓰이는 함수 개념인 ‘맵(map)’과 ‘리듀스(reduce)’를 결합한 것이

Page 40: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

40

다. 그냥 이해하려면 복잡하니 간단한 예를 들어 살펴보도록 하자.

수백 페이지짜리 식물도감에서 특정 용어가 몇 개씩 나왔나 빨리 세어야 한다면 어떻게 해야

할까?

각 단어의 횟수를 처음부터 집계하기는 어렵기 때문에 일단 각 문장에 나오는 단어를 모두

‘(단어, 1)’처럼 순서쌍으로 바꿔 열거한다. 이 순서쌍의 의미는 해당 단어가 한 번 쓰였다는

뜻이다. 여기서 이 단어를 ‘열쇠(key)’라고 하고, 1을 ‘값(value)’이라고 한다. 이렇게 대응을 시

키면 모든 문장을 ‘(단어, 1)’과 같이 균일한 형식의 순서쌍 목록으로 바꿀 수 있는데, 이 과정

이 바로 ‘맵’이다.

다음에는 이렇게 나온 결과를 각 단어(열쇠)별로 정렬하고, 중복되는 단어의 값들은 모두 합친

다. 그러면 <그림 4-3>처럼 다섯 번씩 나오는 ‘(감자, 1)’ 순서쌍들은 ‘(감자, 5)’로 합쳐진다.

이 과정을 ‘리듀스’라고 한다. 결과적으로 맵리듀스를 통해 이 네 문장에서 각 단어가 몇 번씩

나왔는지 셀 수 있게 된다.

<그림 4-3> 맵과 리듀스의 개념

얼핏 보면 몹시 번거롭고, 굳이 왜 이렇게 해야 하나 싶은 생각도 든다. 물론 혼자서 수백 페

이지짜리 책을 다 살핀다면야 아무 방법이나 써도 되지만, 일을 빨리 끝내기 위해서는 여러

사람들이 작업을 분담하고 작업 방식과 결과도 미리 정해놓아야 한다. 각자에게 대충 작업 분

량을 나눠주고 알아서 세어오라고 하면 나중에 이를 합치는 일이 더 고역인 경우를 많이 겪어

보았을 것이다. 반면 <그림 4-3>처럼 특정한 형식의 맵리듀스 모델을 정해놓고 분담시키면

어떻게 페이지를 나누어 작업하더라도 일정한 결과가 나온다.

장별로 철수는 1장, 영희는 2장…… 식으로 나누어도 되고, 홀수 페이지는 철수, 짝수 페이지

Page 41: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

41

는 영희…… 식으로 나누어도 된다.

무엇보다 일부 작업자에게 문제가 생겼을 때 대처하기도 쉽다. 3장을 맡은 영수가 갑자기 몸

이 아파 작업을 반만 마치고 나머지는 하지 못하게 되었다고 가정해보자. 관리자는 영수가 끝

내지 못한 페이지를 다시 골고루 다른 작업자들에게 나눠주고 작업을 시키기만 하면 된다. 이

처럼 맵리듀스 알고리즘을 적용하면 식물도감 1권뿐만 아니라 서가 전체에 있는 책으로 작업

대상이 늘고, 수십 명이 아니라 수백, 수천 명으로 작업자가 늘어나더라도 훨씬 다양하게 업무

를 분담하여 해결할 수 있다.

이와 같이 맵리듀스 알고리즘은 확장성이 우수할 뿐만 아니라, 다양한 비정형 데이터를 처리

할 수 있는 뛰어난 유연성을 지니고 있다. 구글은 2003년부터 이 알고리즘을 적용해 전 세계

수많은 웹사이트에 저장된 텍스트를 처리하고, 단어별 사용 빈도 등 다양한 통계를 내고 있다.

2008년 구글은 이러한 맵리듀스 작업을 위해 10만 대가 넘는 서버를 쉴 새 없이 돌리고 있

다고 발표했다. 그리고 신뢰성 점검을 위해 1,800대의 서버로 이루어진 클러스터에서 일부러

80대 정도의 연결을 끊어보는 실험을 했는데, 이 작업을 다른 1,720대가 넘겨받아 순조롭게

마무리했다고 한다. 다시 말해, 맵리듀스는 빅데이터를 분산 시스템으로 처리하는 데 매우 탄

탄한 기반을 제공해준다.

4) 맵리듀스의 공급사슬 관리 오픈소스 구현 – 빅데이터의 대명사, 하둡

맵리듀스 알고리즘은 구글의 연구에 의해 단초가 알려지기는 했으나, 구글이 실제로 이를

어떻게 소프트웨어로 구현하여 쓰는지는 많은 부분 베일에 싸여 있다. 아무리 이론이 좋아도

이를 저렴하고 간편하게 써먹을 수 없다면 빛 좋은 개살구일 것이다. 맵리듀스 알고리즘도

이를 이용한 소프트웨어 프레임워크가 공급사슬 관리 오픈소스로 개발되고 무상으로 이용할

수 있게 되면서 비로소 각광을 받기 시작했다. 그 대표주자가 바로 아파치 소프트웨어

재단(ASF)의 하둡 (Hadoop)이다.

하둡은 더글러스 커팅(Douglas R. Cutting)에 의해 개발되었다. 오픈 소스 운동의 강력한

지지자인 그는 2004년 구글이 맵리듀스 알고리즘에 대한 논문을 발표하자, 이를 이용해

오픈소스 소프트웨어 프레임워크를 만들기로 작정했다. 구글의 파일 시스템과 맵리듀스

알고리즘 원리를 구현해 누구나 빅데이터 처리 응용 프로그램을 만들 수 있도록 기반

소프트웨어를 만들고자 했던 그의 노력은 많은 이들의 지원 속에 하둡 프로젝트로 발전했다.

특히 경쟁사 구글의 기술적 진보에 애가 타던 야후는 커팅을 고용하여 막대한 지원을

퍼부으며 하둡의 발전에 크게 기여했다. 야후가 하둡 개발에 기여한 바는 줄잡아 수 백억 원

규모에 이르는 것으로 알려져 있는데, 그러면서도 배타적 소유권을 주장하지 않고 계속

오픈소스로 남겨 빅데이터 기술 발전과 활성화에 결정적인 역할을 하였다.

하둡은 크게 보면 일반적인 관련 유틸리티들을 모은 하둡 커먼 (Hadoop Common), 구글

Page 42: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

42

파일 시스템에 해당하는 하둡 분산파일 시스템(HDFS), 하둡 맵리듀스로 구성되어 있다.

이외에도 아파치 재단은 관련 오픈소스 프로젝트들을 통해 빅데이터를 체계적으로 이용할 수

있는 소프트웨어 기반을 무상으로 제공하고 있다. 이로 인해 하둡은 2000년대 중반 이후

대형 IT 업체들 사이에서 폭발적인 반응을 불러 일으키며 광범위하게 사용되기 시작했다.

프로젝트 운영에 막대한 돈 을 댄 야후는 물론 페이스북과 아마존 등 대표적인 빅데이터

기업들은 모두 이 하둡 기반 거대 클러스터를 운영하고 있다고 해도 과언이 아니다. 덕분에

하둡은 사실상 빅데이터 기술 및 소프트웨어의 대명사, 아니 그 자체로 통용되고 있다.

다만 오픈소스 소프트웨어는 공짜로 쓸 수 있어 좋지만, 그만큼 친절한 사용 설명이나 운영

지원을 기대하기는 어렵다. 따라서 아무 기업이나 덜컥 하둡 및 관련 소프트웨어를 받아다가

운영하기는 어렵다. 이러한 문제를 해결하기 위해 하둡과 관련된 오픈소스 소프트웨어를 좀

더 사용하기 편하게 패키지화하고, 관련 서비스까지 묶어 제공하는 기업들이 크게 늘고 있다.

IBM, 오라클(Oracle) 등의 전통적인 대형 소프트웨어 기업들은 물론 EMC, 클라우데라

(Cloudera) 등 여러 기업들이 이러한 움직임의 선두에 서 있다.

5) 데이터베이스 관리 시스템의 새로운 지평 – NoSQL

그런가 하면 빅데이터 시대로 접어들면서 데이터를 관리하는 방식에도 변화가 생기고 있다.

전통적으로 데이터를 관리하는 방식은 이른바 ‘관계형 데이터베이스 관리 시스템(RDBMS)’ 모

델이다. 지금껏 컴퓨터에서 써오던 대부분의 데이터 관리 방식이 이에 해당한다고 보면 된다.

RDBMS를 간단하게 이해하기 위해 철수와 영희, 영수가 이용하는 온라인 게시판을 생각해보

자. 이 세 사람이 올리는 게시물을 그대로 저장한다면 <표 4-1>로 정리될 것이다.

<표 4-1> 온라인 게시판에 보이는 데이터

그런데 이렇게 표로 만들면 몇 가지 문제가 있다. 우선 정보에 중복이 심하다. 이러다가

철수가 게시판에서 자기 실명을 쓰기 싫다고 별명 ‘철이’로 바꾸겠다고 하면, 모든 글에서

Page 43: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

43

‘철수’에 해당하는 부분을 일일이 ‘철이’로 바꿔주어야 할 것이 다. 또 글 내용은 다른 항목에

비해 엄청나게 긴 것이 보통이므로 같은 표 안에서 관리하기가 불편하다. 이러한 문제는 <표

4-2>와 같이 3개의 표로 나누어 관리하면 좀 더 편리하게 해결된다.

<표 4-2> 온라인 게시판 관리에 필요한 데이터베이스 구조

첫 번째 표에서 작성자와 내용은 번호로 대체되었다. 게시물을 화면에 출력할 때에는

그때그때 그 번호에 해당하는 사용자 이름을 두 번째 표에서 찾아 전송해주면 된다.

마찬가지로 게시물 내용도 해당 번호의 내용을 세 번째 표에서 찾아 전송해주면 된다. 이럴

경우 데이터 관리가 훨씬 유연해진다. 사용자 정보가 별도의 표로 관리되므로, 사용자의

이름을 바꾸려면 두 번째 표만 수정하면 된다. 성별, 나이, 전화번호 등 기타 정보를

덧붙이기도 쉽다. 글 내용을 바꿀 때에도 세 번째 표만 수정하면 되므로, 게시물의 기본

정보를 담고 있는 첫 번째 표에 할당된 메모리 공간은 그대로 유지된다.

<표 4-2>에서 첫 번째와 두 번째, 첫 번째와 세 번째 표는 서로 작성자 번호와 내용 번호를

매개로 관계를 맺고 있다. 이처럼 데이터베이스 내에서 여러 개의 표가 서로 열쇠(이 경우

번호)를 통해 관계를 맺으며 구조화되어 있는 것을 RDBMS 모델이라고 이해하면 된다.

이러한 시스템에서 원하는 데이터를 뽑아내기 위해서는 보통 SQL을 쓰는데, 이는 조건에 맞

는 데이터를 찾아 내놓으라고 데이터베이스에 명령할 때 쓰는 언어이다.

Page 44: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

44

“사용자 표에서 이름이 ‘영희’인 사람의 나이와 성별을 뽑아 보여줘!”라고 하려면 “SELECT 나

이, 성별 FROM 사용자 WHERE 이름=‘영희’”라고 입력하면 된다. RDBMS와 SQL은 이미 수

십 년간 데이터 관리에서 필수 불가결한 존재였다.

그런데 빅데이터 시대에 와서는 이러한 방식에 근본적인 회의가 제기되고 있다. 빅데이터의

중요한 특성인 데이터 유형의 다양성과 빠른 생성-유통-이용 속도 때문이다. 앞에서 보듯이 관

계형 데이터베이스로 처리되려면 기본적으로 데이터가 표 형식에 잘 들어맞아야 한다. 반면

빅데이터 시대에 처리해야 하는 수많은 비정형 데이터들은 그렇게 깔끔하게 정리하기가 쉽지

않다.

더욱 큰 문제는 그렇게 정리할 시간도 없이 급박하게 처리해야 하는 데이터가 엄청나게 많다

는 점이다. 관계형 데이터베이스에서는 일단 입력된 데이터를 SQL로 데이터베이스에 기록하

고, 이를 이용할 때에는 다시 SQL로 질의를 날려 필요한 데이터를 꺼내야 한다. 예전에는 이

렇게 오고 가는 시간이 큰 문제가 되지 않았지만 빅데이터 시대에는 곤란하다.

저장 장치(하드디스크 등)에 데이터를 쓰는 시간도 아깝기 때문에 입력된 데이터를 메모리

(RAM)에 올려놓은 상태로 처리해서 답을 주어야만 한다. 또한 계속 강조했듯이 기본적으로

거대한 작업을 여러 소규모 서버로 분산해서 처리할 수 있어야 한다. 그러려면 구조적으로는

깔끔하지만 다소 복잡한 RDBMS와 SQL은 적합하지 않다.

이러한 문제의식으로 태어난 것이 이른바 NoSQL이라 불리는 ‘비관계형 데이터베이스 관리 시

스템’이다. 여기에는 굉장히 많은 종류들이 있기 때문에 일률적으로 설명하기는 어렵다. 하지

만 대략적으로 보면 ‘(열쇠, 값)’의 단순한 순서쌍 형태로 데이터를 정리하고 직접 이용하는 것

들이 상당수이다. 주의할 점은 이름이야 ‘No’SQL로 붙어 있지만 그렇다고 RDBMS-SQL의 유

용성을 완전히 부정하는 것은 아니라는 사실이다. 다만 빅데이터의 특성(규모, 다양성, 속도)

이 두드러진 데이터부분에서는 이런 RDBMS-SQL에 얽매일 필요 없이 유연하게 데이터를 이

용하도록 하자는 뜻이 담겨 있다.

이 NoSQL 역시 구글이 2004년 자사의 빅데이터를 처리하기 위해 만든 데이터 저장 시스템

‘빅테이블(BigTable)’에 쓰이면서 유명해졌다. 그러나 정작 NoSQL이란 이름으로 회자되기 시

작한 것은 불과 2009년쯤부터이다. 따라서 급속하게 발달하는 빅데이터 기술 동향 속에서

NoSQL이란 말이 오래 살아남을지조차 미지수이기는 하다.

중요한 것은 빅데이터를 처리하기 위해서는 오랜 과거의 통념에 얽매이지 않는 새롭고 파격적

인 기술적 시도가 필요하며, NoSQL 기술이 그런 변화의 중요한 단면이라는 점이다.

Page 45: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

45

1. 데이터에 있는 생산성 향상 기회

기업 경영에서 생산성을 이야기하면 이제는 너무 진부하게도 느껴진다. 그러나 여전히 기업의

경쟁력을 결정하는 기본은 높은 생산성이다. 물론 혁신적인 첨단 제품으로 경쟁자를 압도하는

기업도 있지만, 대형 유통업체들 간의 경쟁에서 보듯이 아직도 대부분의 기업은 경쟁자들과

피 말리는 비용 절감 싸움을 벌이고 있다.

인건비나 원자재 조달 비용을 마음대로 줄일 수 없는 상황에서 생산성 향상은 기업은 물론 한

나라의 경쟁력을 결정하는 요소로 부각될 수밖에 없다. 한국도 과거 개발연대의 요소 투입형

경제성장에서 인적자원 고도화, 생산성 혁신에 의한 성장 구조로 변모해야 한다는 요구가 끊

임없이 계향 상속되고 있다.

특히나 연이은 글로벌 경제위기로 수요가 위축되며 한정된 시장을 놓고 글로벌 수준의 경쟁이

만연한 현실에서는 이런 미세한 생산성의 차이가 크나큰 성과의 차이로 이어질 가능성이 농후

하다.

이런 인식에 기반하여 전통적인 제조 및 운영 활동과 단순 사무직에서의 생산성 향상은 지금

까지의 자동화와 정보화로 어느 정도 달성되었다. 1990년대 이후로 여러 학자와 연구들에서

정보기술이 기업의 생산성 향상과 직접적으로 관련 있다는 사실이 입증되자, 기업의 정보기술

투자는 선택이 아닌 필수로 여겨졌다.

이미 빅데이터 이전부터 전사적 자원 관리 시스템(ERP : Enterprise Resource Planning) 이나

공급사슬 관리 시스템(SCM : Supply Chain Management) 등 정보기술을 생산과 물류 활동

에 광범위하게 도입하는 움직임이 있어왔다. ERP 도입으로 기업 내에서 수작업으로 처리하던

각종 업무들(특히 회계처리)의 생산성이 높아지고, 판매 시점 관리(POS : Point of Sales) 덕분

에 마트의 계산대 처리 속도와 재고 관리가 손쉬워진 것도 정보기술과 생산성 사이의 관계를

나타내는 대표적 사례들이다.

그러나 그 외의 기업 활동(예 : 영업, 마케팅 등) 및 중간 관리층(지식 노동자)에서의 생산성

향상은 아직까지도 개선의 여지가 매우 크다. 이미 피터 드러커(Peter Drucker)는 생산성 경

쟁의 핵심이 20세기에 공장과 매장의 현장 노동자에게 있었다면, 21세기에는 지식 노동자의

생산성 증대 쪽으로 질적인 변화가 두드러질 것이라 내다봤다.

근본적으로 생산성은 단지 일을 더 많이 한다는 의미가 아니라, 이들이 얼마나 부가가치가 높

은 일을 하느냐에 달려 있다. 쉽게 말해, 많은 은행 직원들이 예전에는 창구에서 고객의 현금

을 출납하는 일에 주로 시간을 소비했으나, 이제는 마케팅 기획이나 위험 관리 등을 주로 한

5차시 데이터와 생산성

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

5차시 학습 교안

Page 46: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

46

다면 은행의 생산성은 크게 증가할 것이다. 이것이 가능 하려면 데이터의 수집 및 처리 능력

을 높여야 한다.

당장 과거에는 단순 재고나 잔액 파악을 위해 사람이 일일이 직접 눈으로 확인하고 손으로 세

는 방법밖에는 없었으나, 상품에 부착된 바코드나 RFID 등의 표식이 보급되면서 전자적으로

수집되는 데이터 시스템 덕분에 인력이 크게 절감되었다. 더 나아가 최근에는 은행의 스마트

지점이 확산되고 있는데, 이곳에는 2명 정도의 최소 관리 인력만 상주하고 인터넷뱅킹 기기들

로 채워져 통상의 은행 업무를 처리할 수 있다.

이처럼 최근 기업의 생산성 향상은 POS, 주식이나 전자상거래 시스템, CIM(Computer

Integrated Manufact uring)과 같이 주로 거래 처리나 일상적인 생산 과정에서 사람이 하던

작업을 컴퓨터가 대체하는 가운데 이루어졌고, 그런 혁신으로 생성되는 데이터들이 바로 온라

인 거래 처리(OLTP : Online Transaction Process) 데이터이다.

빅데이터 세상에서는 여기서 한발 더 나아가 각종 센서나 태그(tag)들이 상품, 원자재, 물건

등에 부착됨으로써 생성되는 실시간 상호작용 데이터, 즉 앞서 서술한 빅 상호작용 데이터가

생산성 향상의 주역이다. 이들 데이터는 과거와 달리 더 많아지고, 더 다양해지고, 더 빨리 생

산·수집되면서 새로운 차원의 생산성 향상을 가능케 하고 있다.

더 많은 데이터는 기업 자체의 데이터가 증가하는 부분도 있지만, 기업이 외부 기관(협력업체

를 포함해)과 네트워크로 연결되어 업무 협력이 증가하면서 발생하는 부분이 점차 커지고 있

다. 특히 센서 기술의 발달로 기업 내외의 데이터 수집과 분석 지평이 획기적으로 바뀌고 있

다.

빅데이터 생산성 향상의 또 다른 확연한 특징은 외부의 비정형 데이터도 광범위하게 활용된다

는 것이다.

<그림 5-1>에서와 같이 데이터 소스가 내부에 있는지, 외부에 있는지, 그리고 데이터 성격이

구조적인지, 비구조적인지로 구분하면 생산성 향상에 사용하는 데이터는 크게 네 가지로 나눌

수 있다. 그 중 내부의 구조적(정형) 데이터가 지금까지 기업의 생산성 향상에 주로 사용되어

온 데이터 유형이다.

하지만 빅데이터 시대에는 기업들이 생산성을 높이기 위해 기존에 사용하던 수량, 가격, 판매

량 등 내부의 구조적 데이터 이외에 협력업체 등 외부로부터의 각종 재무 및 판매 자료는 물

론 문서 데이터 등 비정형 데이터도 활용하고 있다. 즉 데이터 소스와 형태도 빅데이터에서는

더욱 다양화된다.

이는 생산성 향상을 위해 고객, 협력업체, 지원업체, 정부기관 등 기업의 거래와 관련된 모든

주체들로부터 수치나 거래 기록은 물론 텍스트, 사진과 같은 여러 형태의 데이터들을 수집하

Page 47: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

47

고 활용할 수 있다는 이야기이다.

<그림 5-1> 생산성 향상을 위한 새로운 데이터의 소스 및 성격

<자료 : Deloitte 2011)>

이와 같이 생산성을 높이는 데 비정형 데이터를 활용하는 것은 기존의 기업 시스템에서는 좀

처럼 볼 수 없는 빅데이터 시대의 특징이다. 기업들은 문서의 생산과 유통 등의 흐름을 분석

해 불필요한 문서의 사용을 줄이는 방식으로 생산성을 향상시킬 수 있으며, 더욱이 기업 내에

필요로 하는 문서들이 어디에 있는지 파악하는 문서 검색 등으로 정보 획득에 드는 노력과 시

간을 줄일 수 있다.

필요한 정보를 얻기 위해 네이버나 구글 검색으로 장시간 노력을 기울인 사람들이라면 기업

내에서도 이와 같은 작업에 많은 개선의 소지가 있음을 예상할 것이다. 따라서 최근 비즈니스

인텔리전스(BI) 업체들은 이와 같이 내외부와 관련된 문서 검색엔진(일종의 데이터 마이닝

(Data Mining) 기법 포함)을 자사의 강점으로 내세우기도 한다.

식료품 제조업체 네슬레는 자사 식료품 제조에 들어가는 주요 재료인 바닐라의 원가 절감을

위해 다양한 유형의 빅데이터를 활용하여 재료 종류와 공급업체를 줄임으로써 연간 3,000만

달러를 절약하는 등 데이터 품질을 개선해 생산성을 향상시켰다.

네슬레는 이른바 크라우드소싱(Crowdsourcing)을 통해 고객의 선호도를 SNS로 수집하여 제

품 개발 단계에서부터 반영했다. 여러 가지 맛의 제품을 무분별하게 생산해 비용을 높이기보

다는 페이스북 등에서 고객이 원하는 맛을 선택하게 하는 투표를 실시하고 개발 제품의 수를

한정하여 수요가 적은 제품의 생산 과정 비용을 절감한 것이다. 회사 전체적으로 보면 이와

같은 운영상의 개선으로 연간 10억 달러 이상을 절약할 수 있었다.

이전에는 관리자들이 자사 데이터베이스 정보의 반 이상을 신뢰하지 못해 바닐라 원료를 주문

할 때 객관적인 데이터보다 자신의 경험에 의존했다. 그런데 빅데이터를 활용함으로써 필요한

Page 48: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

48

재료를 명확히 하고 업무를 단순화해 생산성 향상을 이루어낸 것이다.

빅데이터에 의한 생산성 향상의 또 다른 차이점은 데이터 생산 속도라고 하겠다. 앞서 빅데이

터의 정의에서 강조한 특성 중 하나가 속도였는데, 빅데이터에서는 거의 실시간으로 여러 센

서로부터 생산되고 수집되는 데이터 덕분에 좀 더 미세한 예측과 조정까지도 가능해 더욱 정

밀한 관리를 할 수 있다.

예를 들어 공급사슬 관리에서는 ‘채찍 효과(bullwhip effect)’라는 것이 있는데, 원자재 공급량

예측의 실패 정도에 따라 공급사슬상에서 다음 단계의 제품 생산량을 예측하는 데 더 큰 폭의

오차가 발생하고, 결과적으로 실제 판매량과는 더욱더 큰 격차가 생기게 된다.

따라서 실시간 데이터로 정밀한 예측과 조정을 하면 이와 같은 실제 판매 시점에서의 제품 공

급량과 수요량의 차이를 최소화해 재고와 물류 비용을 줄임으로써 생산성을 높일 수 있다.

과거 거래 기록과 같은 죽은(dead) 데이터가 아닌, 살아 있는(live) 실시간(real-time) 정보의

흐름이 여러 곳에서 발생하고 포착되어 생산성 향상에 큰 영향을 미칠 가능성이 높다.

대표적인 예로 월마트를 들 수 있다. 2011년 수익만 보아도 4,220억 달러로 웬만한 국가의

GDP보다 많은 이 소매업체는 전 세계적으로 8,500여 개의 점포를 운영하고 있다. 종업원만

해도 200만 명이 넘으며 매주 2억 개 이상의 고객 거래를 처리하는데, 엄청난 데이터가 생산

되는 만큼 이를 활용하는 것도 쉽지 않은 문제이다. 월마트는 이미 1990년대부터 ‘리테일 링

크(Retail Link)’라고 불리는 재고 관리 시스템을 도입해 사용하고 있다. 월마트에서 물건을 판

매하는 업체들은 이 시스템을 통해 현재 각 점포 내 자사의 재고량은 물론 시간당, 일당 판매

량 등의 세세한 정보를 정확히 알 수 있다. 또한 언제, 어떻게 자사 상품이 판매되며 어떤 상

품들과 함께 선택되는지도 파악할 수 있다. 덕분에 협력업체들은 재고를 더 효과적으로 관리

할 수 있게 되었다.

요약하면 빅데이터 시대에 생산성을 향상시킬 유망한 기회는 기업 활동에 관련된 인력은 물론

사물을 추적하고 관리하는 영역, 그리고 이를 아울러 가치사슬 전체를 최적화하는 방향으로

정리할 수 있다. 이제 이 두 가지 생산성 향상 기회에 대해 좀 더 잘 이해할 수 있도록 다양

한 기업 사례를 살펴보자.

Page 49: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

49

2. 생산성 향상 기회 1 – 실물 움직임을 포착하는 센서 기술

빅데이터를 활용한 생산성 향상의 첫 번째 유형은 이전까지 관리가 어려웠던 실물의 위치나

움직임을 센서 기술로 파악해 생산성을 높이는 것이다.

이전에는 공장 자동화나 사무 자동화와 같이 사람의 작업들을 컴퓨터로 대체해 생산성을 향상

시켰다. 눈에 보이는 단순한 작업을 기계나 컴퓨터로 대신하면 생산성이 향상된다. 제조업은

물론이고 일반 상거래에서도 거래 과정에서 이전에는 많은 일들이 사람의 손을 거쳐야 했다.

하지만 이제는 고객이 웹상에서 직접 주문, 결제하고 배송 정보를 입력해 기업이 하던 일을

떠맡으면서 생산성이 크게 향상되었다. 빅데이터 시대에는 컴퓨터나 기계가 사람을 대신하는

차원을 넘어 재고와 상품이 어디에 있으며, 어떻게 움직이고 있는지를 센서 기술로 파악하는

일이 보편화되고 있다.

심지어 고객 행동이나 수요의 변화와 같이 예전에는 파악하기 어려웠던 변화에 대해서도 센서

기술로 데이터를 수집하고 분석하여 고객이 원치 않는 상품이나 일을 없애거나 피하는 방법으

로 비용을 절감한다. 즉 센서로 파악한 데이터를 통해 불필요한 작업과 프로세스를 제거하거

나 최적화하는 방향으로 생산성 향상이 이루어지고 있다.

1) 사례 1 홍콩 대학 도서관의 장서 관리

요즈음 전자책이 보편화되고 있지만 대학 도서관에서는 여전히 학생들이 수많은 종이책들을

대출하고 반납한다. 홍콩의 최고 명문인 홍콩 대학(University of Hong Kong)은 도서관에 약

270만 권의 장서를 보유하고 있으며, 도서관 이용자도 연간 10만 명이 넘는다고 한다. 특히

책에 RFID(Radio Frequency Identification) 태그를 부착해 도서관 운영의 생산성을 크게 개

선했다.

RFID는 바코드를 대체하기 위해 개발되었는데, 바코드와는 달리 안테나가 내장되어 있어 무선

으로 통신이 가능하다. 안테나가 가까운 거리의 RFID 리더기에 라디오 신호를 전송하면, 리더

기는 네트워크를 통해 컴퓨터에 데이터를 보내 처리하도록 되어 있다.

RFID 태그의 마이크로칩에는 물건을 식별하는 정보가 프로그램되어 물건의 위치와 언제, 어디

서 만들어졌는지 등의 정보를 담을 수 있다. 즉 RFID가 책 속에 부착되어 있으면 스캐너가 순

식간에 책에 대한 온갖 정보를 인식하는 것이다. 또한 스캔을 위해 책의 특정 부분을 특정 위

치에 맞출 필요가 없으므로 스캔하는 방향이나 거리 면에서 융통성이 높다.

RFID의 내구성은 지난 수년 동안 크게 향상되었으며, 스캔 성공률도 거의 100%에 달한다.

더욱이 알고리즘을 이용해 여러 RFID 태그가 있어도 상호 충돌을 최소화하여 한 무더기의 책

들도 쉽게 스캔 할 수 있다.

Page 50: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

50

이 RFID 덕분에 책을 빌리기 위해 긴 줄을 서서 기다릴 필요가 없어져 책 대출과 반납에 걸

리는 시간이 훨씬 빨라졌다. 이제는 학생들에게 허용된 최대 대출 분량인 60권의 책을 빌리기

위해 이전처럼 도서관 직원이 60번을 스캔할 필요가 없으며, 책의 도난 방지 관리도 더욱 용

이해졌다.

이 시스템 덕분에 홍콩 대학 도서관의 생산성이 50%나 증가했다고 한다. 심지어 도서관 직

원 없이도 셀프 서비스 대출/반납기를 통해 하루 24시간 책을 대출하고 반납할 수 있다.

<그림 5-2> RFID 태그의 예

2) 사례 2 UPS와 US익스프레스의 텔레매틱스

시간의 가치가 높아진 현재, 배송업체들의 경쟁력은 신속, 정확성에 있다. 이들의 신속한 노력

이 없으면 인터넷에 주문한 책들이 주문 당일 내 손 안에 들어오는 것은 불가능하다. 물건을

배송하는 차량들은 작은 아파트 단지 내에서도 이리저리 물건의 주인을 찾아 다닌다. 배송업

체 입장에서 보면 자사가 보유한 수많은 차량의 유지 관리 및 운영비가 인건비를 제외하고 경

상운영비의 대부분을 차지하는데, 이 비용의 절약도 빅데이터를 활용해 좀 더 수월해지고 있

다.

전 세계 최대 물류업체 중 하나인 UPS(United Parcel Service)는 정보기술 활용의 선구자 중

하나로, 2010년 한 해 IT 예산만 10억 달러에 달했다. UPS는 20년 동안 자사 트럭에 텔레매

틱스(Telematics)를 활용해왔는데, 이는 배송 차량을 모니터하는 혁신적 기술과 관련된다. 배

송 차량들에 센서를 부착해 각 차량이 기계적으로 어떻게 작동하는지, 차량의 속도, 방향, 브

레이크 이용, 엔진 및 특정 부품이나 요소들의 성능 등을 모니터한다.

UPS는 2009년부터 더욱 많은 정보를 수집해 이를 연료비 절감, 효과적인 차량 유지 관리,

Page 51: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

51

안전도 향상에 활용하는 대규모 프로그램을 도입했다. 이에 따라 트럭의 안전벨트, 화물칸 문,

변속기 후방 기어 등을 체크하는 센서는 물론 속도, 시동을 건 횟수, 오일 압력 등 200개 이

상의 트럭 상태에 대한 지표 정보를 GPS로 수집하고 있다.

UPS 관리자들은 이런 데이터를 매핑(mapping) 소프트웨어와 결합하여 비용 절감, 안전 운전,

환경 보호를 위해 운전자의 운전 습관을 바꾸는 도구로 활용한다. 말 그대로‘운전자의 하루를

재창조’할 수 있게 된 것이다. 실제로 UPS는 이러한 데이터들을 분석해 트럭 기사들이 후진할

필요성을 25% 정도 줄임으로써 결과적으로 사고 위험을 감소시켰다.

또한 하루 공회전 시간도 15분 절감할 수 있었는데, 공회전은 시간당 1갤런(약 3.785리터)의

연료를 낭비하고 시간당 32마일(약 51.5킬로미터)로 달리는 트럭보다 오염물질을 20% 더

배출하기 때문에 이는 매우 큰 성과이다.

2010년 텔레매틱스 장비가 장착된 배송 차량의 운전자는 1,540만 분의 비운용 시간을 절감

했는데, 이를 연료 절감으로 환산하면 10만 3,000갤런(약 38만 9,897리터)에 해당한다.

2010년 말까지 북미 지역에서만 이러한 장비가 장착된 차량들이 2만 4,374대에 달했다.

차량 유지 관리팀은 이런 정보를 활용해 정기적으로 차량을 점검하기보다 필요할 때에만 점검

을 한다. 이러한 조치는 시간과 돈을 절약하고, 부품과 휘발유의 낭비를 막는다. 배송 경로나

운전 습관 등을 모니터하여 운전자의 행태를 최적화할 수 있기 때문이다. 더욱이 운전자들은

벤치마크와 비교해 자신의 차량 상태와 운전 상황을 정확히 파악할 수 있다.

비슷한 사례로, 미국의 트럭 운송회사 US익스프레스(US Xpress)는 비용을 절감하기 위해 ‘데

이터를 남겨두지 말라(No Data Left Behind)’라는 프로그램을 운용하고 있다. 이 회사는 트럭

의 타이어, 연료 게이지, 엔진 등에 부착된 센서 데이터, 특정 지역 데이터, 블로그의 고객 불

만 데이터 등으로부터 900여 개의 데이터 요소들을 수집한 다음, 하둡이나 인포매티카

(Informatica) 같은 빅데이터 기술들을 활용해 빅데이터를 프로세스하고 분석함으로써 트럭

활용을 극대화하고 비운용 시간 및 연료 소비를 줄여 연간 수백만 달러를 절약하고 있다.

3) 사례 3 문구 유통업체 스테이플스의 재고 관리

매장에 진열하는 상품의 종류가 수천 개이고, 보유한 대형 점포의 수도 2,000여 개에 이른다

면 어떤 문제가 있을까? 기업 경영에서 가장 일반적인 문제인 재고 관리가 가장 큰 부담이 될

것이다. 자사가 보유한 상품이 모두 얼마나, 어디에 있고, 누가 관리하고 있으며, 여유분이 얼

마나 될지 파악하지 못한다면 기업으로서는 고객이 원하는 제품을, 원하는 장소에서, 필요로

하는 시점에 판매하기 어려워질 것이다.

사실 이런 문제를 해결하기 위해 기업들이 일찍부터 눈을 돌린 기술이 있다. 앞서 홍콩 대학

도서관에서도 사용하고 있는 RFID 기술이다. 이 기술을 이용하여 제조업체는 자사 제품에 안

Page 52: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

52

테나와 컴퓨터 칩이 내장된 태그를 부착하고, 라디오 신호로 이들의 이동을 추적할 수 있다.

미국에만 해도 1,900여 개의 대형 매장을 갖고 있는 세계 최대 사무용품 유통업체 스테이플

스(Staples)는 자사의 모든 제품에 능동형 RFID를 부착하여 자사는 물론 물품을 공급하는 협

력업체들까지 실시간으로 각 제품의 판매 상황을 파악함으로써 생산성 향상 효과를 톡톡히 보

고 있다. 2008년 5월, 스테이플스는 300개를 재고 유지 단위(SKU : Stock Keeping Units)로

하여 선택적으로 2,000개 상품에 태그를 부착했다. 태그 비용은 개당 5~8달러였다.

스테이플스는 태그를 이용해 각 매장에서 정확한 재고를 유지하고 상품의 위치를 정밀하게 파

악했다. 기존의 수작업 시스템에서는 재고를 정확히 알 수 없었지만, 모든 물품에 능동형

RFID 태그를 부착하고부터는 100% 정확하게 재고를 파악할 수 있게 되었다. 또한 제품 판매

전까지 매장 내 모든 이동 경로가 태그에 저장되어 판매 현황은 물론 제품의 위치까지 정확히

알 수 있다.

태그는 스테이플스에서 직접 붙이는 것이 아니라 물품을 공급하기 전 공급업체에서 부착하기

때문에, 스테이플스는 매장 선반에 진열할 양만큼 물건을 주문하고 그에 따라 보관 창고를 따

로 둘 필요도 없게 되었다.

이처럼 스테이플스는 수작업으로 물품의 숫자를 셀 필요가 없기 때문에 인건비를 절감하고,

파악되지 않는 매출과 재고 손실도 없앴다. 또한 POS 터미널에서 제거되는 RFID 태그를 재사

용하는 노하우 덕분에 추가로 비용을 절감할 수 있었다. 태그의 수명이 5년은 될 것으로 기대

하고 있어 각 태그를 200번 재사용한다고 할 때 비용은 태그 하나당 3센트로 줄어든다.

Page 53: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

53

1. 생산성 향상 기회 2 – 가치사슬 흐름의 재설계

빅데이터로 가치사슬에서 불필요한 작업이 최소가 되도록 업무 프로세스를 재설계하고 모니터

함으로써 생산성 향상을 이끌어내는 기회도 더 많아지고 있다. 업무 프로세스에서 발생하는

데이터를 수집해 분석하면 어떤 부분이 가치 창출에 기여도가 낮거나, 심지어 마이너스가 되

는지 파악할 수 있다.

더욱이 기업들이 외부 협력업체나 기관들과 업무 관계를 맺을 경우 엄청난 양의 새로운 데이

터가 생산되기 마련인데, 이 중 개방적 관계에서 생산, 관리되는 빅데이터가 중요한 역할을 한

다. 기존에 사람이 하던 작업 순서가 아니라 업무 처리가 가장 효과적으로 이루어지도록 업무

의 흐름을 최적화하고, 그에 따라 데이터의 흐름을 재구축하는 것도 생산성을 높이고 있다.

네덜란드 로테르담 항구를 거쳐 중부 유럽으로 화물을 선적한다고 치자. 20년 전만 해도 클립

보드를 든 사람이 입항을 등록하고, 적하 목록을 검토하며, 서류 작업을 하여 전화로 다른 사

람들에게 행선지를 알려주었다. 이것이 당시 공급사슬 관리 방식이었다.

그러나 오늘날에는 RFID 포털에서 정보를 스캔하고 디지털로 캡처해 자동으로 전송하면 바로

선적이 이루어진다. 가치사슬의 업무 흐름이 훨씬 단순해졌다. RFID 포털은 선적인, 창고, 공

급자, 경로상의 목적지와 전자통신으로 추적하고, 그 과정에서 최적화가 필요할 경우 경로를

재설정한다. 과거에는 하나하나 사람의 손으로 하던 일을, 이제는 원격지에 소재한 서버 간에

이루어지는 일련의 대화로 처리하는 것이다.

최근 들어 생산성 향상의 중심에 공급사슬 관리(SCM), 클라우드 컴퓨팅(Cloud Computing),

모바일 스마트 고객 등이 부각되고 있는데, 이러한 새로운 기법이나 기술의 등장도 결국은 외

부 데이터를 내부 데이터와 결합하여 가치사슬상의 업무 흐름을 개선하는 데 정보기술과 데이

터를 활용하는 움직임이라고 볼 수 있다.

특히 공급사슬 관리 분야에서는 RFID 기술 외에도 수요 신호 저장소(DSR : Demand Signal

Repository), GPS 트래킹, 스마트 미터기 같은 빅데이터 기술을 활용함으로써 거의 실시간으

로 모든 문제에 대응하는 기술적 진보가 이루어지고 있다.

수요 신호 저장소(DSR : Demand Signal Repository)는 상품 제조업체가 소매업체로부터 상세

한 POS 및 기타 수요 데이터를 수집, 분석해 문제점이나 기회를 파악하는 프로세스이다. GPS

트래킹은 움직이는 물체에 GPS(Global Positioning System)를 달아 이동 경로, 거리 최고/평

균 속도 등을 기록하는 것이다.

6차시 가치사슬 흐름 재설계와 생산성 향상

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

6차시 학습 교안

Page 54: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

54

다음은 이러한 기술 발달에 따라 가치사슬상의 불필요한 업무 흐름을 제거하거나 개선하여 생

산성을 향상시킨 사례들이다.

1) 사례 1 공급사슬을 형성해 생산성을 높인 리앤펑

매년 20억 벌 이상의 의류와 장난감, 액세서리 등의 소비재를 생산하고 900여 개의 브랜드를

관리하는 글로벌 우량기업이 있다. 이 회사의 공장과 생산 인력은 얼마나 대단할까? 엄청난

규모의 공장과 많은 직원들을 떠올리기 쉽지만 정답은 전혀 뜻밖이다. 이 회사는 공장도, 생산

인력도 없다. 그런데 어떻게 그 많은 제품들을 생산해낼까? 이는 다른 기업보다 생산성이 높

은 글로벌 공급사슬을 보유, 관리하기 때문이다. 이 회사가 세계 곳곳에 흩어져 있는 각각의

다른 기업 및 공장들과 생산을 조율하고 수익을 낼 수 있는 비밀 역시 빅데이터에 있다.

실시간 데이터에 진지하게 접근한 이 기업은 전 세계에서 가장 큰 공급사슬 운영자 중 하나인

리앤펑(Li&Fung)이다. 한 세기 전인 1906년 중국 남부 광저우에서 사업을 시작한 리앤펑은

중국 공산화를 피해 1937년 본사를 홍콩으로 옮겼으며, 초창기 아시아 일부 지역에 국한된

무역회사에서 이제는 소비재(의류가 3분의 2 차지) 생산 전반을 취급하는 글로벌 소싱회사로

탈바꿈했다. 누구든 요청만 하면 원자재 조달에서부터 디자인, 염색, 생산에 이르기까지 모든

것을 대행할 업체들을 찾아 원하는 의류를 만들어 공급해준다. 공장이나 설비를 보유하지 않

으면서 40개국 1만 2,000여 공급업체들의 네트워크를 지휘해 케이트 스페이드(Kate Spade)

에서부터 월트디즈니까지 다양한 브랜드의 의류 및 소비재 생산과 관련한 모든 것을 소싱한다.

2011년 수익은 무려 200억 달러에 달했다.

리앤펑은 2000년부터 플랫폼에 인터넷을 도입해 10개의 엑스트라넷(Extranet)을 구축함으로

써 주요 고객들과 직접 연결하는 디지털화된 플랫폼을 본격화했다. 리앤펑이 속한 산업에서는

고객의 주문을 받을 때 팩스나 전화를 주로 이용하고, 이메일만 해도 최첨단에 속한다. 그러나

리앤펑은 새로운 웹서비스 플랫폼을 도입해 프로세스 진행의 신속성을 높였다. 웹 포털에 주

문 내역을 올리면 사전에 심사를 통해 자격을 얻은 공급업체들이 입찰을 하고, 리앤펑의 에이

전트들이 PDA를 이용해 실시간으로 공장들을 감독한다. 고객들은 초기 생산 작업에서부터 선

적까지 주문 각 단계에 대해 상세한 상황을 모니터할 수 있다.

리앤펑의 플랫폼에서 가장 중요한 기술 중 하나로 판명 난 것은 비디오 컨퍼런스(화상 회의)

이다. 이를 이용해 구매자와 제조업체는 재료의 색상이나 옷의 바느질 상태까지 확인할 수 있

다. 그 전에는 500메가바이트의 옷 이미지들을 이메일로 보낼 수 없어서 DVD로 만들어 우편

으로 보냈으나, 이제는 사무실에서 벤더(Vendor)들에게 다양한 견본을 소개할 수 있다. 실시

간 이미지 덕분에 디자인 변경도 더욱 빨라졌다. 네트워크를 통해 주고받는 데이터 분량이 하

루 100기가바이트에서 18개월 사이에 1테라바이트로 늘어난 것이다.

정보 시스템과 결합된 플랫폼 덕분에 리앤펑은 전 세계 작업 상황을 모니터해 시장의 흐름을

파악할 수 있다. 예를 들어 중국 남부지방에서 새로운 법규 때문에 노동자가 줄어들고 인건비

Page 55: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

55

가 올라가자 리앤펑은 데이터를 분석해 실제로 문제가 발생하기 전에 생산 거점을 북부로 옮

겼다. 이외에도 경제위기를 사전에 경고해주는 시스템이나, 시장 상황이 변화하기 전에 소매업

체의 주문을 파악하는 것도 가능하다. 리앤펑이 제공한 각 국가 정보를 활용하여 투자분석가

들은 거시경제 상황에 대해 통찰력도 높이고 있다.

2) 사례 2 돈의 흐름을 재설계한 대한지적공사

금융 공급사슬 관리(Financial Supply Chain Management) 분야는 소프트웨어와 프로세스가

기업의 상품 흐름에 따른 돈의 흐름을 관리해 수익성을 최대화하고 비용을 최소화하는 것을

말한다.

물건을 판매하고 그 돈을 이자율이 낮은 여러 은행에 오랫동안 분산시키는 것보다 높은 이자

를 주는 한 은행에 집중시키면 비용도 줄고 수익성도 높아진다. 국내에서는 웹케시(WebCash)

라는 회사가 개발한 ‘브랜치(Bran ch)’ 솔루션을 바탕으로 은행들이 기업에 이와 같은 서비스

를 제공하고 있다.

대한지적공사는 자금 관리 시스템을 도입하기 이전에는 오프라인 대금을 지급하고 지역본부

(14개)와 지사(220개)로 분산된 1,600여 계좌들을 관리하는 데 어려움을 겪었다. 또한 자금

관리 업무와 내부 ERP 시스템이 서로 연계되지 않아 업무 생산성이 저하되고, 금융자산 활용

도 비효율적으로 운용하고 있었다.

본사에서는 각 지역본부 및 지사에서 보유한 계좌 및 자금 보유 수준을 전혀 파악하지 못했으

며, 사업 수익의 70% 정도를 CMS(Cash Management Service)를 도입해 수납하고 있었으

나 정확한 고객 확인이 어려워 연간 수십억 정도의 사업 수익금을 가수금(假受金) 처리해 이

월하고 있는 실정이었다.

또한 각 사업장 전체가 대금을 지급하기 위해 출금전표를 발행하고 은행을 방문하여 출금하는

등 불필요한 자금 업무도 과다하게 발생했다. 일일 수입과 지출에 대한 내역도 관리하지 못해

매달 마감 체제가 있었으며, 이로 인해 자금 담당자의 업무 부담도 컸다.

이러한 문제들을 해결하기 위해 대한지적공사는 거래 은행의 도움으로 브랜치 솔루션을 적용

하고, 본사 및 지역본부와 지사들의 대량 금융정보(이체, 거래 내역 등)를 제공하는 시스템을

펌뱅킹 및 인터넷뱅킹 방식을 혼용하여 구축했다. 그에 따라 자금 관리 업무를 공사 내부의

ERP 시스템과 연계해 실시간 예금주 조회, 대금 지급 및 처리 결과를 바로 시스템에 반영하

고, 자동 전표 처리가 가능하게끔 브랜치를 도입해 업무 흐름을 연결했다.

덕분에 지역본부 및 지사에서는 각 은행 잔액/거래 현황, 계좌 시재 일/월별 현황, 일자별 거

래 집계와 잔액 현황, 일별 보통예금 현황을 실시간으로 파악하고, ERP 연계로 수납 및 지급

내역에 대해 자동 전표 처리를 지원할 수 있었다.

또한 본사에서는 전 사업장의 자금 현황을 파악하고, 지역본부 및 지사에 분산된 자금에 대해

Page 56: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

56

집금(集金) 기능을 구현하여 유휴자금(idle money)을 최소화했다. 이전에는 재무회계 시스템

따로, ERP 따로 입력해 대금을 관리해야 했지만, 이 솔루션은 업무 흐름에 따른 자금 흐름 간

에 연계점을 만들어 더욱 편리하고 완벽하게 대금 지급과 집금을 자동화시켰다.

공사 입장에서 이러한 해결책은 생산과 영업 활동을 담당하는 ERP 시스템에서부터 재무회계

시스템과 자금 관리 시스템에 이르기까지 ‘돈’의 흐름을 하나로 연동한 시스템을 구축한 것이

다(<그림 6-1> 참조).

<그림 6-1> 대한지적공사의 돈의 흐름 관리 전후

<자료 : 웹케시㈜ (2010)>

이러한 금융 공급사슬 관리는 GE와 같이 세계 곳곳에서 장사를 하는 글로벌 기업들은 물론,

다양한 거래처부터의 입출금 관리가 복잡한 기업이나 공공기관들이 활용하고 있는 경영 기법

이다. 즉 공급사슬에서는 일반적으로 상품, 정보, 돈의 세 가지 흐름이 발생하는데, 이들을 제

각각이 아닌 동기화된 흐름으로 바꾸어 관리하는 것이 금융 공급사슬 관리의 핵심이다.

특히 빅데이터 시대에는 돈의 흐름을 상품의 흐름에 맞춰 파악해야 한다. 금융 공급사슬 관리

는 운영자금, 대금 지급, 가격 결정, 재고에 영향을 주는 상호 관련된 일들을 파악하고 분석한

다.

Page 57: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

57

매출 추이는 종업원의 보너스, 스케줄의 지체, 부서장의 변경이나 예상치 않은 사임에도 영향

을 받는다. 실제로 LG전자나 삼성전자와 같은 국내 기업들은 해외 판매로 벌어들이는 자금을

현지법인이 각자 관리하기보다 제휴 은행을 통해 한곳으로 집중시켜 운전자금(working

capital) 관리의 효율성을 높이고 있다.

3) 사례 3 환자의 불필요한 재방문을 줄인 병원

병원의 생산성에 피해를 주는 문제 중 하나는 부적절한 진료나 대응, 조치 등으로 환자가 병

원을 다시 찾는 것이다. 이는 병원의 수익과는 거의 무관한 일로서 병원 인력과 시간을 빼앗

아 불필요한 비용을 발생시킨다. 미국의 한 병원에서는 디지털화된 환자 임상 자료인 개인 전

자의료 기록(EMR : Electronic Medical Record) 및 관련 의료보험 자료들(예 - HRA : Health

Reimbursement Accounts)을 빅데이터 기법으로 분석해 환자들이 불필요하게 다시 오는 일

을 줄였다.

기존의 관계형 데이터베이스에 있는 환자 데이터로는 어떤 환자가 왜 병원을 다시 찾는지 파

악할 수 없었다. 이를 이해하기 위해서는 환자의 진료 기록과 함께 의료보험 기록들을 분석해

야 했으나, 수작업으로는 거의 불가능한 일이었다.

이에 이 병원은 빅데이터 분석 기법을 도입해 비정형 데이터인 환자들의 진료 기록과 의료보

험 자료들을 분석했다. 먼저 환자에게 필요한 최적의 진료 계획을 파악하고, 해당 환자가 그

계획에 맞는 임상 경로를 따랐는지 분석한다. 이 경로 분석은 치료, 의사, 물리치료사, 환자

사이의 적절한 진료 순서와 조치를 파악하는 것으로, 이 병원은 환자, 진단, 날짜 등에 따라

장기적으로 환자에 대한 치료 과정을 분석했다.

그리고 이를 통해 어떤 유형의 환자들이 무슨 이유 때문에 불필요하게 다시 방문하는지 파악

하여 문제를 해결할 수 있었다. 결국 환자들의 불필요한 재방문이 줄어들자 재접수 건수도 줄

어 진료 비용 절감으로 이어졌다.

Page 58: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

58

2. 빅데이터에 의한 생산성 향상의 조건

앞서 살펴보았듯이 빅데이터는 지속적인 생산성 증대를 위해 필수불가결한 요소이다. 정보경

제학에서 주장하는 것처럼 생산성을 결정하는 투입 요소로서 자본, 토지, 인력 등 전통적인 요

소들의 생산성 기여도는 한계가 있다. 반면 데이터는 추가 비용을 거의 들이지 않고도 투입을

엄청나게 늘릴 수 있는 잠재력이 있다.

물론 실제 생산성 향상이 말처럼 쉽게 이루어지는 것은 아니다. 여기에는 두 가지 전제 조건

이 있다.

바로 IT 인프라에 대한 투자와 인적자본의 육성 및 조직의 변화이다. 기존에는 기업이 정보기

술에 투자해 생산성을 높이려면 정보기술 인프라에 막대한 비용을 투입해야 했다. 그러나 클

라우드 컴퓨팅의 발달과 서비스 업체들의 치열한 경쟁으로 이러한 부담은 점차 완화되는 추세

이다.

그보다는 정보기술과 데이터를 활용하려는 체제와 문화가 조직 내에 자리를 잡았는가의 문제

가 빅데이터 활용을 위한 보다 본질적인 과제로 부상하고 있다. 빅데이터 기술이 발전하더라

도 조직의 관성 때문에 그 수용 여부와 속도는 기업마다 매우 큰 차이를 보일 것이다.

또 하나의 중요한 문제는 빅데이터 활용으로 야기되는 노동력 재배치 문제를 사회 및 국가 차

원에서 원활히 해결할 수 있는가 이다. 빅데이터를 활용해 생산성이 증대되면 인력 재배치나

감축 등의 인력 구조조정으로 이어지기 때문이다. 종종 간과하고는 있지만, 외환위기 이후 ‘고

용 없는 성장’이 본격화된 중요한 이유 중 하나는 정보통신기술을 광범위하게 경영 현장에 보

급했기 때문이다. 빅데이터로 인한 또 다른 생산성 혁신은 이러한 움직임을 더 가속화하는 동

력으로 작용할 수 있다.

직장에서 조기 퇴출되지만 재취업은 어려워 생계형 자영업으로 내몰리는 한국 사회의 현실에

서, 이들 인력에 대해 효과적인 재순환 방안을 만들어야만 빅데이터의 효과도 기대대로 발휘

될 수 있다. 빅데이터는 단순히 경영이나 기술적 이슈만이 아닌 사회적, 정치적 관점에서도 폭

넓은 접근이 필요하다.

Page 59: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

59

1. 우리 모두 콜럼버스가 될 수 있는 빅데이터 시대

세상을 뒤바꾼 위대한 진전은 종종 우연한 발견에서 비롯되었다.

기업 3M의 대명사가 된 ‘포스트잇’이 바로 대표적인 경우이다. 강력한 접착제를 목표로 실험

을 하던 도중에 정반대로 매끄럽게 떨어지면서 여러 번 붙였다 떼었다 할 수 있는 접착제가

탄생한 것이다.

보관이 편리하고 충격에도 안전한 폭약을 찾다가 용기 틈새로 새어 나온 액체 니트로글리세린

이 규조토와 섞이는 것을 보고 다이너마이트 제조법을 발견한 노벨도 마찬가지이다.

일본의 시라카와 히데키(白川英樹) 또한 자기 밑에 있던 한국인 유학생이 밀리몰(millimole)

단위를 몰(mole) 단위로 잘못 읽어 촉매제의 양을 원래보다 1,000배나 더 넣는 바람에 ‘전기

가 통하는 플라스틱’을 발견해 2000년 노벨 화학상을 받았다.

이처럼 어떤 일에 몰입하다가 우연히 이루어지는 큰 발견을 ‘세렌디피티(serendipity)’라고 한

다. 여느 사람이라면 그 의미를 대단치 않게 생각하고 넘겨버렸을 실마리들이 예리한 안목과

감각을 지닌 이들에게 포착되어 거대한 반향을 불러일으킨 것이다.

노벨 생리의학상을 받은 아버지의 뒤를 이어 노벨 화학상을 수상한 로저 콘버그(Roger D.

Kornberg) 교수도 “위대한 발견은 목표가 불분명한 연구의 산물”이라고 주장한다. 인류의 위

대한 발견은 자연과 생물에 대한 인간의 끝없는 호기심과 기본 원리를 추구하는 활동 가운데

우연이 겹쳐지며 이루어낸 성과였다는 것이다.

그러나 이러한 우연을 단순한 ‘행운’과 동일시해서는 안 된다. 이들 발견이 예기치 않은 갑작

스러운 순간에 찾아왔을지언정, 그 이면에는 헤아릴 수 없는 광대한 가능성을 두려워하지 않

고 발견을 위해 기울여온 열정과 노력이 있었다.

콜럼버스가 1492년 서인도 제도에 도달하여 대항해 시대의 전기를 마련한 것도, 대서양의 광

활함을 오히려 새로운 기회로 인식하고 카스티야 왕국의 이사벨 1세라는 걸출한 투자자를 설

득해 도전에 나섰기 때문이다. 결국 콜럼버스의 발견 이후 아메리카 대륙 진출이 본격적으로

이루어지면서 스페인이 막대한 부를 획득할 기회가 열린 것을 생각해보면, 비즈니스의 세계에

서야말로 새로운 발견의 기회에 커다랗게 눈을 뜨고 담대하게 나아가는 자세가 중요함을 다시

금 깨닫게 된다.

그렇다면 콜럼버스 이후 500년이 지난 오늘날 우리에게 미지의 광대한 발견의 가능성을 열어

7차시 발견에 의한 문제 해결

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

7차시 학습 교안

Page 60: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

60

주는 대양과 같은 존재는 무엇일까? 감히 빅데이터가 그러한 존재라고 말하고 싶다. 디지털

공간과 스마트 환경의 발달로 데이터의 바다, 그 너머에서 새로운 가치를 지닌 신대륙은 지금

이 순간에도 계속 넓어지고 있다. 더군다나 이를 탐험하는 데 필요한 저렴하고 성능 좋은 배

와 선원들도 넘쳐나고 있다. 소셜 미디어의 각종 텍스트와 과학 연구개발의 3차원 지도 등 비

정형화된 엄청난 데이터들이 늘어나면서 발견을 통해 새로운 기회를 창출할 가능성도 높아지

고 있는 것이다.

그러한 기회는 현재 누구도 알지 못하고 있을 뿐, 이미 빅데이터 속에 존재하고 있기에 누가

좀 더 과감한 탐구정신과 도전으로 그것을 찾아내느냐가 기업 차별화의 핵심이 될 것이다. 콜

럼버스의 발견도 혹자는 이미 존재하고 있던 신대륙을 서방 세계에 알린 것뿐이라고 폄하할

수 있겠지만, 그 의미는 결코 작지 않다.

빅데이터에서도 발견의 기회는 이미 그 안에 존재하고 있으며, 이를 누가 어떻게 찾아 외부

(기업)에 적절한 형태와 내용으로 알리느냐가 큰 의미를 가진다. 결국 사람들이 빅데이터에 열

광하는 이유는 현재의 가능성뿐 아니라 미래의 가능성을 보았을 때 발견에 의한 커다란 진전

이 비즈니스의 역사에서도 일어날 수 있기 때문이다.

특히 콜럼버스 시대의 발견과 빅데이터 시대의 발견은 비용과 노력 면에서 엄청난 차이가 있

다. 콜럼버스는 커다란 재정적 부담 때문에 이사벨 여왕의 후원으로 배 3척을 겨우 동원하고

죽을 고비를 넘겨 신대륙을 발견했지만, 빅데이터 시대에는 그만한 비용과 수고 없이도 위대

한 발견이 가능하다. 누구나 손쉽고 저렴하게 콜럼버스가 될 수 있는 곳이 빅데이터 세상이다.

그리고 이러한 발견이 일회성 이벤트가 아닌 일상적인 기업의 경영 활동 속에 내재될 수 있다

는 점이 중요하다. 심지어 일반 개인들이 이용할 수 있는 무료 분석 소프트웨어들도 있다. 구

글 애널리틱스(Google Analytics)를 사용하면 개인이 집에서 공짜로 자신의 블로그나 SNS 콘

텐츠를 읽은 독자들의 패턴을 찾을 수 있다. 구글 트렌드(Google Trends)나 구글 상관관계

(Google Correlate)를 이용하면 사람들이 구글로 검색한 엄청난 단어들 뒤에 숨겨진 세상의

변화 추이나 관심사들 간의 관계를 무료로 발견할 수 있다. 물론 기업은 좀 더 진지한 목적을

위해 본격적인 탐색 작업을 할 수도 있으며, 기업 대신 모험을 감행할 대리인들도 급격히 늘

어나고 있다.

기업들도 기존 정보기술에 비해 큰 부담이 없는 소셜 미디어 애널리틱스(Social Media

Analytics)를 구매하거나, 클라우드 서비스를 활용해 SNS에서의 고객 행동을 분석, 예측한다.

한국야쿠르트는 꼬꼬면 출시 이후 SNS를 분석해 제품을 개선했고, 식칼 제조업체 헹켈

(Henckel) 역시 SNS를 분석해 판매량이 감소한 이유를 파악했다.

그 외에도 <그림 7-1>에서는 어떤 SNS를 거쳐 우리 사이트에 들어온 고객들의 실제 구매 전

환율이 높은지 보여주고 있다. 각 막대는 각기 다른 SNS를, 막대의 높이는 구매로 전환된 경

Page 61: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

61

우의 수를 의미한다.

<그림 7-1> 소셜 미디어 애널리틱스의 활용 사례

<자료 : IBM (2011). “Social Media Analytics.”>

이외에도 각 SNS를 통한 페이지뷰 수와 판매액, 주문 건수, 주문당 금액 등을 알 수 있다. 1

인 인터넷 상거래 사업자들도 자신의 사이트에 이러한 소프트웨어를 연결하면 손쉽게 고객의

SNS 이용 행태를 파악할 수 있다.

어떻게 보면 빅데이터에서는 사람의 의도가 중요하지 않을 수도 있다. 이미 데이터 마이닝이

나 비즈니스 인텔리전스 분야에서도 예고되었지만, 많은 경우 인간보다는 컴퓨터가 의미 있는

내용을 찾는 데 유리하다. 즉 컴퓨터는 효과적이고 효율적인 발견의 주체가 되며, 사람은 여기

서 발견된 내용을 해석 및 검증하고 활용하는 데 매진할 수 있다.

▶ 빅데이터는 쓰레기통이다?

이 말은 빅데이터가 쓸모없는 쓰레기라는 뜻이 아니라 앞으로 발생할 예상치 못한 문제의 해

결책을 이미 가지고 있음을 의미한다. 1972년 코헨(M. Cohen), 마치(J. March), 올슨(J.

Olsen) 세 사람은 “쓰레기통형 조직 의사결정 모델(A Garbage Can Model of Organiza-

tional Choice)”이라는 논문을 통해 ‘쓰레기통 이론’을 내세운 바 있다.

누구나 한 번쯤 이미 버린 물건을 다시 찾기 위해 쓰레기통을 뒤져본 경험이 있을 것이다. 왜

쓰레기통을 뒤지는가? 아마 이전에는 쓸모 없다고 버린 물건이 이제는 어떤 이유에서든 다시

유용해지고 필요해졌기 때문이다. 마찬가지로 기업이나 기관들에 어떤 문제가 발생했을 때, 조

직 내에 이미 그 문제의 해결책이 존재하나 그 동안 쓸모가 없어 버려져 있었기에 이제 쓰레

Page 62: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

62

기통을 뒤져 그 해결책을 ‘발견’하는 것이 중요해진다는 점이 쓰레기통 이론의 핵심이다. 즉

문제 해결 과정이 문제가 발생한 다음에 근사한 해결책을 만들어내는 것처럼 항상 순차적이기

보다는 반대로 문제가 발생하면 이미 조직 내 존재하지만 예전에는 간과하거나 무시했던 해결

책을 찾는 이치와 같다.

이처럼 빅데이터는 이미 문제에 대한 해결책이 존재하는 쓰레기통과 같을 수 있다. 문제가 발

생하면 해결책은 그 속에 있으며 이를 발견하는 일이 중요해진다는 뜻이다. 빅데이터의 쓰레

기통은 규모와 구조가 엄청나게 크고 복잡하기 때문에 그 속을 사람이 직접 뒤지지 않고 컴퓨

터가 대신 정보를 찾아준다. 과거에는 쓰레기통이 작아 그 속에 해결책이 들어 있을지 확신할

수 없었고, 들어 있다 해도 쓰레기통을 뒤지는 일이 쉽지 않았다. 하지만 빅데이터 시대에는

해결책이 존재할 가능성이 높은 엄청난 양의 쓰레기가 있으며, 이를 뒤지는 문제도 기술 혁신

으로 가능해졌고 더욱 쉬워졌다.

1) 검색과 다른 발견

2002년 당시 미국 국방장관이었던 도널드 럼스펠드(Donald Rumsfeld)는 인텔리전스 문제에

대해 토론하면서 ‘우리가 이미 알고 있음을 깨닫는 것(known knowns)’도 있지만 ‘우리가 모

르고 있음을 아는 것(known unknowns)’도 있다고 말했다. 또한 ‘우리가 모르고 있는 줄도

모르는 것(unknown unknowns)’도 있다고 했다.

럼스펠드 같은 국방장관에게 국가의 위협은 ‘모르고 있음을 모르는 것’을 의미한다. 반면 기업

에는 이런 위협이 기회가 되기도 한다. 구글이나 네이버에서 키워드 검색은 ‘알고 있음을 아는

것’ 혹은 ‘모르고 있음을 아는 것’에 해당한다. 즉 검색(search)을 통해 알고 있는 것(키워드)을

확인하거나(검색 결과), 아니면 알고 있는 것이 틀렸음을 확인한다(검색 결과). 그러나 검색이

새로운 상품이나 서비스를 위한 새로운 시장을 찾아주지는 못한다. 모르고 있음조차 모르는

문제를 해결해주지는 못하는 것이다.

다시 말해, 키워드를 모르면 아무것도 찾지 못하는 것이 검색이다. 반면 발견(discovery)은 콜

럼버스가 인도로 가는 항로를 찾다 아메리카에 닿았듯이 자신이 가는 곳을 모른다는 사실조차

모르면서도 위대한 결과를 낼 수 있다.

기존 방식과 빅데이터 방식의 차이점은 <그림 7-2>와 같다. 기존의 검색과 같은 방법은 무엇

에 대한 답을 찾을지 미리 알고(문제가 무엇인지 미리 알고, 즉 키워드) 시작하는 것이었지만,

빅데이터는 창의적인 반복적 탐구 과정을 통해 무엇을 질문해야 하는지(무엇이 문제가 되어야

하는지, 즉 검색할 키워드) 찾아내는 과정이다.

Page 63: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

63

<그림 7-2> 기존 방식과 빅데이터 방식의 차이점

<자료 : IBM (2011). “Why Bog Data Why Not?”>

2) 빅데이터로 발견하고 할 수 있는 것

빅데이터의 사례로 이미 가장 많이 알려진 것은 1장에서 소개한 대로 IBM과 구글이 서로 경

쟁한 자동 번역 프로그램 개발이다. 한쪽은 사용이 쉬운 일부 자료만을, 다른 한쪽은 활용이

어렵지만 수많은 자료들을 사용했는데, 결국 후자의 방식을 택한 구글이 성공했다. 이 사례가

보여주는 것처럼 빅데이터는 접근 가능한 모든 데이터의 활용을 말한다. 그리고 빅데이터에서

는 모든 데이터들 사이의 의미 있는 관계나 패턴을 찾는 것을 추구한다.

결혼에 대해 검색하는 것과 다이어트에 대해 검색하는 것 사이의 상관관계가 높다는 결과도

고객의 구매 패턴에서 찾을 수 있다.

마찬가지로 마케팅의 가장 유명한 데이터 분석 사례 중 하나인 기저귀와 맥주 구매 사이의 높

은 상관 관계도 비상식적으로 보이지만 이유가 있었다. 아내 심부름으로 아기 기저귀를 사러

온 아버지들이 가게에 온 김에 자신이 마실 맥주도 함께 구입한다는 사실처럼, 빅데이터에서

의 발견은 종종 비상식이 상식을 뛰어넘는다.

그러나 생산되는 모든 데이터들이 접근 가능한 것도 아니고, 데이터들이 이미 과도하게 많은

상황에서 어떤 데이터를 선택해 분석하느냐도 쉽지 않은 문제이다. 빅데이터에서 분석은 소프

트웨어가 하지만 해석, 즉 그 의미를 찾는 것은 사람이 해야 하는 경우가 많다. 다시 말해, 그

유의성은 확실하지만 이를 해석하는 것은 매우 어려운 상관관계도 있다.

Page 64: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

64

2008년 금융위기에 따른 미국 베어스턴스(Bear Stearns)의 파산 3일 전, 이 투자은행 직원들

100명 이상이 늦은 밤까지 단골 술집을 떠나지 않았던 사생활 패턴은 거의 매일 밤늦도록 일

과 씨름해야 하는 투자은행 직원들의 통계적인 평균 행동과는 매우 거리가 먼 이례적인 일이

었다(이들은 이날 본격적으로 은행의 파산이 예상되자 회사와 자신들의 앞날에 대해 밤새 격

론을 벌였다). 그럼에도 밤늦도록 술을 마시는 일반인들의 행동이 특별히 주목할 만한 사건이

아닌 것처럼, 이들의 그날 밤 행동에서 특별한 의미를 찾아내지 못하는 것은 수년간의 데이터

에서 특별히 의미 있는 패턴을 찾지 못하는 경우와 비슷하다.

하지만 빅데이터로 발견에 효과를 본 기업들은 빅데이터의 새로운 효용에 대해 절대 간과하지

않고 그 소중한 교훈을 확대 생산하려 노력한다.

자동차 생산업체 볼보(Volvo)는 빅데이터를 활용해 커다란 성과를 거두고 있다. 이 스웨덴 회

사는 고객의 자동차에 내장된 센서, 고객관계 관리(CRM : Customer Relationship Manage-

ment) 시스템, 딜러, 공장 등으로부터 몇 테라바이트나 되는 데이터를 수집한다. 그리고 이들

데이터를 통합, 분석해 아직 발생하지 않은 자동차의 결함과 같은 문제의 사전 정보를 생산해

낸다.

맥킨지의 자크 부긴(Jacques Bughin) 이사에 따르면, 과거에는 데이터가 없어 완전히 간과했

던 매크로적인 행동이 빅데이터에서는 새로운 법칙으로 발견될 가능성이 있다는 게 실질적인

빅데이터 경영의 시사점이다. 많은 데이터 속에서 구체적인 해결책을 찾을 수도 있지만 한 번

의 시도로 커다란 성과를 거두기는 힘들며, 콜럼버스처럼 지속적으로 투자하고 노력하는 것만

이 빅데이터의 결실을 가져다준다.

빅데이터는 자기 밭을 일구는 농부보다는 온갖 산을 헤매고 다니는 심마니와 유사하며, 따라

서 반복적인 탐험을 강조한다. 시장에 큰 영향을 미치는 새로운 유형의 고객 행태를 보는 눈

을 기르려면 데이터 수집 및 분석에 대해 많이 탐험하고 그 결과를 축적해야 한다.

3) 발견을 일상화해 실험실이 된 기업

빅데이터로 발견을 하기 위해 노력하는 실험 문화가 기업의 운명을 바꾸기도 한다. 빅데이터

와는 전혀 관련 없어 보이는 화려한 라스베이거스의 카지노들도 빅데이터로 운명을 달리했다.

빅데이터에 올인한 해러스(Harrah’s)와 이에 무관심했던 시저스(Caesars) 이야기이다.

하버드 경영대학원 교수였던 개리 러브맨(Gary Loveman)은 라스베이거스에서 도박사업 경영

에 나선 이후 빅데이터의 선구자가 되었다. 1998년 그가 라스베이거스로 올 때만 해도 사람

들은 반신반의했다. 매사추세츠 공과대학(MIT) 박사 출신에 하버드 경영대학원 교수로 4년간

이론을 가르치던 그였지만, ‘실제’는 이론과 달라 고전할 것이라고 모두 예상했던 것이다. 그러

나 이변이 속출했다.

Page 65: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

65

현장 진출 5년 만인 2003년 해러스 엔터테인먼트 CEO에까지 오른 러브맨은 2004년 회사

매출액을 45억 달러로 끌어올린 데 이어, 2005년에는 업계 라이벌 시저스를 94억 달러에 인

수했다. 그리고 인지도를 고려해 인수 후 2010년 회사명을 시저스 엔터테인먼트로 변경했다.

이제 그는 미국 굴지의 카지노업체를 10년 이상 이끌고 있는 최고의 CEO로 인정받고 있다.

두 회사의 운명이 이렇게 되기까지 그 과정을 살펴보자. 과거 1990년대 초의 치열한 경쟁 시

절, 시저스는 17억~30억 달러를 화려한 쇼 무대 등 시설에 투자한 반면, 해러스는 업계 최초

로 전국적 고객 데이터베이스 WiNet(Winner’s Information Network)을 구축해 특허 등록했

다.

해러스는 당시 기술로는 매우 어려운 문제였지만 지역별로 산재된 자사 카지노 시스템들을 모

두 통합했다. 덕분에 인터넷이 활용되기 이전부터 뉴저지 카지노와 라스베이거스의 고객 행동

을 동시에 파악해 실시간으로 고객 정보를 공유할 수 있었다. 그를 통해 고객들이 돌아다니는

것을 좋아하지만 같은 호텔에서 도박하는 것을 더 편하게 생각한다는 사실을 알게 되었으며,

어떤 곳에서 얼마의 돈을 도박에 쓰는지, 어느 식당에서 무엇을 먹는지 등을 파악해 이에 맞

춰 마케팅할 수 있게 되었다. 이후 러브맨은 이를 활용해 해러스를 운영 중심 회사에서 마케

팅 중심 회사로 변모시키기 시작했다.

해러스는 1997년부터 항공사 마일리지 프로그램과 같은 토털 골드(Total Gold) 프로그램을

운영했다(현재는 ‘토털 리워드(Total Reward)’로 변경). 시저스와 같은 경쟁사들도 동일한 서

비스를 제공했으나, 해러스는 프로그램을 등록할 때 수집되는 다양한 고객 정보와 사용(거래)

정보로 고객 특성을 파악하는 역량에서 다른 기업들을 훨씬 앞섰다. 이는 단순한 로열티 프로

그램이 아니라 지금과 같이 RFID나 NFC 기술이 보편화되지 않았던 1990년대 초의 센서 시

스템이라고 할 수 있다. 고객들은 해러스에 오면 일단 모든 결제를 토털 골드 카드로 하게 된

다. 식사는 물론 슬롯머신을 사용하려면 카드를 기계에 꽂고 게임을 시작하고, 각종 도박을 위

한 돈도 이 카드로 결제한다. 그러면 어떤 고객이 어디에 있는 기계를 언제 얼마만큼 이용했

으며, 그 기계에서 얼마를 잃거나 땄는지 알 수 있다.

이와 같은 방식으로 당시로는 엄청난 양인 300기가바이트의 고객 행태 정보가 슬롯머신, 식

당, 상점 등에서 수집되었다. 이러한 정보들은 회사 데이터웨어하우스에 넘겨져 정리되었는데,

고객의 신상 정보뿐 아니라 도박(돈 쓰는) 습성과 선호 정보까지 저장하고 관리했다.

이를 통해 26%의 고객이 전체 수익의 82%를 창출하며, 최고 수익 기여도가 높은 고객은

고급 차를 타고 좋은 옷을 입고 오는 사람이 아니라 중년 이상의 나이에 도박을 즐기는 전직

교사, 의사, 은행원 등임을 알 수 있었다. 또한 평균적으로 고객들이 연간 도박 비용의 36%

만을 해러스에서 쓰고 있음도 알게 되었다. 심지어 선호하는 슬롯머신의 위치를 파악해 슬롯

머신들의 배치를 바꾸기도 했다. 해러스는 마케팅에 맞춰 정보를 수집하는 것이 아니라 데이

터에 맞춰 마케팅하는 기업으로, 데이터를 통한 실험이 뒷받침되지 않으면 어떤 조치도 내부

적으로 용납하지 않는다.

Page 66: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

66

▶ 신세계백화점의 타깃 마케팅

국내에서도 신세계백화점이 타깃 고객 마케팅에 빅데이터를 활용했다. 2011년 인천 명품관을

오픈하면서 새로운 데이터 마이닝을 시도한 것이다.

기존 인천점의 30~40대 전문직 여성 고객들 가운데 고급 화장품 구매를 비롯해 대여섯 가지

조건을 갖춘 충족 고객을 추출하고, 이들 중 서울 지역 백화점에서 명품을 구매한 경험이 있

는 손님만 집중 공략했다.

추리고 추려 찾아낸 4만 명의 손님들 중 2만 명 이상이 실제로 명품을 구매했고, 인천점 전체

매출도 30% 이상 증가했다.

Page 67: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

67

2. 새로운 발견의 기회, 빅 상호작용 데이터

빅데이터가 기존의 것과 다르다는 주장에서 근거가 되는 부분이 바로 비구조적인(예컨대 SNS

에서 사람들 간의 대화 등) 실시간 데이터(각종 센서로부터 나오는 데이터)의 수집과 분석 및

활용이 가능해진 점이다. 앞에서는 이를 ‘빅 상호작용 데이터(실시간, 비정형 데이터)’라고 하

였다. 이와 관련된 각 분야에서 비구조적인 실시간 데이터를 기존 데이터베이스의 데이터와

결합해 이전에 하지 못했던 발견들을 실현 하고 있다.

<그림 7-3>과 같이 마케팅에서는 콜센터나 기업 SNS에서 고객들이 표현하는 개인적 감정이

무엇인지 찾는 것(발견)이 중요해지고 있다. 또한 병원에서는 중환자에게 부착된 각종 센서들

로부터 응급 상황을 탐지하고 조치할 수 있으며, 금융산업에서는 실시간으로 수집, 분석 되는

거래 데이터를 통해 즉각적이고 세밀한 고객 맞춤화나 리스크 관리를 할 수 있다. 마지막으로

보안산업에서는 컴퓨터로 비디오, 오디오 정보들을 분석할 수 있게 되면서 좀 더 즉각적이고

광범위한 범죄 예방 및 탐지가 가능해지고 있다.

<그림 7-3> 빅 상호작용 데이터와 발견의 향상

<자료 : IBM (2011) “Why Big Data Why Not?”>

메디시스(MedISys)는 전 세계 웹상의 문서들을 자동으로 뒤져 그 속의 단어들을 분석함으로

써 공중보건과 관련된 질병이 발생 할 것으로 예측되는 지역에 대해 경고한다.

<그림 7-4>는 파키스탄의 식중독 발병을 경고하는 화면으로, 현재 메디시스는 43개 언어로

되어 있는 1,400개 뉴스 포털로부터 하루 평균 5만 개의 새로운 기사들을 분석하고 있다. 이

러한 예는 빅데이터에서 나타나는 새로운 데이터 유형을 활용한 사례 중의 하나로, 여러 산업

에서 다양하게 활용되고 있다.

Page 68: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

68

<그림 7-4> 메디시스에서 파키스탄의 식중독을 경고하는 화면

<자료 : MedISys (2012.3.28>

1) 고객의 ‘감성’까지도 읽어내는 것이 가능

빅 상호작용 데이터 및 이메일, 블로그, SNS와 같은 비구조적 데이터가 급증하면서, 고객이

기업에 직접 표출하지 않더라도 기업이 이들 마음속에 있는 감성을 읽어내는 것이 가능해지고

있다. SNS 등 고객이 직접 생산해내는 콘텐츠(즉 데이터)가 많아짐에 따라 이를 토대로 고객

의 숨은 의도를 알아내려는 기법들이 발달하고 있기 때문이다.

고객의 진정한 의도를 알아내는 방법인 고객 감성 분석(Customer Sentiment Analysis)은 개

인의 글 속에 숨겨진 감성을 마이닝이나 분석 기법 등으로 알아내는 텍스트 마이닝(Text

Mining) 또는 텍스트 애널리틱스(Text Analytics)의 일종이다.

텍스트 애널리틱스는 <그림 7-5>처럼 구조화된 데이터(DB 데이터)와 비구조화된 데이터(SNS

데이터 등)를 이용해 패턴 등을 찾아낸다.

Page 69: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

69

<그림 7-5> 텍스트 애널리틱스를 이용한 고객 감성 분석의 흐름

<자료 : Forrester Research (2011). “Text Analytics Takes Business Insight to New Depths : An

Obscure echnology Has Found Its Killer App”(<http://blogs.sybase.com/sybaseiq/2011/06/text-

analytics-%E2%80%93-slaying-the-unstructured-data-dragon>)을 토대로 재구성.>

① 소프트웨어가 사전에 만들어진 디렉토리에 등록된 사람, 상품, 위치 및 관련 용어나 개념들

을 토대로 지시 받은 콘텐츠를 검사해 관심 사항들을 추출(마이닝)하는 프로세스를 진행한

다.

② 디렉토리에 등재된 경쟁사 이름과 같이 유사한 정보들끼리 묶어 그룹을 만든다.

③ 경쟁사 제품 기사를 쓴 기자들의 이름과 이들이 쓴 기사 제목처럼 추출된 관심 사항들 간

의 관계를 찾아낸다.

④ 감성 분석을 통해 관심 사항(기사의 글) 내용이 긍정적인지, 부정적인지 판별한다.

⑤ 찾아낸 정보를 시각화, 대시보드 등으로 이용자가 이해하기 쉽게 제공한다.

고객 감성 분석은 기업 내부의 텍스트 소스뿐 아니라 주류 웹사이트와 소셜 미디어 아울렛을

Page 70: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

70

포함한 디지털 콘텐츠 소스를 수집(크롤링)한다. 그런 다음 강력한 통계 기법과 언어 규칙으로

텍스트들 속에 표현된 감정을 추출해 요약하고, 동향을 파악하며, 소비자와 고객 및 경쟁사의

표출된 감정을 실시간으로 설명하는 그래픽 보고서를 생성한다.

미국에서 기아자동차는 2011년 4월 모터쇼에서 선보인 신차, 즉 2012년형 리오(Rio)에 대해

고객들이 어떻게 생각하고 있는지 매우 궁금했다. 전통적으로 연료 효율성과 가격 대비 높은

가치를 내세워온 기아자동차는 이에 더해 수준 높은 디자인과 훌륭한 가치에 대해서도 고객들

의 평가를 받고 싶어했다. 기아의 마케팅팀은 고객들의 선입견에 무언가 변화를 주어야 한다

는 과제를 안고 있었으나, 고객의 감성에까지 도달하는 데에는 어려움을 겪고 있었다. 이에 따

라 공개되거나 공개되지 않은 개인의 표현 속에서 그 개인의 감성(만족, 불만족, 신뢰)을 파악

하는 분석 방법인 ‘고객 감성 분석’을 이용했다.

이는 2011년 11월 미국 최대 축제인 슈퍼볼 경기 중 기아자동차의 광고 효과가 소셜 미디어

로 만들어낸 엄청난 데이터에 대한 감성 분석으로 이어졌다. 이를 위해 사용된 분석 도구는

미국 캘리포니아 소재 기업 와이즈윈도우(WiseWindow)에서 개발한 ‘대량 의견 분석용 비즈

니스 인텔리전스(MOBI : Mass Opinion Business Intelligence)’ 소프트웨어로, 고객의 신뢰성

과 관련된 데이터를 수백만 개의 사이트로부터 계속해서 실시간으로 수집하고 분석한다. 기아

자동차는 이 분석 도구를 활용해 경기 도중은 물론 경기가 끝난 다음에도 광고에 대한 반응을

즉시 파악할 수 있었다.

다른 9개 자동차 회사들과 슈퍼볼 광고에서 격돌한 기아자동차는 광고 후 블로그, 트위터, 페

이스북 등과 같은 웹상의 수많은 고객 의견들을 MOBI 소프트웨어로 분석하여 경기 도중 시

청자들이 자동차에 대해 나누는 대화에서 자사 비중이 이전의 4%에서 9%로 상승했음을 발

견했다. 그 결과 기아자동차에 대한 고객들의 긍정적인 신뢰성도 4%에서 18%로 상승했으며,

이러한 추세는 다음 한 주 동안에도 지속되었다. 이전에는 주중 광고로 높아진 신뢰성이 주말

에 다시 낮아지는 패턴이 반복되곤 했던 것이다. 30초를 위해 3,000만 달러를 투자한 기아자

동차의 슈퍼볼 광고 효과가 신뢰성 분석으로 밝혀진 순간이었다.

와이즈윈도우의 MOBI 기술은 자연어 분석 기술을 도입해 기존의 고객 감성 분석 기법보다

한 단계 진화했다고 평가 받는다. 즉 컴퓨터가 개인의 감성을 표현하는 단어 조합 패턴을 인

식한 다음, 통계적 기법을 통해 이들을 기업들이 관심 있는 카테고리로 분류한다. 이를 통해

기업들은 특정 주제(예 : 자동차 회사는 고객들이 신차 디자인을 어떻게 생각하는지 궁금해할

것이다.)에 대한 고객들의 현재 의견이나 생각의 변화를 읽어낼 수 있다.

스마트폰 사용자가 “갤럭시S3는 모양도 좋고 성능도 좋은 데 좀 비싼 것 같군”이라는 글을 인

터넷 어딘가에 남기면 이를 컴퓨터 프로그램이 찾아 내용이 긍정적인지, 부정적인지 분석한다.

여기에는 긍정적인 내용(모양, 성능)과 부정적인 내용(가격)이 모두 있는데, 이때는 강약을 가

려서 가중 평균된 의견을 추출한다. 이 모든 과정이 컴퓨터에 의해 처리된다.

Page 71: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

71

기존에 고객의 신뢰성을 검증하던 설문조사나 포커스 그룹 인터뷰는 비용과 시간이 많이 들고

실시간으로 측정하기도 어렵다. 기업이 고객의 신뢰성을 더 잘, 더 빨리 측정한다면 그만큼 자

사의 제품이 얼마나 잘 팔리고 있는지 더욱 신속하게 파악할 수 있다.

기아자동차 외에도 베스트바이(Best Buy), 비아콤(Viacom), 파라마운트 영화사, 시스코시스템

스(Cisco Systems), 인튜이트(Intuit) 등의 기업이 고객, 종업원, 투자자의 감성을 측정하기 위

해 신뢰성 분석을 하고 있다. 일부 기업들은 심지어 수많은 이메일과 커뮤니케이션 내용을 점

검하기 위해 개발한 소프트웨어를 사용하기도 한다.

자동화된 감성 분석(Automated Sentiment Analysis)은 최근 주목 받고 있는 새로운 분야로

비즈니스 인텔리전스, 고객 서비스, 브랜드 평판 관리 등 여러 분야와 모두 관련되며, 현재 시

장이 형성되는 단계에 있다. 여러 가지 감성 분석 소프트웨어는 ‘텍스트 애널리틱스’ 기술을

사용해 소셜 미디어, 뉴스 기사, 내부 문서, 데이터베이스 등의 텍스트 속에서 의미를 찾는다.

이와 같은 텍스트 애널리틱스 시장이 급성장하고 있는데, 포레스터 리서치(Forrester

Research)에 따르면 2011년 4억 9,900만 달러 시장이 2014년에는 9억 7,800만 달러에 달

할 것으로 전망된다. 주가의 흐름을 예측할 때에도 고객 감성 분석을 활용하는데, 온라인상의

금융 관련 뉴스나 소셜 미디어, 기업 인터뷰 등을 분석한 다음 낙관론에서부터 절망에 이르는

400여 종류의 감성을 계량화하여 주식투자 정보 분석에 활용하고 있다.

각종 회의에 중점을 둔 고급 리조트형 호텔인 게일로드 호텔(Gaylord Hotel)은 고객과 소통하

는 방법을 감성 분석에 의해 변경했다. 호텔 경영진은 클라라브리지(Clarabridge)의 정보 시

스템으로 수집한 데이터들을 분석하여 고객이 호텔에 묵기 위해 찾는 처음 20분 안에 5개 정

도의 방법으로 좋은 인상을 남길 수 있음을 파악했다.

고객이 호텔 내 특정 목적지를 찾을 때, 직원이 단순히 길 안내만 하는 것보다 고객과 함께

그 목적지까지 걸어가면 만족도가 높아진다는 사실을 알게 되었다. 호텔이 설정한 가설은 고

객의 첫 20분 경험을 완벽하게 할 수 있다면 고객 만족도가 높아진다는 것이다.

감성 분석과 같은 빅데이터의 데이터 분석 기법을 사용하는 일부 사용자들은 이들 방법이 너

무 많은 스팸 정보와 별로 관련 없는 정보들까지 반영하므로 정확성에 의문을 가지기도 한다.

따라서 빅데이터를 활용하는 기업들은 빅데이터로부터 도출된 결과에 대해 학습할 필요가 있

다. 그렇지 않고 프로그램에 의존해 빅데이터의 결과를 그대로 수용만 한다면 커다란 위험에

처할 수도 있다.

2) 소셜 미디어의 고객 감성 지표들

포레스터 리서치 보고서에 따르면, 기업의 마케팅 담당자들은 블로그, 트위터, 페이스북 등 각

종 소셜 미디어에서 생성되는 고객들의 대화로부터 많은 정보를 얻기 위해 여러 가지 고객 감

Page 72: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

72

성 지표들(고객의 속마음을 보여주는 지표들)을 개발하고 있다.

지표 내용

토론에 대한 관심

보통 블로그 글이나 온라인 토론의 댓글 수로 측정되는 특정 주제에 대한 토론

의 규모. 인터넷 신문에서는 잘 알려진 기사를 볼 수 있지만, 댓글이 없을 경

우 사람들의 관심이 별로 없음을 시사한다.

토론 가치 특정 상품이나 브랜드에 대한 토론의 수익 기여도, 여러 채널에서 발생하는 토

론들의 브랜드에 대한 종합적, 개별적 기여도를 파악해 측정한다.

토론 분량

특정 주제에 대한 소셜 미디어의 글 수(블로그 포스트, 포럼 토론, 트윗 등).

규모는 장기간 측정될 때 효과적인 지표가 된다. 마케팅 담당자들은 토론 규모

를 미래 캠페인을 위한 기준으로 삼는다.

인구통계학적 지표

온라인 고객이 누구인지를 설명하는 각종 지표의 집합. 고객의 목소리를 청취

하는 플랫폼에서 고객의 위치, 성별, 나이 등에 대한 데이터를 수집한다. 마케

팅 담당자들은 인구통계학적 데이터로 마케팅 캠페인이 타깃으로 하는 고객에

게 전달되었는지 판단할 수 있다.

영향력 수준 네트워크 규모나 범위로 나타나는 개인의 온라인 영향력. 독자들이 많은 블로

그나 수천 명의 트위터 팔로워를 거느린 개인의 영향력은 높게 평가된다.

메시지 전달 범위

온라인 토론에서 최종적인 의견의 수로, 주제에 대해 다른 의견을 가진 소스

(즉 개인)의 수 및 각 소스의 잠재적 페이지뷰의 수로 측정. 대부분의 토론이

처음에는 사소하게 시작하다가 중간에 이슈가 크게 부각되면 갑자기 많은 사람

들이 관심을 가지고 참여하게 된다.

감성 유형

개인이 표현하는 긍정적, 중립적, 부정적 태도. 온라인상에서 브랜드 등에 대한

많은 언급들이 개인의 아무런 감정이 개입되지 않은 중립적 내용이지만, ‘고객

감성 청취 플랫폼’으로 키워드에 대한 형용사들을 추적하면 주제에 대한 고객

의 속마음을 파악할 수 있다.

목소리 비중 보통 파이차트로 표현되는 여러 브랜드들 사이의 토론 비중. 마케팅 담당자들

은 자사 브랜드와 경쟁사 브랜드들을 비교하여 자사의 비중을 파악한다.

주제 빈도

브랜드에 대해 고객들이 토론하는 주제 중 가장 자주 등장하는 주제. 마케팅

담당자들은 주제 빈도 데이터를 이용해 고객들이 온라인상에서 자사 브랜드를

어떻게 생각하며, 뭐라고 얘기하는지 파악한다.

입소문 요인

토론 내용이 퍼져나가는 규모와 속도로, 같은 주제에 대해 특정 기간 동안 얼

마나 많은 사람들이 관심을 표시하는지로 측정한다. 유명 연예인 부부의 이혼

처럼 입소문에 매우 민감한 주제는 단기간에 수많은 사람들이 댓글을 달거나

리트윗을 한다.

<자료 : Forrester Research (2011); TATA Consultancy Services (2011). “Social Media

Analytics”에서 인용.>

Page 73: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

73

보통 토론에 대한 관심과 가치 정도는 댓글의 수 등으로 측정되며, 소셜 미디어에 올라오는

전체 글의 양도 이들(관심 및 가치)에 대한 지표가 된다. 토론에 참여하는 사람의 인구통계학

적 지표들은 어떤 고객인가를 파악하는 데 중요한 자료이며, 연결된 사람의 수나 범위는 고객

감성의 영향력을 파악하는 데 사용된다.

감성의 유형을 파악할 때에는 글 속에 등장하는 부정적, 긍정적, 중립적 의미의 동사나 형용사

(마음에 든다, 좋다, 어렵다, 불편하다 등)를 평가한다. 제품 브랜드별 토론에 나타나는 주제들

도 고객 감성을 파악하기 위해 측정되며, 관심의 확산 속도인 입소문도 일정 기간 내의 댓글

수나 리트윗 횟수 등으로 측정된다.

▶ 소셜 미디어 데이터 분석으로 기업 호감도 변화에 대응하는 코카콜라

코카콜라처럼 수많은 국가에서 대중들을 상대로 영업하는 글로벌 기업에서 소셜 미디어 등 기

업 외부 데이터를 분석해 지역별 기호와 변화를 파악하는 일은 점점 더 중요해지고 있다. 이

는 다른 어떤 방법보다도 신속히 고객의 취향을 파악하는 통로가 되고 있다.

코카콜라는 세계 각국의 트위터나 페이스북에서 발생하는 자사 관련 데이터를 글로벌 단위로

수집, 분석한다. 트위터 분석은 영어, 중국어, 일본어, 한국어, 아랍어 등 전 세계 12개 언어

로 이루어진다. 관련 인원도 2010년 50명에서 2011년에는 4배나 증가했다.

실시간 대응을 위해 비우호적 정보가 급증한 국가나 지역을 대상으로 홍보를 강화한다. 분석

도구로는 소셜 미디어 분석 전문기업 시스모스(Sysmos)의 툴(Hearbeats 및 MAP)을 이용하

고 있다.

3) 고객이 문제를 제기하기 전 파악

‘고객 행태 경고 시스템(Customer Behavior Indicators)’은 일정 기간 동안 고객 대화 속에 등

장하는 단어, 문장, 분류된 활동들의 변화를 자동적으로 분석해 문제가 발생하기 전에 스스로

알아서 경고하는 사전경고 시스템이다. 특정 단어, 문장, 카테고리가 한 채널 혹은 여러 채널

에서 통계적으로 의미 있을 정도로 평소보다 적게 또는 많이 나타나면 이를 탐지해 자동적으

로 알린다.

이 시스템은 내부에서 발생하는 변화지만 외부에 입소문이 날 만한 일들을 찾아낼 수도 있다.

금융기관에서 새로운 수수료 체계를 도입하고 난 후, 콜센터에서 고객과 대화하는 도중에 ‘새

로운 수수료(new fees)’라는 단어의 발생 빈도가 급격히 증가했다고 하자. 고객 행태 경고 시

스템은 고객들이 문제를 제기하기 전에 자동적으로 이러한 변화를 감지해 다른 주요 고객 행

태 변화와 관련된 단어들과 함께 시스템 화면에 이해하기 쉬운 형식으로 보여준다.

Page 74: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

74

즉 <그림 7-6>처럼 콜센터에 녹음된 내용 중 ‘새로운 수수료’라는 단어가 지난 주 동안 증가

하면 ‘콜(call)’ 화면 리스트 가장 위쪽에 나타나게 한다.

<그림 7-6> 콜센터 등의 고객 대화에 나타난 고객의 형태 변화 경고 시스템 화면

<자료 : VERINT (2011). “Customer Interaction Analytics.”>

Page 75: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

75

1. 발견의 새로운 이름, 예측

빅데이터에 의한 발견이 고도화되며 자연스럽게 부각된 분야가 바로 ‘예측’이다. 과거 및 현재

의 데이터로 미래에 발생할 결과를 가늠할 때 예측이 가능하며, 이를 위해서는 모델(Model)

이 있어야 한다. ‘기업의 매출은 광고비에 비례한다.’라고 하면 ‘Y(매출) = aX1(광고비) + b’라

는 모델이 성립하고(여기서 a, b는 Y와 X1의 관계를 가장 잘 반영하는 숫자), 이 모델이 적절

하다면 기업은 앞으로 얼마의 광고비를 투입하면 매출이 어느 정도 될지 예측할 수 있다.

빅데이터에 의한 예측은 앞서 설명한 바와 같이 사람의 계획에 의해 소프트웨어(통계 소프트

웨어나 예측 애널리틱스(Predictive Analytics) 등)가 그 관계를 발견하는(예 : 특정 구간에서

광고비와 매출 사이에 로그 함수 형태의 정비례 관계가 포착) 방법을 주로 사용한다.

그리고 과거에는 분석하기 어려웠던 데이터들을 분석하여 변수들을 찾아 예측력을 높이고 있

는데, 예를 들어 앞서의 모형에 더욱 많은 데이터가 가용해지면 ‘Y(매출) = aX1(광고비) +

bX2(회사 웹사이트 상품 홍보 클릭 수) + cX3(SNS에서 자사 제품 등장 수) + d(상수)’와 같이

X2, X3 등의 새로운 변수를 찾아낼 수 있다. 이는 매우 간단한 선형회귀식이지만 이론적으로

는 다른 복잡한 형태의 예측 모형 구축도 가능해지면서 예측력을 한층 높일 수 있다.

예측은 미래의 데이터가 아닌 과거의 데이터로 하며, 따라서 새로 데이터를 만들어내는 것이

아니라 이미 존재하는 데이터 속에서 미래를 말해줄 실마리를 찾는 것이다. 일반적으로 예측

이라고 하면 미래를 내다보는 점쟁이를 떠올리겠지만, 그 핵심은 과거 데이터에 있다. 존재하

는 모든 데이터는 과거이지 미래가 아니다. 현재 실생활에서 빅데이터를 활용해 다양한 예측

을 하고 있는데, 심지어 신문기사 내용을 분석해 유명 연예인의 결혼 기간을 예측하거나 음악

으로 사람의 성격을 예측하기도 하고 검색어로 독감 발생을 예측하기도 한다.

8차시 예측과 맞춤화

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

8차시 학습 교안

Page 76: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

76

1) 사례 1 유명 스타의 결혼 지속 기간을 예측하다.

연예인 등 유명인사의 결혼과 이혼은 항상 초미의 관심사로 주목 받는다. 그런데 단순한 호기

심을 넘어 유명인사 부부의 결혼 지속 기간을 정확히 예측해 화제를 모은 사람들이 있다.

2006년 《뉴욕타임스》의 과학 담당 기자 존 티어니(John Tierney)와 통계학자 가스 선뎀

(Garth Sundem)은 ‘선뎀/티어니 통합 유명인사 이론’을 고안해 이를 예측했다.

이 공식에 포함된 변수는 남편과 부인의 상대적 유명도, 이들의 나이, 교제 시간, 과거 결혼

경력, 그리고 구글에서 부인의 이름을 검색했을 때 조회 수가 높은 순서대로 나온 상위 5개

사진 중 노출이 있는 사진의 개수로 표현되는 섹스 심볼 요인 등이다.

선뎀은 이후 5년 연속 자료를 분석해 더 실증적으로 개선된 계산법을 내놓았다. 이 가운데 유

명도 측정법은 구글 검색 대신, 해당 여성이 《뉴욕타임스》에 언급된 횟수를 타블로이드지 《내

셔널 인콰이어러(National Enquir er)》에 언급된 횟수로 나눠서 계산하는 방식으로 수정되었다.

타블로이드의 명성은 불행한 결과를 낳는다는 가정에 따른 것으로, 인기의 정도보다 어떤 종

류의 인기를 얻는지가 더 중요하다는 사실을 말해주고 있다.

이 공식에 따르면 15년 이상 결혼생활을 지속할 것으로 예상된 부부는 영국의 윌리엄 왕자와

케이트 미들턴, 칼리스타 플록하트와 해리슨 포드, 첼시 클린턴과 마크 메즈빈스키, 비욘세와

제이지 부부였다고 한다.

<그림 8-1> 선뎀/티어니의 연예인 결혼 기간 예측 공식

<자료 : John Tierney (2012. 3. 12). “Refining the Formula That Predicts Celebrity

Marriages’ Doom.” The New York Times.>

Page 77: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

77

2) 사례 2 취향을 분석해 행동을 예측하다.

사람에 따라서는 행동이나 반응을 쉽게 예측할 수 있는 이들이 있다. 친구나 가족끼리 식당에

갈 때 그 사람이 원하는 음식을 다른 사람이 알아서 주문해주거나, 어디를 간다고 말하기 전

에 이미 어디를 가고 싶어하는지 다른 사람들이 짐작한다면 그는 매우 예측 가능한 유형의 사

람이라고 할 수 있다. 기업 활동에서도 고객들의 행동이 이처럼 예측 가능하다면 좀 더 쉽고

효과적으로 서비스하고 더 많은 제품을 추천해 판매할 수 있을 것이다. 다음은 사람의 취향을

드러내도록 유도해 이를 분석하여 이전에는 파악하기 어려웠던 사람들의 행태를 예측하는 사

례들이다.

사람들은 물건을 사는 것을 단순히 구매 행위로만 생각하지 않는다. 그보다 상품 구매는 구매

자 자신을 표현(extension)하는 행위이다. 사실적으로도, 또 비유적으로도 그렇지만 사람들은

세상이 알 수 있도록 물건을 통해 자신을 표현하고 감정을 표출한다. 실제 세상에서 사람들은

명확한 정보와 함께 상황, 경험, 그리고 스테레오 타입으로 서로를 평가한다.

이피니언스(Epinions)에서는 최첨단 카메라부터 자주 찾는 동네 병원에 이르기까지 온갖 것에

대해 별의 개수(최대 5개)로 평가를 실시하고 정보를 공유한다. 이처럼 사람들이 스스로 평가

하는 행위 속에 고객의 마음을 읽을 수 있고, 더 나아가 그 사람의 행동을 예측할 수 있는 많

은 데이터들이 생산된다.

온라인 세상에서 이러한 예상은 점점 더 분명해진다. 소비자들은 이제 정기적으로 웹에 자신

이 경험한 내용을 평가하여 올린다. 네이버 영화와 음악 코너에 사람들이 올린 리뷰와 평점은

이미 다른 사람들의 선택에 큰 영향을 미치고 있다. 사람들이 자신의 경험을 평가로 남길 때

마다 다른 사람들에게 유용한 정보가 제공되지만, 그 자신은 흔적을 남기게 된다. 이런 정보를

활용할 수 있는 기업에는 엄청난 기회가 있다. 그 고객에 대해 다른 기업보다 더욱 잘 알 수

있으므로 그 고객의 취향을 정밀하게 분석해 특정 상품을 구매할 가능성을 파악(고객 행동을

예측)할 것이다.

스마트폰 앱에도 맛집부터 금융상품 추천까지 다양한 추천 시스템이 있다. 앞서 언급했듯이

빅데이터 시대는 검색보다는 ‘발견’의 시대를 의미하는데, 추천 시스템과 관련된 비즈니스를

하는 미스트랜즈(MyStrands)나 스텀블어폰(StumbleUpon)과 같은 신규 기업에서부터 야후나

아마존과 같은 거대 기업에 이르기까지 검색보다는 새로운 발견의 이로움을 강조하고 있다.

그 존재 자체를 몰랐거나 어떻게 요청 해야 할지 알지 못하는 상태에서 자신이 원하는 무언가

를 발견하게 되면 희열은 더욱 커진다.

검색에 관해서는 확실히 구글이 가장 앞서 있다. 하지만 발견은 아직 시작 단계이다. 2012년

3월 발표한 ‘구글 앱 볼트(Google Apps Vault)’는 법률 소송 때 관련된 내용의 이메일이나 채

팅을 찾아주는 본격적인 온라인 발견(e-discovery) 앱으로 알려져 있다. 한 달 사용료로 5달

러를 지불해야 하는 이 서비스는 개인화된 발견 메커니즘을 구축해 현재 웹상에 존재하는 자

Page 78: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

78

사의 이메일(gmail)과 채팅 내용들을 분류(범주화), 분석할 수 있다.

아마존은 일찍부터 추천 시스템이 얼마나 강력한 경쟁 수단이 될 수 있는지 알았으며, 지금까

지도 아마존의 추천 시스템은 업계의 대표 사례로 남아 있다. 아마존은 일련의 협력 필터링

(collaborative filtering) 알고리즘들(일종의 수학 공식)을 사용, 고객의 구매 패턴을 다른 사

람과 비교해 수많은 책이나 물건들 중에서 그 고객이 구매할 가능성이 높은 것들을 추려낸다.

하지만 차세대 추천 시스템은 고객의 행동을 예측하는 면에서 아마존보다 더 좋은 성과를 낼

수 있을 것으로 기대된다. 앱 스토어에서 가장 인기 있는 앱 중 하나인 판도라(Pandora)를

예로 들 수 있다. 공식적으로 판도라는 개인 맞춤화된 음악방송 사이트이지만, 비공식적으로는

고객 취향과 행동 간의 관계를 분석하는 사이트이기도 하다. 판도라는 매우 효율적인 신곡 발

견 메커니즘을 고객에게 제공한다.

신곡을 찾는 다른 대안들을 생각해보면 인터넷을 검색하거나 음악 사이트를 방문하는 것이 보

통이다. 반면 판도라에서는 가수 이름이나 노래 제목만 입력하면 바로 추천 시스템 ‘뮤직 게놈

프로젝트(Music Genome Project)’가 들려주는 유사한 멜로디를 감상할 수 있다.

또한 추천된 노래와 가수를 사용자가 평가하고, 추천 결과에 대한 피드백을 제공해 더욱 개인

화된 노래 추천 능력을 발휘하도록 한다. 현재 음원사업에서는 이외에도 여러 가지 서비스가

있는데, 겉으로 드러난 것만 보면 판도라는 개인 맞춤화와 발견에 특화된 서비스라고 할 수

있다(<그림 8-2> 참조).

<그림 8-2> 인터넷 라디오에서 판도라의 위치(주요 경쟁자와 비교)

<자료 : Ferrick, A., Rolf, T., Taggart, J. (2012). “Pandora.” Stanford University Working

Paper를 토대로 재구성.>

그런데 판도라는 왜 이러한 서비스를 무료로(물론 일부 서비스는 유료이고 광고 수익도 있지

만) 제공하는가? 판도라의 사업 목적은 단순히 음악을 효과적으로 고객에게 추천하는 데 그치

Page 79: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

79

지 않는다. 궁극적으로 판도라가 희망하는 것은 고객의 취향을 정확히 파악할 수 있다면 고객

의 행동(어떤 제품을 구매할지)도 예측할 수 있다는 것이다. 구글이 이메일 등 다양한 서비스

를 무료로 제공하는 이유도 이와 유사하다.

협업 필터링과 달리, 판도라는 자사 데이터베이스에 있는 각각의 노래들을 파악하고 있다. 대

부분 음악 관련 학위가 있는 45명의 분석가들이 400개 항목을 1~10점 사이로 평가해 매달

노래 1만 5,000개의 순위를 정한다. 사용자가 첫 번째 노래를 선택하면(긍정적 평가를 하면)

알고리즘이 유사한 특성이 있는 노래들을 검색한다. 사용자가 어떤 곡에 대해 긍정적(혹은 부

정적) 평가를 할 때마다 알고리즘은 고객의 취향을 더욱 잘 반영하도록 항목들의 가중치를 변

경한다.

빅데이터 측면에서 보면, 판도라 청취자는 라디오를 개인화하기 위해 계속 평가를 하기 때문

에 거의 110억 개의 평가 결과를 보유하고 있다. 판도라는 2011년 6월 미국 뉴욕 증권시장

에 상장되었으며, 8월에는 무려 1억 명이 판도라를 사용했다.

판도라의 추천 시스템인 뮤직 게놈 프로젝트는 수십만 곡들과 수백만 개의 사용자 피드백을

철저히 분석한다. 단지 좋은 서비스를 제공하려는 것만이 아니라 개인의 음악적 선호도와 성

격, 그리고 궁극적으로 행동 간의 관계를 알아내기 위해서이다.

판도라의 설립자와 심리학 교수는 음악적 취향과 성격 간의 관계를 연구해 음악이 사람의 정

서적 안정성, 용기, 야망과 같은 면은 잘 예측하지 못한다는 사실을 밝혀냈다. 하지만 성격의

외향성, 유쾌함, 신중함, 개방성, 상상력은 음악으로 정확히 예측할 수 있으며, 심지어 지능도

일부 예측할 수 있다고 한다. 9만 명의 사람들이 음악/성격 퀴즈에 참여한, 현재 진행 중인 연

구에서는 이러한 주제를 더욱 심도 있게 분석해 음악적 취향과 정치적 학습, 인구통계학적 특

성, 라이프스타일, 좋아하는 저자 및 영화 사이의 연관성을 찾고 있다.

3) 사례 3 검색어로 독감 유행을 예측하다.

수많은 사람들이 각기 다른 이유로 검색을 한다. 시기별 검색어 순위를 분석해보면 왜 사람들

이 그런 검색어와 관련된 내용을 찾는지 어떤 패턴이 나올 수 있고, 그러면 이를 이용해 예측

도 할 수 있다. 구글도 독감 유행을 예측하는 데 이러한 가능성을 응용한다.

매주 전 세계 수백만 명의 사용자들이 건강 정보를 온라인으로 검색하는데, 특히 독감이 유행

하는 계절에는 독감 관련 검색어가 많아진다. 구글은 독감과 관련된 주제를 검색하는 사람의

수와 실제로 독감 증상이 있는 사람 수 간에 밀접한 관계가 있음을 발견했다. 물론 독감에 대

해 검색하는 사람이 전부 아픈 것은 아니지만, 독감 관련 검색어를 모두 합산해보면 일정한

패턴이 나타난다.

구글은 검색어 수를 기존의 독감 감시 시스템과 비교해 정확히 독감이 유행하는 계절에 관련

Page 80: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

80

검색어가 많아지는 경향을 확인하고, 이러한 검색어가 나타나는 빈도를 계산해 전 세계 여러

국가 및 지역에서 독감이 얼마나 유행하는지 예상했다. <그림 8-3>는 미국에서 실제로 독감이

발생한 빈도와 구글 예상치가 거의 일치함을 보여준다. 즉 구글의 독감 관련 검색어로 예상한

수치와 기존의 독감 유행 수준 지표가 매우 근접하게 일치했다.

<그림 8-3> 구글의 독감 예상치와 실제 발생치

<자료 : http://www.google.org/flutrends.>

이러한 예측을 가능하게 하는 모델은 바로 ‘구글 상관관계’ 소프트웨어가 독감을 예측할 수 있

는 검색어(변수)들을 발견해 만들어진다. 구글은 정부기관 통계 등 공식 데이터에서 독감 환자

들이 병원을 방문한 빈도를 기록한 자료와, 동일한 시기에 사람들이 구글로 찾아보는 검색어

들 사이의 상관관계를 밝혀냈다.

다시 말해, 시계열 데이터를 통해 실제로 환자들이 병원을 방문한 빈도와 가장 상관관계가 높

은 검색어들을 ‘구글 상관관계’로 찾아낸 것이다. 이렇게 발견한 검색어 중 관련도가 높은 상

위 5개는 ‘인플루엔자 합병증(Influenza Complication)’, ‘감기/독감 치료제(Cold/Flu

Remedy)’, ‘일반적인 인플루엔자 증상(General Influenza Symptoms)’, ‘인플루엔자 기간

(Term for Influenza)’, ‘특정 인플루엔자 증상(Specific Influenza Symptom)’이다. 바로 이와

같은 변수들이 검색어로 등장하는 비율이 높아진다면 실제 독감이 유행할 확률도 커진다는 것

이 구글의 예측 모델이 말하는 내용이다.

Page 81: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

81

2. ‘시각화, 잘 보여주는 것’이 중요해진 시대

빅데이터 시대에 발견을 위한 핵심 요소로 중요성을 더해가고 있는 영역이 바로 시각화

(Visualization)이다.

시각화란 쉽게 얘기해 데이터 분석 결과를 이해하기 쉽도록 일목요연하게 보여주는 기술, 비

법 등을 의미한다. 기존의 데이터 분석은 매우 전문적인 기술이나 지식이 필요한 IT 전문가들

의 영역이지만, 빅데이터 시대에는 비즈니스 실무자들도 최소한 빅데이터 속의 발견이 어떤

의미가 있는지를 이해해야 한다.

이런 실무자들이 빅데이터 분석을 이해하려면 직관적인 시각화가 매우 효과적이다. 그러나 현

재 기업 사무실에서 많이 사용하는 마이크로소프트의 엑셀 같은 도구로는 기업 전체에 흩어져

있는 데이터를 분석하고 직관적으로 시각화하는 데 한계가 있다.

미국의 한 대형 은행은 과거에는 생산성 분석 보고서를 정리하는 데 무려 25개의 엑셀 시트

를 이용했다. 이걸로는 가독성도 매우 나쁘고 의미를 파악하기도 어려웠다. 그러다가 전문 소

프트웨어를 이용해 한 화면에 대시보드 형태로 지역별, 부서별 생산성을 한눈에 파악할 수 있

도록 하자 활용도가 크게 올라갔다고 한다.

기업들도 고객들이 자사 콘텐츠를 잘 이용할 수 있도록 시각화를 활용한다. 《월스트리트저널

(Wall Street Journal)》은 자사 웹사이트에서 각종 차트와 지도, 기타 그래픽들로 구성된 인터

랙티브 그래픽스(Interactive Graphics) 섹션을 무료로 제공하며, 독자들은 자신의 분석에 맞

게 차트들을 맞춤화할 수도 있다. 《뉴욕타임스》도 이와 유사한 비주얼라이제이션 랩

(Visualization Lab)을 제공한다. 마찬가지로 국내 증권사들도 자사 웹사이트에서 주가 움직임

의 패턴을 찾아내는 각종 시각화 도구들을 제공하고 있다.

데이터를 시각적으로 표현하는 방법은 숫자나 텍스트를 표로 정리하는 것보다 패턴, 트렌드,

특이 사항 등을 훨씬 빠르고 쉽게 찾을 수 있다. 시각화로 사용자들은 한눈에 어느 부분이 문

제가 되고 주의를 요하는지 파악할 수 있다. 텍스트 기반의 리포트나 스프레드시트에서는 트

렌드나 주요 사항들이 복잡한 숫자나 글 속에 감춰지기 쉽다. 이러한 특성 때문에 시각화 도

구들이 일반 비즈니스 환경에서 점차 보편화되는 추세이다. 수많은 정보를 요약해 큰 흐름을

한 번에 파악할 수 있게 하는 것이 바로 이러한 시각화의 장점이다. 이제 데이터 시각화는 컴

퓨터 사이언스, 통계학, 시각디자인, 스토리텔링 등의 기법들이 녹아든 역동적이고 창조적인

분야로 부각되고 있다.

경영 분석 회사인 TDWI 리서치에 따르면, 데이터 분석에서 시각화의 장점은 비즈니스 통찰력

및 사용자 생산성(정보 생산에 걸리는 시간)의 향상과 사용자의 비즈니스 인텔리전스(데이터

분석 및 접근) 도구 수용도의 증가로 볼 수 있다. 이러한 장점 덕분에 최근 들어 기업에서 시

각화에 대한 선호도가 높아지고 있다. 비즈니스에 대한 통찰력 획득 면에서 발견(discovery)과

Page 82: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

82

시각화 도구를 결합해 과거에는 존재조차 몰랐던 숨겨진 관계를 찾아내기도 한다. 생산성 면

에서도 테이블 형태의 보고서로는 찾아내는 데 며칠 혹은 몇 시간이 걸렸을 유용한 패턴이나

트렌드를 쉽게 파악할 수 있다. 결과적으로 데이터를 분석하는 사람들은 분석에 더 집중하고

데이터를 찾거나 만들어내는 시간은 줄일 수 있다.

시각화를 이용한 데이터 발견 도구에는 두 가지가 있다. 하나는 사용자에게 인터랙티브하게

정보를 보여주는 것이고, 다른 하나는 검색하는 것처럼 정보를 찾아 시각적으로 보여주는 것

이다.

먼저 인터랙티브한 시각화에는 특정 공간(예 : 페이스북) 안에서 정보의 흐름(친구들 네트워크

간의 정보 흐름)을 보여주거나(Spatial Information Flow), 데이터들(예 : 전체 고객)을 각 클

러스터(특정 고객군)에 할당하고 이 과정을 시각적으로 보여주거나(Clustergram), 여러 비교

대상들의 가치 크기와 동향을 지도의 넓이와 색의 변화로 표현하는 트리맵(Treemap) 형태의

도구들이 있다.

대표적인 사례로 ‘주식시장 시각화’를 보자. 1998년, 잡지 《스마트머니(SmartMoney)》의 그래

픽 디자이너였던 마틴 워턴버그(Martin Wattenberg)는 한 가지 문제를 안고 있었다. 그는 매

일매일 주식시장의 움직임을 고객의 관점에서 표현하고 싶었다. 그런데 요즘도 많이 볼 수 있

지만 그때까지는 시간 경과에 따른 각 주가의 변화를 그래프로 나타내는 것이 일반적이었다.

따라서 상장된 모든 기업의 주가를 파악하기 위해서는 개별적인 주가 시황 그래프들을 모두

찾아봐야 했다. 매일 수백 개 기업들의 주가가 조금 혹은 많은 폭으로 움직이는데, 모든 정보

를 한눈에 알아볼 수 있다면 투자자들에게 매우 유용할 것이다. 하지만 어떻게 시각적으로 이

를 가능하게 할 수 있을까?

워턴버그는 뛰어난 아이디어로 기존 기술을 적용해 그리드(grid) 형태의 시장 지도를 만들어

냈다. 이는 각 산업별로 분류된 500여 개 기업들 각 주식의 당일 종가를 사용했다. <그림 8-

4>은 워턴버그가 개발한 시장 지도(the Map of the Market)로, 이 시각화의 목적은 투자자들

에게 ‘(주식)시장에서 무슨 일이 벌어지고 있는가?’에 대해 이해하기 쉬우면서도 종합적인 답

을 주는 것이다.

이 지도에서 각각의 사각형은 한 기업을, 사각형의 넓이는 그 기업의 총 시장 가치(Market

Capitalization)를 가리키며, 각 사각형들의 합이 한 산업을 나타내도록 구분되어 있다. 그리

고 사각형의 색을 달리해서 주가의 상승과 하락을, 농도를 달리해서 상승과 하락의 폭을 표시

했다. 이 지도는 개발 이후 지금까지도 스마트머니 사이트에서 가장 인기 있는 콘텐츠 중 하

나로 꼽히고 있다.

Page 83: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

83

<그림 8-4> 워턴버그의 시장 지도

<자료 : http://www.SmartMoney.com.>

다음으로 검색에 따른 시각화를 들 수 있는데 Co-word 분석 등이 그 사례이다. 시장 정보는

시각적으로 보여주기 어렵지만, 최소한 데이터들은 일반 텍스트가 아닌 다루기 쉬운 숫자들이

다. 일반 텍스트 단어들을 시각화하기는 더 어렵다. 이들을 묘사하는 한 가지 방법은 단어의

개수를 세어 군집으로 표시하는 것이다. 자주 나타나는 단어를 좀 더 큰 글자로 표시하고, 관

련성이 높은 단어들일수록 서로 가까운 거리에 위치하게 한다.

<그림 8-5>은 Co-word 분석 방법이 적용된 컴퓨터 프로그램을 사용해 2002년에서 2009년

사이 ‘디지털 금융’ 주제를 다루는 관련 영문 학술지를 모두 찾은 다음, 그 속에 등장하는 관

련 단어들 간의 상관관계를 (프로그램이) 파악해 시각화한 것이다. 분석 결과 디지털 금융 분

야의 연구는 지급 결제, 온라인뱅킹, 보안, 전자상거래와 금융, 고객 관리, 은행 업무와 IT 등

으로 나타났다.

Page 84: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

84

<그림 8-5> Co-word 분석을 통해 나타난 전자금융의 분야

이러한 방법을 통해 디지털 금융이라는 분야에서 주로 어떤 주제들이 연구되고 그 내용들이

무엇인지 쉽게 파악할 수 있으며, 어떤 분야의 연구가 부족한지도 시각적으로 잘 드러난다. 즉

사람이 직접 계산하거나 분석 결과를 표현할 필요 없이, 프로그램이 대신 분석의 완성도를 높

여 그 내용을 이해하기 쉽게 시각적으로 표현한다.

웹에서는 이러한 단어들 간의 관계를 찾아 시각화하는 ‘워드 클라우드(Word Cloud)’ 기법이

인기를 얻고 있다. 이를 통해 한 무리의 텍스트들이 대충 무슨 내용인지를 파악할 수 있다. 미

국 오바마 대통령의 21분 연설 후에는 바로 연설의 핵심이 그래픽-기호학적으로 웹에 등장한

다. 연설에서 가장 빈번히 사용한 세 단어 ‘국가(nation), 미국(America), 사람(people)’이 나

타나는 것이다. 그의 전임자가 주로 사용한 세 단어는 ‘자유(freedom), 미국(America), 자유

(liberty)’였으며, 링컨 대통령이 애용한 세 단어는 ‘전쟁(war), 신(God), 공격(offence)’이었다.

웹사이트나 SNS 사이트에서는 사용자들이 콘텐츠에 붙이는 태그로 콘텐츠 간의 관련성을 파

악할 수 있다. 인터넷 백과사전인 위키피디아(Wikipedia)에서는 내용이 변경될 때마다 태그가

생겨나게 하는 프로그램 덕분에 수정된 내용의 규모, 저자, 시기, 위치 등을 파악하고 추적할

수 있다.

궁극적으로 이러한 시각화는 전반적인 빅데이터 활용 효율과 속도도 크게 향상시키고 있다.

시각화를 잘 활용하는 영역 중 하나가 바로 생명과학이다. 생명과학은 이미 선도적인 빅데이

터 사업인 인간 게놈 프로젝트(Hum an Genome Project)를 통해 빅테이터 역량의 산실이 되

어왔다. 당초에는 1990년 시작 이래 13년 만인 2003년에 프로젝트가 완수되었으나, 오늘날

은 눈부시게 성장한 빅데이터 분석 기술 덕분에 일주일이면 이러한 분석을 해낼 수 있다. 한

Page 85: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

85

사람의 게놈 지도 데이터 양은 100기가바이트(약 10만 2,400개의 사진)에 달하는데, 클라우

드 기술과 빅데이터 덕분에 염기서열을 분석하는 시간이 10년 내에 과거의 100만분의 1로

단축될 것이라고 한다. 이제는 이렇게 빠르고 저렴하게 얻어진 거대한 데이터 세트를 통계학

적으로 분석해 획득한 지식을 활용하는 것이 생명과학 및 의학 분야의 새로운 일상으로 자리

잡았다.

이 생명과학·의학 연구에서 널리 쓰이는 시각화 도구가 <그림 8-6>에서 보이는 ‘사이토스케이

프’이다. 이는 누구에게나 무료로 개방된 오픈 소스 소프트웨어이다. 이 도구는 다방면에 활용

도가 높아서 이를 활용하여 사회적 논란이 된 온라인 저작권 금지법안(SOPA : Stop Online

Piracy Act)에 대해 관련 커뮤티니에서 트위터 사용자들이 벌인 논쟁 과정을 분석하기도 했다.

150만 개의 트윗을 토대로 시각화한 결과, SOPA 논쟁의 핵심 요지와 각 주장의 그룹들을 탐

색할 수 있었다.

<그림 8-6> 무료 시각화 도구 사이토스케이프

<자료 : http://www.mind-mapping.org.>

즉 트위터와 같은 소셜 미디어 플랫폼에서 특정 주제에 대해 사람들이 토론을 벌일 때 누가

이야기를 주도하고, 어떤 관련 이슈들이 등장하는지를 시각화하여 분석하는 데에도 유용하게

쓰인 것이다. 이외에도 시각화에는 다양한 도구가 개발되고 있으며, 심미적 요소가 결합되어

빅데이터의 가치를 계속 높여주고 있다.

Page 86: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

86

3. 실질적인 맞춤화의 실현

마케팅에서 맞춤화의 개념은 오래 전부터 존재했으나, 그 동안 실질적인 맞춤화는 그렇게 일

반적이지 못했다. 그 배경에는 두 가지 문제가 있었다. 하나는 맞춤화를 위한 데이터 수집과

분석의 어려움이고, 다른 하나는 맞춤화 시스템을 갖추기 위한 금전적인 투자 부담이었다. 그

러나 빅데이터 시대에 맞춤화는 기술과 비용 면에서 실현하기가 더욱 용이해졌으며 그만큼 모

든 기업에 필수적이 되고 있다.

인터넷 기업 및 유통업체나 금융회사와 같이 최종 고객을 직접 상대하는 기업들은 오래 전부

터 고객 세분화나 목표 고객 선정을 위해 데이터를 사용해왔다. 또한 이전에는 맞춤화와 거리

가 먼 기업들도 점차 접근할 수 있는 고객 데이터가 늘어나면서 맞춤화를 활용할 기회도 커지

고 있다. 이처럼 개인화 및 맞춤화는 이른바 ‘빅데이터’라고 하는 많은 양의 데이터에서 자동

적으로 의미 있는 사실들을 찾아내는 기술들이 실효를 거두면서 더욱 여러 산업에서 영향을

미치고 있다.

인터넷 기업들에 있어 빅데이터는 마케팅 활용의 중요한 원천이다. 고객들이 자사의 웹페이지

에서 물건을 구경하거나 구매하는 과정에서 남긴 흔적인 클릭스트림(Click Stream)을 소셜 미

디어 데이터나 위치 데이터, 광고 데이터 등과 결합하면 고객관계 관리 시스템에 커다란 금액

을 투자하지 않아도 특정 고객의 습성과 선호도를 파악할 수 있어 좀 더 맞춤화된 서비스가

가능해진다.

맵리듀스(MapReduce) 분석은 바로 어떤 웹 세션이 특정 홍보 캠페인과 관련이 높은지 찾아

낸 후, 그 결과를 기존의 고객 분석 데이터와 결합해 좀 더 정확한 고객 그룹과 구매 패턴을

파악한다.

여행사 오비츠 월드와이드(Orbitz Worldwide)는 고객 행태와 관련해 고객의 온라인 방문과

웹 브라우징으로부터 750테라바이트의 비정형 데이터를 수집했다. 그리고 고객이 좀 더 정확

하게 검색할 수 있도록 위치정보는 물론 가족 여행과 개인 여행을 구분하고, 심지어 고객이

웹사이트 내에서 여행 조건을 탐색하는 데 사용하는 기능이나 메뉴들도 분석했다. 그 결과 고

객과의 상호작용 빈도는 6%, 예약률은 2.6% 증가했다.

이처럼 고객 데이터베이스에 있는 기존 개인정보 이외에도 위치정보나 이메일 등 텍스트 데이

터까지 텍스트 마이닝이나 언어 데이터 분석법(Linguistic Data Analysis)이 폭넓게 활용되며

더욱 세밀하게 분석되고 있다. 과거에는 가능성만 무성하고 꿈만 같았던 맞춤화의 기반이 빅

데이터로 인해 빠르게 형성되고 있는 것이다.

▶ 테스코의 맞춤 마케팅

월마트, 까르푸에 이어 세계 3위(2011년 매출 기준) 유통그룹인 테스코는 1995년 업계 최초

Page 87: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

87

로 출시한 고객 로열티 프로그램 ‘클럽 카드(Club Card)’를 통해 고객의 구매 행동을 분석, 다

양한 맞춤형 마케팅 전략을 실천하고 있다. 2만 개의 식품군을 일일이 분석해 각 고객들에게

20개의 특성 중 하나를 부여한 다음, 매주 1,500만 건 이상의 식품 거래 데이터를 분석하여

쇼핑 성향, 구매 패턴, 라이프스타일을 파악하고 이에 맞춰 상품의 가격과 프로모션 정책을 변

경한다.

고객 분류 사례를 보면, 아주 매운 파키스탄산 카레를 구매하는 고객은 ‘모험심 강한 미식가

(Adventurous Fo odies)’로, 반(半)조리 상태의 유기농 식품을 주로 구매하는 고객은 ‘시간은

없지만 먹는 건 잘 먹는 사람(Tim e Poor Foodies)’으로 분류하기도 한다.

1) 데이터 통합으로 더욱 효율화된 맞춤화

금융기관들은 맞춤화를 위해 오래 전부터 노력해왔다. 고객의 거래 데이터 및 행태 데이터를

수집하는 일이 다른 기관들보다 쉬웠기 때문이다. 하지만 이러한 데이터의 규모는 이전부터

상대적으로 빅데이터였기 때문에, 효과적인 맞춤화를 위해 데이터를 활용하는 데에는 많은 투

자와 함께 정보기술에 대한 노하우가 필요하다. 다음의 ING 사례는 실제로 체계적인 맞춤화

를 실현하는 일이 어떤 것인지 잘 보여준다.

역사적으로 보면 네덜란드의 금융그룹 ING는 2개의 개별 은행으로 운영돼왔는데, 일반 고객

들을 대상으로 한 포스트뱅크(Postbank)와 상류층을 위한 ING가 있었다. 2007년부터 8억

9,000만 유로를 투자해 2009년 1월 포스트뱅크를 ING와 통합하고 브랜드를 변경했다.

은행의 IT 인프라, 상품, 채널의 근본적인 변화가 요구되는 이 통합의 일환으로 ING는 새로운

다이렉트 마케팅 프로그램인 ‘고객 맞춤화’ 마케팅 전략을 추진했다. 이에 따라 그 동안 부서

별로 나뉘어 있던 고객에 대한 직접적 마케팅 활동인 다이렉트 마케팅의 의사결정을 한곳에서

모두 처리하도록 집중화했다. ING는 마케팅, IT, 고객 정보, 각기 다른 채널 담당자 등 50여

명의 직원들을 이곳에 배치하고 500만 유로 이상의 예산을 들여 기존의 마케팅 프로그램을

뛰어넘는 첨단 마케팅 프로그램을 시도했는데, 이 프로그램의 가장 중요한 고객 서비스 맞춤

화는 다음과 같다.

2007년 9월 ING는 비즈니스 법칙과 분석 모델로 자동화되고 중앙집중화 된 다채널 캠페인

관리를 실시간으로 할 수 있는 캠페인 관리 솔루션 ‘유니카(Unica)’를 구매했다. 이 애플리케

이션은 과거와 현재의 고객 접촉 데이터를 이용해 개인별로 맞춤화된 메시지를 실시간으로 만

들어낸다.

그리고 다이렉트 마케팅 캠페인을 위한 프로세스와 하부구조의 근본적인 변화도 시도했다. 포

스트뱅크와 ING의 고객 접촉 데이터베이스를 통합한 후, 새로운 마케팅 캠페인 솔루션을 도

입하기 위해 기존 고객 정보 수집 분석 프로세스와 분석용 정보 시스템 체계를 개편했다. 예

를 들어 실시간으로 중앙 집중화된 다채널 캠페인을 지원하고, 300여 개 모든 점포와 은행의

Page 88: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

88

콜센터에서 새로운 데스크톱 애플리케이션을 지원해야 하기 때문에 통합 데이터웨어하우스를

재구축해야 했다.

그리고 마케팅 의사결정을 효율화하기 위해 조직 구조를 근본적으로 재정비하여 중앙 집중화

되고 자동화된 캠페인 관리를 수행할 수 있도록 했다. 과거에는 각 채널별로 어떤 캠페인을

행할지 결정하고 실행했으나, 현재는 중앙 집중화된 고객 정보팀이 모든 캠페인을 기획하고

실행한다.

이러한 작업을 지원하기 위해 ING는 ‘고객 접촉 다이렉트팀’이라는 전담 조직을 설립하여 마

케팅과 채널 간의 협력을 조율하고 있는데, 이러한 조치는 조직 내 파워가 채널 조직에서 중

앙 집중화된 마케팅 인텔리전스 조직으로 옮겨갔음을 의미한다. 고객에게 우리 상품이 어떤

가치가 있다고 설득할지에 대해 이전에는 사업부별 혹은 지역본부별로 진행하던 것을, 이제는

본부 고객 정보팀이 통합하여 담당하게 된 것이다. 이 팀에서는 고객에게 최선의 상품을 선택

해주기 위해 상품과 고객 담당 관리자들이 함께 각 고객에게 제공할 상품들에 대한 80여 개

의 가치 제안(어떤 부분에 대해 고객이 가치를 느낄지)을 테스트한다.

고객에게도 매력적이지만 은행에도 이익이 되도록 분석 시스템이 추천한 각 상품의 순현재가

치(NPV : Net Present Value)를 계산해 확인한다(<그림 8-7> 참조).

<그림 8-7> ING의 고객 서비스 맞춤화 과정

<자료 : Forrester Research (2009). “Case Study : ING Delivers Personalized Product

Offers Across Channels in Real Time.”>

Page 89: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

89

새로운 모니터링 및 보고 도구도 들여왔다. 유니카 캠페인 관리 솔루션의 일환으로 ING는 매

일 모든 채널에서 일어나는 모든 캠페인을 모니터하기 위해 상세 마케팅 캠페인 대시보드를

도입했다. 캠페인 반응 판매나 순현재가치와 같은 결과들은 전체 영업망을 통해 모니터되고,

하나의 보고서로 요약 보고된다. 또한 ING는 각 캠페인을 실시하기 전에 그 효과를 테스트하

는 종합 시뮬레이션 시스템도 보유하고 있다.

더 나아가 각 채널은 중앙 집중화된 시스템에 연결되었다. 2008년 10월 중앙 집중화 된 캠페

인 관리 애플리케이션이 다이렉트 메일 및 이메일 채널과 연결되었다. 콜센터와 웹사이트는

2009년 2월에야 부분적으로 연결되었고, 4월에는 300여 개 점포들 모두가 새로운 캠페인 프

로그램 시스템과 연결되었다. 이후 도입한 애널리틱스 기반의 고객 맞춤화 방법은 한 고객의

성향을 파악하기 위해 매달 300여 개의 정보들을 통합, 분석하고 있다.

이러한 시스템 도입 결과 ING의 상품 개발 비용이 절감되고, 고객 니즈에 대응하는 시간도

줄어들었다. ING의 새로운 캠페인 관리 프로그램이 지금까지는 이 은행의 점포에만 도입, 운

영되고 있지만 초기 효과는 기대 이상으로 알려져 있다. 점포에서 직원이 고객의 니즈에 맞춰

상품을 권유하는 평균 시간이 기존 다이렉트 마케팅 캠페인에 비해 현저히 빨라진 것이다. 예

를 들어 저축 상품에 대응하는 시간이 60% 절감되었다. ING는 다이렉트 마케팅 효과로 연간

3,000만 유로의 수익 증가를 기대하며, 자동화와 효율적인 프로세스로 연간 다이렉트 마케팅

비용도 35% 절감될 것으로 기대하고 있다. 캠페인 사이클 타임도 26주에서 4주로 줄어들었

다. 덕분에 마케팅 담당자들은 한 캠페인으로부터의 피드백을 다음 캠페인에 적용하는 데 걸

리는 시간을 상당 부분 단축할 수 있었다. 또한 연간 50회 실시하던 마케팅 캠페인을 2009

년 이후 1,000회 이상 하게 되었고, 고객의 반응율도 67% 증가했다.

2) 소셜 미디어 분석과 맞춤화

맞춤화가 발전하면서 사용자가 자신에게 맞는 서비스나 정보를 찾는 것이 아니라, 웹이나 앱

에서 사용자에게 맞는 서비스나 정보를 능동적으로 제공하는 세상이 오고 있다. 야후는 4만

개 이상의 서버에 170페타바이트의 데이터를 저장, 관리하고 있다. 고객의 특성에 따라 맞춤

화된 서비스로 고객이 사이트에 머무는 시간도 2배로 늘어났다.

야후는 먼저 컴퓨터가 자체적으로 학습하는 능력을 의미하는 기계 학습(Machine Learning)

기법으로 고객들이 클릭하는 정보의 연관성을 파악해 콘텐츠 분류 방법을 도출한다. 이후 고

객이 다시 방문하면 이러한 분류 방법에 따라 그 고객의 관심 분야에 맞춰 콘텐츠를 제공한다.

이처럼 고객이 관심을 가지고 있는 링크와 검색 결과를 제공함은 물론, 흥미를 가질 기사나

내용을 제일 중앙에 보여주어 각 콘텐츠와 정보에 대한 클릭 빈도를 크게 증가시켰다(<그림

8-8> 참조).

Page 90: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

90

<그림 8-8> 야후의 맞춤화된 서비스

<자료 : Lucid Imagination (2011). “Architecting the Future of Big Data and Search.”>

이러한 분야를 소셜 미디어 애널리틱스(Social Media Analytics)나 소셜 메트릭스(Social

Metrics)라고 하는데, 이는 일종의 소셜 미디어 데이터에 대한 텍스트 분석이다.

이미 국내에서는 맞춤화 이외에도 정치 성향을 분석, 예측하는데 소셜 미디어 애널리틱스를

활용하고 있다. 여론조사기관들은 주로 트위터를 이용해 SNS 텍스트를 분석함으로써 민심의

흐름을 파악한다. 페이스북은 개인적인 내용의 글들이 많은 데 비해 트위터 글들은 미디어 성

향이 강하기 때문이다. 또 트위터에 국내 계정으로 올라오는 글들은 모두 수집이 허용되므로

데이터 수집도 용이하다. 여론조사기관에서 행하는 SNS 텍스트 분석은 기본적으로 특정 단어

의 빈도수, 긍정·부정의 방향성, 어휘 간의 연관성 파악으로 이루어진다.

<그림 8-9>는 다음소프트의 소셜 메트릭스가 트위터 61만 건과 블로그 7만 건에서 한미

FTA에 대한 여론 흐름을 분석한 것이다.

Page 91: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

91

<그림 8-9> 다음소프트 소셜 메트릭스로 한미 FTA 여론 흐름 분석

<자료 : http://www.daumsoft.com.>

<그림 8-10>처럼 구글 검색이 처음 나왔을 때 사람들은 웹에서 자신이 원하는 내용을 검색엔

진에 맞춰 찾아냈다. 검색엔진은 검색 결과가 사용자에게 맞는지는 신경 쓰지 않는다. 즉 동일

검색어에 대해 모든 사람들에게 동일한 결과를 보여준다. 사람이 주도한 데이터 수집 활동에

검색엔진이 활용된 것이다.

<그림 8-10> 맞춤화와 SNS

<자료 : SAS (2011). “Solutions for Big Data - What’s Possible?”>

Page 92: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

92

이후 페이스북의 출현으로 다른 사람들과의 개인적 관계에 맞춰진 정보가 생산, 공유되었고,

트위터에서는 상호 공감하는 이해에 따라 정보를 공유하고 있다. 다시 말해, 모든 사람에게 동

일한 서비스나 정보를 제공하는 것이 아니라 각 사이트에서 사용자 개인에게 맞춰진 정보를

제공한다. 예를 들어 링크드인(Linkedin)에서는 개인의 직업적 관심과 관계에 따라 맞춤화된

정보를 제공한다. 앞으로는 이러한 정보 및 서비스 제공의 맞춤화가 기업 활동에도 적용될 수

있다. ‘야머(Yammer)’와 같은 기업용 SNS가 그 시작이 되겠다.

3) 위치정보에 따라 관계를 맞춤화하는 SNS

SNS와 관련된 맞춤화로는 위치정보를 활용한 사례도 있다. TV 프로그램 <무한도전>의 ‘미드

나잇 서바이벌’에 나왔던 지도 기반 친구 찾기 프로그램 ‘구글 래티튜드(Google Latitude)’는

다른 사용자의 위치를 추적하고 시간을 반영해 친구가 주위에 있을 경우 사용자에게 그 사실

을 알려줄 수 있다(<그림 8-11> 참조).

<그림 8-11> MBC<무한도전)에 등장한 구글 래티튜드

예를 들어 두 친구가 일상적인 장소(자주 가는 카페 등)에 있으나 일상적인 시간대가 아닌 경

우(예컨대 새벽 6시), 반대로 일상적인 시각(오후 2시)이나 비일상적인 장소(예컨대 병원 응급

실)에 같이 있을 경우 이를 서로에게 알린다. 그리고 자신의 위치를 바로 블로그나 SNS에 포

스트 할 수도 있다.

이러한 다이내믹 소셜 네트워크는 시간에 따라 계속 변하는 관계를 맞춤화한 것이다.

역동적인 그래프를 작성하기 위해서는 동시에 수많은 객체들을 연결하여 관계를 밝히는

데이터 분석이 필요하므로 그래프 스트리 밍 마이닝(Graph Streaming Mining) 기법을

사용해 온라인 분석을 행한다. 보통 이러한 기법은 사용자 지인들 간의 수많은 관계를 파악해

이들의 네트워크적인 구조를 실시간으로 종합하여 분석할 수 있어야 한다. 동일한 위치 기반

앱을 가진 사람들이나, PC 등의 다른 디지털 기기를 가진 사람들과도 (IP 주소를 통해) 가상의

친구 네트워크를 만들 수 있다.

Page 93: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

93

구글 래티튜드는 위치 기반 SNS로 많이 알려진 포스퀘어(Foursquare)와 마찬가지로 특정

장소에 자주 가면(체크인을 자주 하면) 점수(혹은 직위)가 올라간다(결국 할인율 증가). 한편

두 서비스 간에 차이점도 있다.

구글 래티튜드에서는 장소에 대한 정보(체크인 여부)를 자동으로 추가해 내가 원하면

친구들이 어디 있는지 거의 실시간으로 파악할 수 있다. 반면 포스퀘어에서는 사용자가 직접

정보를 입력해야 한다. 즉 친구들이 특정 장소에 있음을 입력해야 내가 그들의 위치를 알 수

있다.

▶ 서로 어울리는 정도에 따라 관계를 추천해주는 태그드닷컴

태그드닷컴(Tagged.com)은 빅데이터를 활용해 전혀 다른 소셜 네트워크 서비스(SNS)를 제공

하는 회사이다. 기존의 SNS가 이미 알고 있는 사람들을 연결해주는 반면, 이 회사의 SNS는

서로 모르는 사람들 간에 온라인 만남을 주선한다. 즉 데이터 서비스, 게임, 사진 공유, 채팅

등의 상품을 통해 사람들을 소개시켜준다.

이 회사는 빅데이터를 이용해 사람들 간의 관계를 예측하는데, 2008년 이래 꾸준히 수익을

내고 있다. 예를 들어 ‘미트 미(Meet Me)’라는 상품은 네트워크 데이팅 서비스로, 두 사람의

사진을 포함해 간략한 소개를 한 다음 만날지 여부를 묻고 서로 동의할 경우 만남을 성사시킨

다. 이 시스템은 회사의 1억 명 사용자 프로파일 중에서 누구와 누가 연결될 가능성이 높은지

분석해 두 사람을 선택한다. 분석 결과 사람들이 누구의 친구이며 누구와 대화하는가를 파악

해 누구와 연결하는 것이 좋을지 맞춤화하면 만남이 성공할 가능성도 높다.

태그드닷컴은 매달 50억 개의 페이지뷰에서 500억 개의 로그들을 수집하는데, 이는 10테라

바이트에 달하는 데이터이다. 이를 통해 누가 누구를 만나면 성공 확률이 높을지 예측하고, 수

시로 고객 행태를 분석한다.

4) 행태정보와 위치정보를 결합한 SNS 활용

마케팅 담당자들은 언제나 고객에 대한 깊은 지식과 함께 이들의 위치를 실시간으로 파악하길

꿈꿔왔다. 그렇게 되면 쇼핑몰이나 경쟁사 매장에 있는 고객들을 바로 파악해 맞춤화된 광고

나 쿠폰을 보낼 수 있다. 더 나아가 빅데이터 시대에는 사람의 이동 경로로 특정 장소에 방문

하거나 머무는 시간을 분석해 그 사람의 라이프스타일을 예측하고, 이에 맞춘 마케팅을 실현

한다.

센스네트웍스(Sense Networks)는 스마트폰 사용자의 움직임에 대한 데이터를 분석한다. 이

기업은 2006년 MIT 교수 샌디 펜틀랜드(Sandy Pentland)가 주도해 설립한 ‘선도적 모바일

위치 분석 기법 회사(a leading mobile location analytics company)’로, 모토는 ‘실세계를 인

덱싱해 예측하는 분석 기업을 실현하다.’이다.

Page 94: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

94

센스네트웍스는 여러 가지 스마트폰 앱을 제공하는데, 그 중 캡센스(CabSense)는 어디서 택

시를 잡는 게 가장 쉬운지 알려준다. 이 회사는 같은 성향(이동 경로 등)을 보이는 사람들을

유사 그룹으로 분류한 다음(사용자가 정보 수집 및 분류에 대해 사전 동의할 경우), 어떤 그룹

이 자주 이용하는 매장에서 각종 프로모션들을 실험해 성공을 거둘 경우 그 그룹의 이동 경로

에 있는 다른 업체의 매장에도 성공한 유사 프로모션을 도입할 것을 권유한다.

사용자들의 위치와 행동은 GPS, 고객 휴대전화 신호를 수신하는 기지국 수신탑, 고객의 존재

가 파악되는 와이파이(WI-FI) 네트워크 등으로 추적된다. 통신회사와 광고회사는 사람들의 이

동이나 행동에 대한 원시 데이터를 센스네트웍스에 제공한다.

이 회사의 목적은 이미 상용화된 스마트폰의 위치 기반 증강현실(Augmented Reality) 앱들

처럼 엄청난 양의 데이터를 마케팅에 활용할 수 있는 고객 정보로 변환하는 것이다.

예컨대 사용자가 쇼핑몰을 걸어갈 때, 스마트폰이 주위 상점의 많은 와이파이 네트워크에 사

용자의 위치를 알린다. 스카이후크 와이어리스(Skyhook Wireless)는 모바일 서비스를 제공하

는 기업들을 위해 전 세계 1억 개의 와이파이 엑세스 포인트(AP : Access Point)들을 연결해

수백만 명의 움직이는 고객들을 찾아준다.

센스네트웍스는 점들(사용자들)이 지도상에서 이동하는 모습만으로도 많은 것을 알 수 있다.

몇 주 동안 한 점을 관찰하면 그 점을 유사한 행태를 보이는 사람들의 그룹으로 분류할 수 있

다. 예를 들어 인기 있는 식당이나 상점 주변으로 그룹들이 늘어나는 모습을 볼 수 있다. 비즈

니스 목적의 여행객들은 각 도시의 특정 지점에 모이는 경향이 있으며, 최근에 실직한 사람들

은 종종 기존의 틀에 짜인 움직임에서 무작위적으로 방황하는 움직임으로 변한다.

<그림 8-12>에서 각 색상의 점들은 특정 장소 및 시간에 밤 문화를 즐기는 이들이 있음을 나

타낸다. 이들은 도시에서 비슷한 경로로 이동하며, 비슷한 시간에 비슷한 장소를 방문하는 같

은 유형의 사람들이다. 실제로 센스네트웍스 홈페이지의 동영상을 통해 유사 그룹의 이동 경

로와 방문 장소 및 시간을 파악할 수 있다. 일단 어떤 그룹이 어디에 있는지를 알면 특정 장

소와 시간에서의 그룹 분포를 샘플링하여 사용자가 그 장소, 그 시간에 있다는 것이 무엇을

의미하는지 알 수 있다.

Page 95: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

95

<그림 8-12> 고객의 이동 경로에 따른 자동화된 고객군 분류

<자료 : 센스 네트웍스 홈페이지>

록 클럽과 힙합 클럽은 각기 완전히 다른 그룹 분포를 나타낸다. 밤을 즐기는 사람들은 센스

네트웍스의 시티센스(Citysense) 시스템을 통해 이들 장소에서 시간을 보내는 그룹들의 분포

를 알 수 있다. 가입자들은 스마트폰에 시티센스 소프트웨어를 내려 받고 자신의 위치가 추적

되며 한 그룹으로 분류되는 것에 동의한다. 그러면 자신과 비슷한 사람들을 찾을 수 있다.

록 클럽에 가는 사용자는 그 클럽의 핫스팟에 잡히며, 힙합 클럽에 가는 고객은 그곳의 핫스

팟에 잡힌다. 물론 둘 다 가면 양쪽 핫스팟에 모두 잡힌다. 이 고객이 다른 도시에 가면 시티

센스는 그가 속한 그룹의 분포와 전체 사용자의 활동 정보를 결합해 밤에 찾을 만한 장소를

추천한다. 다시 말해, 나와 같은 사람들이 이 도시 어디에 있는지 답해준다. 심지어 처음 가는

도시에서도 말이다.

또 다른 응용 사례를 들어보자. WPP는 영국 런던에 위치한 글로벌 미디어 커뮤니케이션 서비

스 기업이다. 2008년 여름, 이 기업의 야외 광고부서 키네틱스 월드와이드(Kinetics

Worldwide)는 샌프란시스코의 센스네트웍스 데이터를 분석해 한 그룹이 맥주 홍보가 잘 진

Page 96: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

96

행되었던 마리나 지역 바에 자주 들른다는 것을 알아냈다. 그리고 유사한 종류의 점들을 끌어

모으기 위해 지역의 다른 바에서도 동일한 홍보 활동을 실시하도록 맥주회사에 권유했다. 결

과는 대성공이었다.

이처럼 빅데이터 시대가 도래하면서 과거와 달리 유동적인 환경에서의 다이내믹한 실시간 맞

춤화가 현실화되고 있다. 앞서 제시한 사례들처럼 특정 유형과 숫자의 사람이 특정 장소를 방

문하는 것은 수백, 수천 가지 요소들에 의해 민감하게 결정된다(심지어 교통체증 정도나 날씨

의 순간적인 변화도 영향을 준다). 인터넷상에서 웹 페이지를 개인화하는 것보다 훨씬 다이내

믹한 맞춤화 문제이다.

따라서 사람이 찾는 장소/위치의 특성을 다각도로 파헤친 수많은 종류의 데이터를 방대하게

수집하고 실시간으로 분석해야 하다. 실제로 센스네트웍스에서 특정 그룹의 사람이 찾는 한

도시의 특정 장소를 나타내는 변수만도 48만 7,500개에 달한다. 염기서열 분석으로 인간

DNA의 특징을 파악하듯, 특정 그룹의 사람과 특정 장소 간의 관계는 인간의 선천적 특징과

질병을 유발하는 DNA를 발견하는 작업만큼이나 난해한 작업이다.

그러나 이는 거스를 수 없는 흐름이며, 앞으로 빅데이터로 인해 다이내믹한 맞춤화가 보편화

되면 기업들이 하나의 고정적인 비즈니스 모델만으로 고객의 니즈를 완전히 충족시키기는 어

려운 세상이 펼쳐질 것이다. 그리고 비즈니스 모델마저 다이내믹하게 바꿀 수 있는 역량을 가

진 기업만이 그 세상의 승자가 될 것이다,

Page 97: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

97

1. 영화 <머니볼>의 교훈

영화 <머니볼(Moneyball)>은 미국 프로 야구팀, 오클랜드 애슬레틱스의 실화를 바탕으로 했

다. 뉴욕 양키스와 같이 대도시를 연고로 하지 않기 때문에 TV 중계료 등 수입이 적어 많은

돈을 투자할 여력이 없던 중소도시 오클랜드의 야구팀이 이름값 위주로 선수를 선발하지 않고

냉철한 과학적 분석(머니볼)으로 팀을 구성해 우승을 이끈다는 내용이다.

야구팀 단장 역의 주인공 브래드 피트는 메이저리그 만년 최하위 팀으로, 그나마 실력 있는

선수들은 다른 팀에 빼앗기기 일쑤인 오클랜드 애슬레틱스를 살리기 위해 이전에는 시도해본

적이 없는 파격적 이론인 ‘머니볼’에 도전했다. 경제학을 전공한 피터를 스태프로 영입하고 오

로지 경기 데이터에만 의존해 선수를 선발(의사결정)한 것이다.

그러다 보니 부상이나 고령, 사생활 논란 등의 이유로 다른 구단에서 외면 받은 선수들이 많

았다. 하지만 이들은 화려하기보다는 승리할 줄 아는 선수들이었다. 2002년 오클랜드는 아메

리칸리그 역사상 최다 연승 기록인 20연승을 이뤄냈고, 아메리칸리그 서부지구 1위로 시즌을

마쳤다. 비록 포스트시즌에서는 미네소타 트윈즈에게 패해 리그 우승을 노려보진 못했지만, 이

것만으로도 모두의 예상을 뒤집은 놀라운 성과임이 분명했다.

영화 <머니볼>은 빅데이터의 참 의미에 대한 힌트를 보여준다. 이 영화에서 눈여겨볼 부분은

데이터의 많고 적음이 아니라, 데이터로부터 어떤 지혜를 얻는가 이다. 사실 여기서 분석된 데

이터의 양은 상대적으로 빅데이터라기보다는 스몰 데이터라고 할 수 있다. 그럼에도 불구하고

데이터가 말해주는 바를 적극 수용함으로써 더욱 뛰어난 선수들을 보유한 상대팀을 이기는 데

결정적 도움을 준 지혜를 만들어냈다. 그리고 그 지혜는 연봉 총액 4,000만 달러의 오클랜드

가 1억 2,500만 달러의 뉴욕 양키스에 필적한 성과를 올리는 원동력이 되었다.

이처럼 빅데이터의 진정한 의미는 ‘커다란 지혜’를 얻는 데 있다. 사실 하둡, NoSQL(비관계형

데이터베이스 관리 시스템), 맵리듀스 등 빅데이터 고유의 기술들이 있지만, 빅데이터의 본질

은 데이터 속에서 찾은 정보와 지식으로 고객에게 더 나은 서비스를 제공하고 경쟁자보다 우

위에 서는 것이다.

하지만 빅데이터의 길이 기존의 길과 다른 부분은 대부분 이전에 가보지 않은 미지의 길이며,

그 길을 가려면 냉철한 머리와 함께 용기 있는 시도가 필요하다는 점이다. 새로운 길은 데이

터를 중심으로 한 기업 전략이자, 새로운 장비로 무장하고 모험심을 갖춘 자들에게 기회를 제

공하는 길이기도 하다.

결국 빅데이터는 데이터의 양 때문이 아니라 데이터를 기업 경영에 활용할 기회가 많아지고

9차시 의사결정의 오류

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

9차시 학습 교안

Page 98: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

98

있으므로 기업에 중요하다. 시장조사기관 포레스터 리서치의 분석가 브라이언 홉킨스(Brian

Hopkins)는 과거 20년에서 25년 동안 기업들이 활용 가능한 정보의 5%만으로 의사결정을

해왔다고 말한다. ‘많다(빅)’, ‘적다(스몰)’라는 데이터의 규모만을 가지고 빅데이터다, 아니다

논쟁하는 것은 의미가 없다. 데이터를 활용해 기업에 얼마나 유용한 결과를 얻느냐에 따라 빅

데이터가 의미가 있는지, 없는지 판명된다.

2. 직관을 넘어서는 빅데이터식 의사결정

그렇다면 조직에서 빅데이터를 활용하는 최종적인 목적은 어디에 있을까? 많은 경우 의사결정

능력을 향상시켜 좀 더 나은 결과를 얻기 위함일 것이다. 우리 일상에서도 데이터와 의사결정

은 더욱 밀접해지고 있다. 생각해보면 우리가 웹에서 정보를 검색하는 이유도 어떤 제품이 좋

은지, 혹은 어떤 식당이 가족, 친구, 연인과 식사하기 좋은지 판단(의사결정)하기 위한 것이다.

기업 차원에서 데이터를 활용해 의사결정의 질을 높이는 것은 개인들에 비해 한층 까다로운

과제이다. 개개인이 웹 검색을 일상적인 판단에 이용하는 경향이 커지고 있는 반면, 기업들은

웹 검색으로 그리 큰 효용을 보지 못하며, 이보다는 사내외 업무 관련 정보를 활용하는 문제

로 씨름하고 있다.

그 동안은 이 문제를 제대로 해결하려면 정보기술에 많은 돈을 투자해야 했다. 그리고 경영자

들은 자신이 생각하기에 쉽고 명쾌한 방법으로 의사결정을 하는데, 그 방법은 데이터 분석과

는 거리가 멀다. 경영자들은 일반적으로 일상적인 의사결정뿐만 아니라 회사의 전략적 의사결

정에서도 직관이나 경험에 의존한다.

물론 의사결정에서 직감이 데이터 분석보다 더 효과적인 경우도 많다. 동일한 의사결정 상황

이 반복될 경우에는 개인의 경험이 의사결정의 결과를 좌우한다. 불확실성이 아주 높은 상황

에서 빠른 판단이 필요할 경우에는 직관으로 좀 더 좋은 결과를 얻을 수 있다.

특히 남보다 뛰어난 안목과 세상을 보는 통찰력이 있다면 금상첨화이다. 독불장군이라는 비난

을 받기도 했지만 매킨토시와 아이패드, 아이폰, 아이튠즈 등 혁신적인 제품을 탄생시킨 스티

브 잡스의 의사결정 스타일처럼 말이다. 그러나 모든 경영자나 관리자들에게 그런 통찰이 넘

치는 직관적 판단력을 기대하는 것은 무리이다. 설령 그런 능력을 갖춘 경영자가 있다고 해도

그가 떠나면 회사는 어떻게 되겠는가? 위대한 CEO가 물러난 이후 곤경에 처한 기업은 숱하

게 있어왔다. 이것은 개인의 직관에 의존하는 의사결정 관행의 치명적인 위험을 제때 보완하

지 못한 결과였다.

1) 의사결정의 독약, 편견

많은 연구 결과 경영자의 경험이나 직관에 의한 의사결정에서 적지 않은 결함이 발견되었고,

그것이 성공하던 기업이 몰락하는 주된 이유로 밝혀졌다. 높은 지적 수준과 많은 성공 경험을

Page 99: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

99

자랑하던 뛰어난 경영자들이 하루아침에 잘못된 판단으로 수렁에 빠지는 사례들에는 공통점이

있었다.

예컨대 회계 부정으로 몰락한 엔론(Enron)이나 실적 부진으로 고전하는 일본 전자업체를 이

끈 이들은 결코 이류 경영자들이 아니었다. 당시 상황이나 잘못된 조직 내 시스템 등 많은 요

인들이 있었지만, 결국에는 자만심과 같은 개인적 편견이 제일 큰 문제로 드러났다.

트리니트론 TV와 워크맨의 신화에 빠져 있던 소니 경영진은 2000년대 중반에야 자신들이 모

바일 인터넷과 초고속통신의 발전이 가져오는 변화를 그릇되게 인지했음을 고백했다. 소니는

미디어-컨텐츠 융합, 소프트웨어 중심 환경 등의 큰 흐름은 올바르게 예측했으나 그들의 사업

방식으로 충분히 대응할 수 있을 거라 믿어 의심치 않았다. 순식간에 휴대폰 세계 1위에서 밀

려난 노키아도 마찬가지이다. 스마트폰의 개념, 소프트 플랫폼의 가치는 익히 알고 있었지만

후발 경쟁자들의 파괴력은 과소평가했다.

이처럼 경영자들이 의사결정에서 가장 쉽게 범하는 대표적 편견을 정리하면 <표 1>과 같다.

<표 1> 의사결정 과정에서 발생하기 쉬운 편견

의사결정 과제 편견

신규 프로젝

트 또는 사

타당성 판단

프로젝트 또는 사업이 처음 기

대처럼 되고 있는가?

처음의 목표를 달성했는가?

초가 했는가?

기대수익은 얼마인가?

확증 편향

(confirmation

bias)

자신의 주장에 부합되

는 정보만 찾음. 자신

이 믿고 싶은 것만 믿

문제를 겪고

있는 기존

사업의 존속

여부

프로젝트를 접어야 하나, 매각

해야 하나, 혹은 미래 수익을 봐

서 계속 추진해야 하나(즉 다시

회생 가능한가)?

매몰 비용 오류

(sunk cost

fallacy)

몰입 상승 효과

(escalation of

commitment)

이미 투자하여 회수 불

가능한 비용에 집착해

결정. 계속 투자하는

것이 실패로 보일 경우

에도 추가로 투자함

퇴출을 하는

데 얼마나

남겨야 하

나?

매각하려는 사업의 실제 책임자

는 누구인가?

매각 가격의 최저 수용액은?

기점화와 조정

(anchoring and

adjustment)

처음의 생각에서 크게

벗어나지 않으려는 경

<자료 : Hammond, J., Keeney, R., and Raiffa, H. (2000). “The Hidden Traps in Decision-Making.”

Harvard Business Review.>

가장 대표적인 편견은 ‘확증 편향’으로, 자신이 믿고 싶은 것만 믿는 것이다. 즉 새롭고 객관적

인 정보가 있어도 자신의 주관과 주장에 부합하는 정보만을 취사선택해 ‘내가 옳다.’라는 확신

만을 높이려는 편견이다. 경찰이나 검찰이 수사를 할 때 ‘이 사람이 범인’이라고 단정한 후, 이

Page 100: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

100

에 맞춰 증거를 수집하는 행태가 바로 확증 편향의 대표적 사례이다.

두 번째 편견은 ‘매몰 비용 오류’ 또는 ‘몰입 상승 효과’로, 이미 투자해 회수가 불가능한 비용

에 집착하는 것이다. 보통 주식시장에서 개인 투자자들이 이러한 행태를 많이 보이는데, 자신

이 매입한 주식의 가격이 떨어져 손해를 보거나 처음 살 때 가격에 집착해 손절매 시기를 놓

치는 경우가 대표적이다.

세 번째는 ‘기점화와 조정’으로, 예를 들어 처음 만난 사람에 대해 첫인상을 가지면 그 사람의

본래 모습은 완전히 다를 수도 있지만 이후에도 그 첫인상이 크게 바뀌지 않는 편견을 말한다.

편견 없는 사람은 없을 것이다. 사람의 편견이 일반적이고 당연한 것이라고 해도, 그러한 편견

으로 결정적인 판단에 커다란 과오가 생기는 일이 정치, 경제는 물론 기업의 역사에서도 계속

반복되고 있다. 따라서 자신에게 편견이 있을 수 있음을 자각하고 의사결정에서 이러한 편견

의 개입을 방지하는 것이 중요하다. 그 방법은 넓은 시야와 데이터에 있다.

2) 편견을 극복하게 하는 빅데이터

기업 내외적으로 급격히 증가하고 있는 데이터는 의사결정자의 편견을 극복해 좀 더 합리적으

로 의사결정을 할 수 있게 해준다. 더욱이 빅데이터 시대에는 기업들이 필요에 따라 데이터

발생 포인트를 증가시키고 이들을 수집, 분석하는 것이 좀 더 용이해져 더욱 풍부한 데이터를

의사결정에 반영할 수 있다.

석유 및 가스 산업에서는 다음 단계의 탐색 및 개발에서 잠재적 유정의 위치나 구조 등을 더

욱 정확히 파악하기 위해 기존의 데이터 중심 방법에서 진일보하여 지구 표면에 대규모 센서

네트워크를 구축하고 여기서 발생하는 데이터를 분석하고 있다. 그 성과로 개발 비용이 절감

되고, 석유 배송 과정도 개선되고 있다.

<그림 9-1>과 같이 성과가 뛰어난 기업들의 의사결정 유형을 분석해보면, 거의 모든 업무 분

야에서 데이터 분석이 직관보다 우수했다. 특히 수치 데이터를 쉽게 수집하고 대량으로 분석

할 수 있는 재무 관리, 운영 및 생산, 전략 및 비즈니스 개발 등의 분야에서 데이터 분석 효과

가 큰 것으로 나타났다.

Page 101: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

101

<그림 9-1> 직관을 능가하는 분석

<주 : 최우수 조직들이 조직 내의 특정한 활동에 분석 기법을 적용하는 경향과 저조한 성과를 내는

조직의 분석 기법 적용 경향 비교. 1은 분석 기법이나 직관을 활용한 가능성이 동일하다는 것을 의미.

자료 : 스티브 라벨르, 에릭 레서, 레베카 쇼클리, 마이클 S. 홉킨스, 니나 크루슈위츠 (2011). “데이터

분석 역량은 초우량 기업의 필수조건”. 《동아비즈니스리뷰》; 원본은 Steve LaValle, Eric Lesser,

Rebecca Shockley, Michael S. Hopkins and Nina Kruschwitz. “Big Data, Analytics and the Path

from Insights to Value.” MIT Sloan Management Review. pp. 21~31.>

반면 성과가 저조한 조직일수록 좀 더 복잡한 의사결정 분야인 위험 관리, 고객 경험 관리, 브

랜드·시장 관리 등에서 분석보다는 직관에 의존하는 경향이 높았다. 전체적으로 봐도, 기업들

이 직관을 활용하기는 하지만 그 비율은 분석에 비해 상당히 낮음을 확인할 수 있다.

▶ 우주왕복선 챌린저호의 비극

1986년 우주왕복선 챌린저호 발사 전, 추운 날씨가 고체 연료 추진 장치의 접합 부품인 오링

(O-rings, O형 링)에 문제를 일으킬 수 있다는 제보가 미항공우주국(NASA)에 입수되었다.

NASA는 영하의 추운 날씨와 오링 간의 상관관계를 정확히 분석할 수 있는 자료도 충분히 갖

고 있었다. 하지만 NASA 최고위 경영층은 챌린저호를 제시간에 발사시켜야 한다는 중압감과

과거 스물세 번이나 성공적인 발사를 했다는 과잉확신 때문에 단지 일부 자료, 즉 오링에 문

제가 있었던 일곱 번의 발사 사례만을 분석해 두 변수 간에는 별 상관관계가 없다는 오판을

내렸다. 온도는 오링의 결함과 무관하다는 편견을 확증하는 데이터만을 조사한 것이다. 그 결

과 우주인 7명의 목숨을 빼앗는 비극을 초래했다. 첫 번째 그림은 챌린저호 발사 전에 경영층

Page 102: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

102

이 검토한 자료로, 이것만 보면 온도와 결함 발생 간에는 상관관계가 없어 보인다.

온도와 오링 간 상관관계 분석(일곱 번의 발사 사례)

그러나 사고가 난 후 뒤늦게 모든 발사 자료들을 분석한 결과, 챌린저호가 발사된 날 오링에

문제가 일어날 확률이 99%를 넘었다. 온도와 오링 간의 정확한 상관관계를 분석하려면 ‘추운

날 오링에 문제가 생긴 사례’, ‘추운 날 오링에 문제가 생기지 않은 사례’, ‘춥지 않은 날 오링

에 문제가 생긴 사례’, ‘춥지 않은 날 오링에 문제가 생기지 않은 사례’ 등 네 가지 경우를 모

두 조사해야만 했다. 그런데도 NASA에서는 오링에 문제가 있었던 일부 편견을 확증하는 사

례만을 조사하여 두 변수 간의 상관관계를 성급히 결론짓고 챌린저호를 발사시킨 것이다.

두 번째 그림은 사고 이후 문제가 없었던(무사고) 발사 데이터를 포함한 모든 발사 데이터이

다. 나머지 결함이 없었던 데이터를 함께 보면 온도와 결함 간에 상관관계가 분명하다. 즉 무

사고 발사는 화씨 65도(섭씨 18.3도) 이상에서만 가능하다는 것이 명백해진다(반대로 저온에

서는 결함 가능성이 높음을 알 수 있다).

온도와 오링 간 상관관계 분석(모든 발사 사례)

<자료 : Russo, J. Edward & Schoemaker, Paul J. H. (2010). 《이기는 결정(Winning Decisions)》. (김

명언·최인철 옮김) 학지사.>

Page 103: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

103

3. 빅데이터가 필요한 의사결정의 분야

빅데이터가 모든 문제를 해결하는 것은 아니다. 산업별로는 IT산업, 유통산업, 금융산업 등과

같이 최종 고객으로부터 충분히 디지털화된 데이터가 수집되고, 업무별로는 마케팅처럼 자주

수행하며 신속해야 하는 의사결정에 적당하다.

기업활동 못지않게 숨가쁘게 전개되는 스포츠 경기에서는 아예 감독 대신 컴퓨터가 선수들에

게 지시를 내리기도 한다. 미국 야구에서는 오래 전부터 객관적 데이터를 바탕으로 경기를 분

석하는 ‘세이버메트릭스’가 하나의 학문 분야로 자리 잡았는데, 앞서 소개한 ‘머니볼’ 사례 등을

통해 그 효과가 검증되며 쓰임새가 넓어지고 있다.

미국 MIT 경영대학원에서는 2006년부터 매년 야구를 포함해 각종 스포츠 경기 분석 기법에

대한 컨퍼런스를 개최하여 스포츠 분석 기법 시장의 흐름을 소개하고 있다. 현재 상업화된 스

포츠 경기 분석 소프트웨어는 42개에 달하는 것으로 알려져 있다.

이로 인해 스포츠계에서 빅데이터를 의사결정에 어떻게 활용하고 있는지 생생한 사례를 하나

살펴보자. 미국 명문 프로 야구팀 중 하나인 샌프란시스코 자이언트의 선수 휴게실에서는 선

수들이 경기 전이나 도중에 <그림 9-2>와 같은 비디오 코칭 시스템을 이용하는 모습을 볼 수

있다.

<그림 9-2> 샌프란시스코 자이언트의 비디오 코칭 시스템

<자료 : GigaOM Pro (2011. 3). “Putting Big Data to Work : Opportunities for Enterprises.”>

이 시스템은 상대팀의 특정 피처에 대한 샌프란시스코 타자의 타격 과정을 단계별로 분석해준

다. 특히 좋은 결과를 얻지 못한 전 타석을 분석하는 데 활용된다. 상대팀 투수와의 과거 상대

기록은 물론 현재 경기에서 그 투수가 어떤 식으로 볼 배합(위치, 속도, 구종)을 했고, 이 중

타자의 배트가 나간 공은 어떤 공(위치 및 구종)이며, 최종적으로 타격한 공이 나간 위치는 어

디인지 등을 분석해준다. 이미 2010년에 여기에 쓰이는 데이터의 양이 10테라바이트를 넘어

섰다고 한다.

Page 104: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

104

이런 시스템이 없었던 예전에는 비디오로 투수의 투구를 찍어 슬로모션으로 재생하는 방식으

로 분석을 했다. 하지만 이제는 새로운 카메라 기술과 소프트웨어 덕분에 경기 도중 야구공의

정확한 속도와 위치를 디지털 데이터로 기록할 수 있어 수백 개의 혁신적인 통계 자료를 생성

한다.

유격수가 2루와 3루 사이를 가르는 직선타에 얼마나 빨리 반응하며, 어떤 선수가 1루에서 3

루까지 가장 빨리 달리는지, 그리고 어떤 우익수의 홈 송구가 가장 정확하고 빠른지 까지도

쉽게 알 수 있다.

이러한 분석 소프트웨어를 활용하는 또 다른 분야는 선수의 부상을 예측하는 것이다. 마치 보

험산업의 보험계리 업무처럼 수학 공식을 사용해 특정 선수의 부상 가능성을 경고하고, 심지

어 시합 참가나 재활 훈련 여부를 결정하기도 한다.

LA 다저스 같은 팀은 지난 17년 동안의 데이터와 의료 기록을 바탕으로 특정 선수의 부상 확

률과 원인을 예측한다.

샌프란시스코 자이언트는 입장권 판매액, 날씨 예보, 경기의 투수 매치업 및 기타 변수들 간의

관계를 파악해 각 경기의 입장권 가격을 결정하기도 한다. 야구장에서 입장권 판매 수익은 일

단 경기가 시작되면 더 이상 늘어나지 않으므로 가격을 조절해 경기 바로 전에 몇 장의 입장

권이라도 더 팔면 그만큼 수익이 증가하기 때문이다.

이제는 개인 야구팬들도 트루미디어(TruMedia)가 개발해 ESPN이 제공하는 야구 분석 유료

앱(약 10달러) iScore를 이용하면 프로 야구팀이 사용하는 분석 소프트웨어를 체험할 수 있다.

야구 경기와 팀에 대한 각종 통계 자료를 제공하는 것 외에도 <그림 9-3>과 같이 특정 팀 내

특정 선수의 타격을 분석하여 각 상대 투수에 대한 우리 타자의 타격 방향과 거리, 위치는 물

론 스트라이크 존에서의 타격 성향까지 알 수 있다.

<그림 9-3> ESPN의 야구 경기를 분석하는 iScore 앱

<자료 : www.trumedianetworks.com>

Page 105: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

105

1) 자동화가 될 수 있는 의사결정

의사결정 기준이 명확하고 정해진 규칙에 따라 진행하면 문제가 해결되는 소위 구조화된 문제

들은, 데이터 품질이 높을 때 빅데이터를 의사결정 자동화에 활용할 수 있다. 현재 가장 일반

적인 응용 분야 중 하나는 은행 대출, 보험금 청구 처리 결정 등의 분야이다(뒤의 <보험금 처

리 프로세스의 자동화> 참조).

이외에도 의사결정 속도가 매우 중요하지만 자주 하지 않는 결정도 자동화가 필요하다. 갑작

스럽게 수요가 폭증했을 때 전력회사의 전력 차단 결정이나, 비상 대응 시스템 등에서도 빅데

이터의 활용이 부각되고 있다.

‘고객이 원하는 솔루션 찾아주기(Solution Configuration)’도 자동화될 수 있는 의사결정 문제

이다. 이 분야의 초기 과제는 고객이 원하는 제품 조합을 찾아주는 것으로, 예를 들어 고객이

원하는 기업용 컴퓨터 사양을 컴퓨터가 계산해 정해주는 경우가 이에 해당한다.

이후 규칙, 데이터, 복잡한 관계식 등을 이용해 좀 더 가변적인 서비스 분야에도 적용되었는데,

예를 들어 이미 많은 기업들이 고객에게 최적 서비스 플랜을 찾아주거나, 전화나 인터넷상에

서 실시간으로 고객의 특성들에 가중치를 부여해 고객의 수익성을 계산하고 고객들을 만족시

키고 있다.

또 다른 의사결정 자동화 분야는 ‘수익률 최적화(Yield Optimization)’로, 이는 주어진 수용·생

산 능력을 최대한 활용하는 것을 말한다. 항공사에서 잔여 좌석과 날짜, 시간에 따라 최적 가

격을 결정하는 것이 대표적인 경우이며, 앞서 프로 야구팀이 시간 및 상황별로 입장권 가격을

책정하는 것도 비슷한 사례이다. 이러한 자동화가 더욱 발전하면 유통업체에서 고객 충성도나

평생 가치 등을 정하는 문제에도 적용할 수 있다.

즉 고객이 한평생 소비할 금액이 정해져 있다고 가정할 때, 어떻게 하면 그 고객 주머니의 돈

을 최대한 우리에게 소비하도록 만드느냐가 바로 ‘수익률 최적화’ 문제라고 하겠다. 이제 백화

점에서 어떤 고객이 어떻게 대접받는가는 백화점 직원이 아닌 컴퓨터에 의해 결정되고 있으니,

본인을 VIP로 대접하지 않아 섭섭하다면 직원 대신 회사 컴퓨터에 불만을 가져야 할 것이다.

그 다음 자동화 분야는 ‘순서 결정과 고객 세분화’ 문제이다. 예를 들어 금융기관에서 어떤 고

객을 먼저 공략해야 할지 정할 때, 고객의 상황이나 금융기관과의 거래 내용들을 기준으로 필

터링하여 그 순서를 정할 수 있다. 보험금 지급 요청을 처리하거나 병원 응급실에서 환자를

배정할 때에도 항상 순서는 중요한 문제이다.

이외에도 병원에서 누가 보험 혜택 적용 대상인지 정하는 것처럼 규제 및 규정의 준수 여부나,

제조업자들이 자신의 고객인 유통업체가 필요로 하는 재고 수준을 유지하기 위해 동적 예측

(Dynamic Forecasting)을 하는 문제, 그리고 물리적 환경 변화(전력 공급, 온도, 강수량)를

Page 106: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

106

감지하고 사전에 정해진 공식이나 규칙에 따라 대응하는 운영 통제(Operational Control) 문

제 등에 의사결정 자동화가 적용되고 있다.

2) 새로이 의사결정에 기여하는 다양한 라이브 데이터

데이터 규모가 방대해지고, 데이터의 발생과 수집이 실시간으로 이루어지면서 이전에는 볼 수

없었던 새로운 문제 해결도 가능해졌다. 좀 더 현장의 상황과 가까운 시점에서 의사결정을 하

고, 이전에는 컴퓨터가 실시간으로 수집하고 분석하기 어려웠던 엄청난 양의 동영상이나 사람

들의 대화와 같은 비정형 데이터를 처리하여 사람 대신 컴퓨터가 적절한 판단을 내리는 것도

빅데이터 시대에 가능해진 의사결정의 변화이다.

<그림 9-4>와 같이 국가적 안보 사안이나 통신사 프로모션, 교통 통제 등의 긴급한 의사결정

은 그야말로 찰나의 순간에 이뤄져야 한다. m

<그림 9-4> 빅데이터로 새로이 개척되고 있는 의사결정 분야

<자료 : IBM (2011). “Getting ready for a Smarter Planet & Big Data.”>

공항 입국 심사에서 테러리스트 용의자를 판별해내려면, 여러 자료원으로부터 수집한 엄청난

양의 데이터에서 초당 6만여 개의 개인 기록을 분석하고 처리하여 입국 허가 스탬프가 찍히기

전에 판별해야 하기 때문에 몇 초의 시간도 길다고 할 수 있다. 부시 행정부가 설립한 국가테

러대응센터(NCTC : National Coun terterrorism Center)에서는 여러 정부기관들로부터 의심

스러운 국제 테러리스트들의 정보를 받아 TIDE (Terrorist Identities Datamart Environment)

라는 단일 데이터베 데이터베이스에 통합, 표준화했다. 2011년 12월 감시 대상자 리스트에는

Page 107: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

107

7만 4,000명의 이름이 올라갔으며, 여기에 더해 8만 5,000건 이상의 테러 관련 사건 기록들

이 보관되어 있다.

또 휴대폰을 사용하는 사람이라면 자주 통신사의 프로모션 메시지를 받을 것이다. 그런데 통

신사는 이 메시지를 보내기 위해 초당 10만 개 레코드, 매일 6기가바이트의 데이터를 분석해

0.01초 내에 판단을 내려야 한다. 이런 빠른 판단이 이루어지려면 기존의 방식대로 데이터를

수집한 후 저장하고 그 다음 분석하기는 어렵다. 고객과 통신량의 폭발적인 증가로 데이터베

이스에 데이터를 보관하기조차 부담이 되기 때문이다. 그보다는 데이터가 생성되는 즉시 저장

하지 않고 바로 분석하는 데이터 스트리밍(Data Streaming)이라는 빅데이터 기술을 사용한다

(뒤의 <의사결정을 위한 두 가지 빅데이터 분석 방법> 참조). 데이터가 발생할 때 이를 바로

필터링이나 샘플링한 후, 관계 분석을 통해 어떤 식으로 프로모션할지 실시간으로 고객을 자

동 분류하는 것이다.

한편 스웨덴 스톡홀름 시에서는 스마트 교통 통제를 위해 25만 개의 GPS를 탐색해 초당

630만 대의 자동차를 분류하고 시간대별로 다른 혼잡통행료를 징수함으로써 교통량은 22%,

오염 배출은 14% 감소시켰다고 한다.

빅데이터에 의해 의사결정이 변화하는 것과 관련하여 최근 주목해야 할 또 하나의 사건은 바

로 슈퍼컴퓨터의 상용화이다. 이전까지 슈퍼컴퓨터는 연구나 일기예보와 같은 일부 분야 이외

에는 크게 보급되지 못했으나, 컴퓨터의 가격 하락과 함께 빅데이터에 따른 경제성이 높아지

면서 그 상용화가 점점 더 확산되고 있다.

예컨대 2011년 미국 인기 퀴즈쇼 <제퍼디(Jeopardy)>에서 사람들과 대결해 승리를 거둔

IBM의 슈퍼컴퓨터 왓슨(Watson)은 2012년 미국 금융가와 의료산업에 진출했다. IBM은 시티

그룹과 손잡고 이미 유명세를 타고 있는 이 슈퍼컴퓨터를 디지털 뱅킹 분야에 적용할 계획이

다.

고객 니즈를 분석하고 엄청난 양의 최신 금융, 경제, 상품, 고객 데이터를 처리하는 데 도움을

주어 신속하게 개인별로 맞춤화된 솔루션을 제공할 것으로 기대되며, 덕분에 2015년에는 왓

슨의 데이터 분석에서 26억 5,000만 달러의 수익이 생길 것으로 예상하고 있다.

자연어를 이해하고 처리하며, 엄청난 양의 비구조적 정보(예를 들어 이메일이나 이미지)를 다

룰 수 있고, 사람처럼 질문에 답할 수 있는 능력을 갖춘 왓슨은 여러 분야에 잘 적용될 수 있

을 것이다. 다만 아직 영어 이외의 언어에 약하고, 페이스북이나 트위터와 같은 SNS에서의 사

람들 간 대화 처리가 완전하지 않다고 한다.

Page 108: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

108

▶ 월마트의 상품 라인업 의사결정

빅데이터 사례의 단골손님인 월마트(Walmart)는 시간당 100만 건 이상의 거래 기록을 저장

하고 있으며, 데이터베이스 규모도 2.5페타바이트에 달한다. 지역에 따른 고객 선호도와 수요

에 따른 재고 예측 조사로 높은 수익을 창출하고 있다. 월마트는 기본적으로 가격, 상품 구성

체계, 행사, 재고, 품절, 경쟁 상황, SNS 정보 등을 수집한다. 2011년 말에는 소셜 미디어 분

석 회사 코스믹스(Kosmix)를 인수해 사내에 @월마트랩(@WalmartLabs)이라는 조직을 신설

했다. @월마트랩은 이른바 ‘사회적 게놈(Social Genome)’이라는 거대한 지식 허브 구축 기술

을 보유하고 있다. 이 거대 지식 허브는 고객, 이벤트, 토픽, 상품, 위치, 기업 사이의 관계를

포착한다. 예를 들어 월마트는 소셜 미디어에서 수집한 빅데이터를 분석해 캘리포니아 마운틴

뷰 지역에는 자전거에 관심 있는 거주자가 많다는 사실을 파악하고, 해당 점포의 상품 라인업

을 조정해 매출을 폭발적으로 증가시켰다.

Page 109: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

109

1. 의사결정에 빅데이터의 통찰력을 활용하는 4단계

기업이 빅데이터를 의사결정에 활용하는 수준은 네 가지로 구분할 수 있다. 수준이 올라갈수

록 빅데이터가 제공하는 가치의 크기도 커지며, 데이터를 활용해 여러 가지 비즈니스 상황에

좀 더 신속하게 대응할 수 있게 된다.

1) 1단계 What happened?

기업에 컴퓨터를 도입해 경영 관리에 이용하고 있다면 이미 의사결정에 데이터를 이용하는 첫

단계라고 할 수 있다. 이 단계는 어떤 일이 발생했는지(What happened?) 파악하는 수준으로,

그 상세한 내용과 원인은 파악되지 않는다. 기업 경영에서 컴퓨터가 처음 도입된 단계인 경영

정보 시스템(MIS : Management Information Systems)은 기업의 경영 정보를 최초로 관리하

고 활용하는 단계로, 데이터의 내용과 범위도 일반 회계 및 재무 데이터에 국한되고, 정보의

활용 목적도 기업의 회계나 재무 상태를 파악하는 수준이었다.

현재 거의 대부분의 기업에서 컴퓨터를 경영 정보 관리에 사용하고 있기 때문에 최소한 기업

들은 1단계는 넘어섰다고 볼 수 있다. 하지만 의사결정자나 정보 사용자에 맞추어 정보를 제

공하기보다 수집된 전반적인 현황 정보를 보고하는 단계이므로 전략적 의사결정에 데이터 분

석을 직접 적용한다고는 말할 수 없다.

10차시 빅데이터 의사결정의 4단계

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

10차시 학습 교안

Page 110: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

110

<그림 10-1> 빅데이터에 따른 의사결정 고도화 단계

<자료 : Accenture (2011). “Excelling with Analytics.”>

2) 2단계 Where exactly is the problem?

두 번째 단계부터는 의사결정을 위해 사용자 위주로 정보를 정리하여 보여주기 시작하며, 어

떤 부분이 문제인지(Where exactly is the problem?) 구체적으로 파악한다. 즉 상품의 판매

부진이 제품 문제 때문인지, 아니면 계절적 요인 때문인지 분석할 수 있다. 주로 현재 상황을

설명하는 수준의 분석을 하는 단계로, 예를 들어 고객층을 분류한다든지 판매 상황을 지역별,

상품군별로 분석해 의사결정의 첫 단계인 문제를 파악하는 데 도움을 준다.

이러한 수준을 비즈니스 인텔리전스(BI) 단계라고도 하는데, 분석하는 데이터의 범위가 단순

상품 데이터를 넘어 고객 데이터를 포함하는 수준으로 확대되고, 본격적으로 기업의 데이터를

마케팅이나 영업에 활용하기 시작한다. 또한 데이터를 1차적으로 가공하는 데에서 나아가 사

용자가 이해하고 활용하기 쉽게 정리, 제공하는 단계이다. 이 단계의 대표적인 분석 도구는 국

내에서도 많은 기업과 공공기관들이 도입하고 있는 온라인 분석 처리(OLAP)로, 데이터베이스

의 정보들을 사용자가 인터랙티브하게 사용자 관점에서 볼 수 있게 해준다.

3) 3단계 What is happening next?

세 번째 수준은 복잡한 통계학, 물리학, 수학 등을 이용해 예측 모델 혹은 알고리즘(이를 보통

‘애널리틱스’라고 함)을 적용함으로써 의사결정을 위한 미래의 결과를 예측하는 단계이다. 이는

문제의 원인을 찾아내고(Why is this happening?), 무엇이 발생할지 예측하는(What is

happening next?) 수준이다.

한 병원에서는 예측 모델을 통해 심장 수술 전에 특정 혈전(혈액이 엉기는 현상) 방지약을 복

Page 111: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

111

용할 경우 출혈의 위험이 크다는 사실을 알아내, 이 약을 복용한 환자는 수술을 미루도록 했

다. 이처럼 예측 모델의 목적은 데이터 사이의 인과관계를 찾아내는 것이다. 의사결정에서도

무슨 일이 발생할 것이며, 어떤 조치가 필요할지에 대한 정보를 빅데이터로부터 얻을 수 있다.

2010년 3월, 영국 법무부는 400만 건의 기록을 예측 분석해 범죄자들의 재범 여부를 가늠한

다고 발표했다. 이로 인해 중범죄의 경우 재범 예측력이 68%에서 74%로 높아졌으며, 일반

범죄에 대한 예측력도 76%에서 89%로 향상되었다. 마약이나 알코올 남용과 같이 특별한

문제가 있는 사람들과 그렇지 않은 사람들을 파악함으로써 이처럼 예측력을 높일 수 있었다.

BMW와 같은 자동차 회사는 예측 알고리즘을 통해 자동차 부품의 품질 및 제조 프로세스의

적정성을 예측한다. 이 모델을 이용하면 제조 공정 및 부품 품질에 영향을 미치는 변수들을

찾아내 결과적으로 신차 개발 기간을 단축하고, 기존의 생산 프로세스를 통해 새로운 자동차

를 생산할 수 있다.

여기서 한 단계 더 나아가면, 예측은 남들이 예상치 못하는 점을 잡아낼 수 있어야 한다. 이와

관련하여 구글의 수석 경제학자 할 배리언은 다음과 같이 말했다.

돈을 벌기 위해서는 ‘어떤 일이 벌어질 것인가’와 ‘사람들이 생각하는 일이 일어날 것인가’ 이

두 가지를 예측할 수 있어야 한다. 돈을 버는 경우는 두 예상치의 차이를 알 수 있을 때이다.

어떤 사람이 삼성전자 주가가 1년 후 10% 상승할 것으로 정확히 예측하면서, 동시에 다른

사람들 대부분은 삼성전자 주가가 떨어질 것으로 생각한다는 점도 예측한다면 그는 엄청나게

많은 돈을 벌 것이다. 하지만 후자의 예측이 틀리면 큰돈을 벌기는 어렵다.

아마존 입장에서는 자사의 추천 시스템이 고객이 생각하는 책을 정확히 추천하는 것(이런 책

은 나도 생각하고 있었지!)보다 고객이 구매할 의향이 생기는 책을 보여주는 것(이런 책도 있

었군!)이 더 중요하다. 즉 다들 예상치 못하는 바를 예측하는 것이 더 정확히 예측하는 것보

다 훨씬 값어치가 있다.

▶ 예측 모델을 광고 채널 결정에 활용한 베스타바이

오랫동안 경영자들은 부정확하고 불확실한 상황에서 회사의 성장을 위해 중요한 결정을 내리

는 일에 익숙해져 있었다. 그러나 미국의 전자용품 소매유통업체인 베스트바이(Best Buy)와

같은 회사들은 ‘최선의 추측’이 더 이상 통하지 않으므로 구체적인 수치가 필요했다.

베스트바이가 속한 유통업에서는 각 채널별 광고 예산의 최적 배분이 항상 최대 고민거리 중

하나이다. 전자상거래, 소셜 커머스 등 디지털 미디어를 통한 매출이 매일 급증하는 상황에서,

베스트바이는 여러 소스로부터 나오는 고객 데이터와 고객의 행태를 예측할 수 있는 모델을

기반으로 새롭게 만든 분석 기법을 통해 기존의 광고 예산 배분 방법을 개선했다.

Page 112: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

112

그 결과는 놀라웠다. 모든 사람들이 무시했던 텔레비전이 목표 고객에게는 가장 중요한 채널

로 드러난 것이다.결과적으로 베스트바이는 신문에 배정된 예산을 텔레비전으로 돌렸고, 그 효

과는 기대 이상이었다.

<자료 : LaValle, S., Hopkins, M., Lesser, E., Shockley, R., and Kruschwitz, N. (2010). “Analytics : A

New Path to Value.” MIT Sloan Management Review.>

4) 4단계 What’s the best that can happen?

마지막으로 의사결정 프로세스를 최적화하는 단계는 일상적인 데이터 분석이 실질적인 기업의

성과로 이어질 수 있도록 의사결정을 좀 더 신속히 하고 질을 높이는 수준을 의미한다. 이 단

계에서는 문제에 대한 조직의 최적 해법(What’s the best that can happen?)을 찾을 수 있다.

앞서 소개했던 해러스(현 시저스) 엔터테인먼트나 신용카드 사업을 주력으로 하는 금융회사

캐피털원과 같은 유수의 기업들이 이에 해당한다. 이들 기업에서 빅데이터의 활용은 일회성이

나 임시적이 아니라 일상적인 업무 활동 속에 녹아 있다. 불확실성이 높은 문제에 대해서는

빅데이터적인 접근법으로 불확실성을 없애거나 낮추고 통제하는 방법을 사용한다.

이 단계에서는 앞서 소개한 세 가지 수준이 당연히 구현된다. 거기에 더해 데이터를 기반으로

‘사물 간 인터넷’에서처럼 수집된 데이터와 분석 내용을 명령어로 전환하고, 네트워크를 통해

이를 구동장치에 피드백하여 의사결정 프로세스를 수정하는 수준에까지 이른다.

복잡한 환경에 적응하는 시스템은 인간의 관여가 필요 없는 수준에 있어야 하기 때문에 데이

터에서부터 자동화된 애플리케이션까지의 순환 과정은 의사결정의 생산성을 높일 수 있다. 은

행의 대출 프로세스를 최적화하는 데에도 같은 개념과 방법이 적용될 수 있을 것이다.

자동화된 프로세스 최적화는 기존 산업의 스마트화와 관련된다(‘스마트화’에 관해서는 뒤의 6

장 참조). 화학산업과 같은 분야에서 센서를 설치해 모니터링의 정밀성을 높이는 것처럼, 기업

재무 관리에서는 자금 흐름에 대한 모니터링 능력을 높여야 한다. 이들 센서가 컴퓨터에 데이

터를 전달하면 이들을 분석해 자금 구성이나 이자율, 만기 등의 변화를 파악하고 위험 관리

프로세스를 조정하도록 통제 시스템에 신호를 보낼 수도 있다.

▶ 보험금 처리 프로세스의 자동화

보험금 청구를 처리하는 기본적 프로세스는 고객의 신고(notification)로 시작되어 청구 업무

처리의 마감(closing)으로 끝난다. 그리고 각 프로세스 단계별로 애널리틱스에 의해 의사결정

의 자동화가 적용되는데, 이런 자동화된 의사결정 종류는 세 가지로 볼 수 있다.

첫 번째는 청구 프로세스의 흐름을 향상시키는 것으로, 청구 처리와 보험금 지급에 얼마나 시

간이 걸릴지 예측하여 고객에게 알린다.

Page 113: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

113

두 번째는 작업의 난이도에 따라 청구된 케이스들을 분류한다. 일단 보험금 청구가 접수되면

프로세스는 두 가지로 구분된다. 사기 위험이 낮은 단순한 케이스는 이른바 ‘급행(fast track)’

으로 신속히 처리해 보험금을 지급한다. 다른 케이스는 배상 책임 정도를 결정하기 위해 추가

적인 피해 평가와 정보를 요구한다. 청구 처리 프로세스의 여러 시점에서 각 케이스의 사기

가능성에 대한 점수가 재계산되며, 특정 점수 이상인 케이스는 특수조사팀이 전담해 조사를

진행한다.

마지막으로, 청구 처리 프로세스의 마무리 단계에서는 고객에게 보험금을 지급하기 전 추천

엔진(recomme ndation engine)이 보험 커버리지의 확대와 같은, 고객에 대한 교차 판매

(cross-selling) 기회를 제안한다.

재난 및 상해 보험 사기로 인한 손실이 미국에서만 매년 약 300억 달러에 달한다고 한다. 결

과적으로 데이터 분석에 의한 의사결정 자동화는 보험금 청구 프로세스를 좀 더 효율적이고

유연하게 하며 보험 사기에 대한 대처도 개선한다. 이와 같이 보험금 청구 프로세스 의사결정

을 자동화한 미국의 보험사는 사기 가능성이 있는 케이스를 찾는 시간을 95% 줄이고, 보험

사기 해결 비율도 50%에서 88%로 개선했다고 한다.

<자료 : Davenport, T. H., Harris, J. G., and Morison, R. (2010). Analytics at Work : Smarter

Decisions, Better Results. Harvard Business Press.>

이상의 네 가지 수준을 다시 정리해보면 다음과 같다. 첫 단계는 단순히 지난해 우리 회사의

영업이익이 얼마나 되는지 답하는 수준이다. 두 번째 단계는 사용자의 관점에서 지난주 어떤

Page 114: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

114

영업점의 매출이 가장 높았고 어떤 제품이 가장 잘 팔렸는까지 답을 주는 단계이다. 세 번째

단계에서는 다음 달에 어떤 상품이 가장 잘 팔릴지를 예측하고 어떤 고객층을 상대로 판촉을

해야 바람직한지 사람이 아닌 소프트웨어가 제안한다. 물론 최종 판단은 사람이 내리지만, 이

단계에서는 현상을 설명하는 이외에 앞으로 발생할 상황에 대한 예측이 들어감을 알 수 있다.

마지막 의사결정 프로세스 최적화 단계는 핵심 의사결정까지 컴퓨터에 의해 제안되어 더욱 신

속하고 정확한 판단과 행동이 가능해지는 단계이다.

이미 현실은 상품의 라이프사이클이 짧아지고, 연구개발 속도가 빨라지며, 고객의 기호와 수요

가 수시로 변하는 상황에서 단순히 예측만으로 기업의 경쟁력을 유지하기는 힘들다. 따라서

데이터에 의한 의사결정 프로세스가 순환적으로 진화해야 한다.

2. 의사결정 향상을 위한 빅데이터 활용

물론 빅데이터를 기반으로 한 효과적인 의사결정이 하루아침에 이루어지는 것은 아니다. 보통

3단계 발전 과정을 거쳐 합리적인 의사결정 수준에 다다르게 된다.

첫 단계는 쉽고 단기간에 달성할 수 있는 비용 절감 등의 단순한 목적을 위해 데이터에 기반

한 분석을 활용할 의지가 생기는 것이다. 이는 가정에서 지출을 관리하기 위해 주부가 가계부

를 작성하거나, 지출 내역을 정리할 의지가 생기기 시작하는 것과 같다. 기록으로 데이터를 만

들어 지출을 관리하기 시작하면 가정에서도 데이터 관리의 필요성과 성과를 점차 느끼게 될

것이다. 마찬가지로 기업에서도 실질적이며 가시적인 성과를 쉽게 보여야 데이터를 활용하려

는 마인드가 생겨나게 된다.

다음 단계는 데이터에 기반한 의사결정의 확대이다. 즉 단순한 목표에서 데이터를 분석하는

것이 성과를 거두면 다음 단계로서 좀 더 복잡한 문제에 데이터를 활용하려고 시도하게 된다.

이 단계에 오면 기업들은 데이터의 수집이나 저장, 분석에서 더욱 발전된 방법을 모색한다. 가

정에서도 지출 관리에 따른 비용 절감을 경험하고 나서 컴퓨터 엑셀에 본격적으로 지출 내역

을 기록하고 분석하는 수준의 관리 단계를 말한다.

마지막 단계는 단순히 데이터를 분석하는 데에서 나아가 고도의 분석 소프트웨어를 활용하여

다른 기업과 차별화되는 수준으로 변모하는 것이다. 빅데이터의 적용 범위도 단순한 비용 절

감에서 다양한 분야로 넓어진다. 이 단계의 기업들은 비용 절감의 많은 부분이 이미 자동화되

어 있으며, 고객의 수익성이나 좀 더 특별한 분석 기법을 개발하는 데 더욱 치중한다. 가정에

서는 데이터의 활용이 비용 절감을 넘어 자녀 교육이나 가족 전체의 건강에까지 확대되고, 각

종 개인용 재무 관리 앱들을 스마트폰에서 적극 활용하는 단계라고 하겠다.

이처럼 빅데이터를 의사결정에 적절히 활용하기 위해서는 기술적으로 다음과 같은 데이터 처

리 흐름 및 데이터 분석 기법이 필요하다. 즉 빅데이터를 의사결정에 활용하려면 조직 내에서

빅데이터를 처리하는 과정이 확립되어야 한다.

Page 115: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

115

1) 의사결정을 위한 빅데이터 처리의 흐름

빅데이터는 의사결정을 좀 더 효과적으로 하는 데 크게 기여할 수 있지만, 이를 위해서는 데

이터만 있으면 되는 게 아니라 이를 활용할 수 있도록 잘 정리하고 데이터를 정보와 지식으로

만들어야 한다. 적절한 요리사와 주방기구 및 조리법이 갖추어져야 맛있는 요리가 만들어지듯,

데이터는 좋은 결정을 내리기 위한 원재료일 뿐이다. 즉 정보 처리 측면에서 넘어야 할 몇 가

지 고비들이 있다. 이러한 고비들을 정보 흐름의 단계라고 해보자.

가장 이상적으로는 빅데이터를 정리하고 이를 처리하는 극도로 복잡한 프로세스를 실현하려면

다양한 빅데이터의 유형을 다룰 수 있는 최적의 하드웨어와 소프트웨어를 도입하고, 이러한

솔루션들을 기존의 기업 데이터웨어하우스와 결합해야 한다(<그림 10-2> 참조). 앞서 보았듯,

빅 거래 데이터와 빅 상호작용 데이터의 통합이 가장 이상적이다. 하지만 여기에는 많은 비용

과 노력이 따른다.

<그림 10-2> 의사결정을 위한 빅데이터 처리의 흐름

<자료 : BI Research (2011). “Using Big Data for Smarter Decision Making.”>

정보 공급사슬의 목적은 이러한 작업을 위해 조직 내에 존재하는 매우 다양한 원시 소스 데이

터를 수집, 통합하고 이들을 분석해 비즈니스 사용자에게 분석 결과를 제공하는 것이다. 새로

운 식자재(SNS 데이터와 같은 비구조적 데이터)와 기존의 식자재(POS 데이터와 같은 구조적

데이터)를 결합하고, 첨단 취사 시설(데이터베이스)과 조리기구(애널리틱스와 같은 분석 기법)

로 먹음직한 음식을 만들어내는 것은 빅데이터를 의사결정에 활용하는 과정과 같다.

정보 공급사슬의 입력물은 분석을 위한 원시 데이터들이다. 과거 오랫동안 기업에서 사용하던

분석 기법인 애널리틱스들은 운영 시스템 및 데이터웨어하우스로 취합된 구조화된 데이터, 즉

빅 거래 데이터를 추출해 사용했다. 빅데이터는 분석에 유용한 데이터 소스의 수와 데이터 규

모를 급격히 증가시키고 있다.

이러한 데이터의 대부분은 반구조화(semi–structured, 이미지 등)되어 있거나 비구조화(SNS

데이터, 사진, 동영상 등)된 것들이며, 데이터웨어하우스에 저장되는 구조화된 운영 데이터와

구분된다. 거의 모든 조직에서 이런 다양한 구조화 수준의 데이터가 중첩된 다중구조(multi–

structured) 데이터는 구조화된 데이터보다 훨신 빠른 속도로 증가하고 있다.

Page 116: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

116

2) 의사결정을 위한 두 가지 빅데이터 분석 방법

빅데이터 분석에는 크게 두 가지 기법이 있다. 저장한 후 분석하는 방법과 분석하면서 저장하

는 방법으로, 비유하자면 일본식 횟집과 한국식 횟집의 차이와 같다. 일본식 횟집은 갓 잡은

생선을 바로 내놓지 않고 며칠간 숙성시켜 감칠맛과 부드러운 식감을 높인 후 손님에게 대접

한다. 반면 한국식 횟집은 활어의 싱싱함과 쫄깃한 식감을 살리기 위해 살아 있는 생선을 손

님 앞에서 바로 손질하여 제공한다.

일본식 횟집과 같이 빅데이터를 저장한 후 분석하는 방법은 일단 분석 전에 소스 데이터들을

데이터 저장소로 통합하고 난 다음 분석을 시작한다. 즉 기존 데이터 분석 방법으로 데이터웨

어하우스라는 창고에 데이터를 잘 정리해 보관한 후, 애널리틱스라는 요리 기법(분석 기법 혹

은 분석 모델)으로 데이터를 분석하는 방법이다.

통합 데이터 저장소는 보통 관계형 데이터베이스 혹은 다차원 데이터베이스로 관리되는 전사

적 데이터웨어하우스나 데이터마트라는 특정 목적을 위해 형성된 데이터베이스를 말한다. 이

와 같은 방법은 생선 보관과 관리가 쉬운 일본식 횟집처럼 데이터 통합과 품질 관리가 수월하

며, 과거 정보들을 관리하기에도 적합하다. 단점은 추가적인 데이터 저장소가 필요하고, 데이

터 통합 과정에서 시간이 지연된다는 것이다.

이처럼 저장 후 분석하는 방법에 도움이 되는 두 가지 빅데이터 트렌드에는 마치 생선의 보관

과 숙성에 최적화된 냉장고처럼 분석에 최적화된 관계형 데이터베이스 관리 시스템(보통 애널

리틱스 RDBMS 혹은 ADBMS로 불림)과, 다중구조 데이터를 분석하는 비관계형 데이터베이

스 관리 시스템(보통 NoSQL 시스템으로 불림)이 있다. 비관계형 시스템은 빅데이터를 바로

분석하거나, 데이터웨어하우스로 데이터를 통합하기 전에 빅데이터를 사전 프로세싱하는 데

사용될 수 있다.

Page 117: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

117

<그림 10-3> 빅데이터 분석의 두 가지 방식

<자료 : IBM (2010). “Advanced Analytics”를 바탕으로 저자 작성.>

반면 바로 생선을 손질한 후 정리하는 한국식 횟집처럼 분석한 후 저장하는 방법은 먼저 데이

터가 네트워크상에서, 혹은 시스템들 사이에서, 아니면 비즈니스 프로세스로 흘러 들어오면 바

로 분석한다. 손질한 생선회를 바로 접시에 예쁘게 담아내듯 분석한 결과를 인터랙티브한 대

시보드로 잘 정리해 사용자들에게 바로 보여줄 수도 있고, 아니면 손질한 회를 추후 판매하기

위해 냉장고에 보관하듯 분석한 데이터를 여러 사용자의 접근이나 보고서 작성, 추가 분석 등

을 위해 데이터웨어하우스와 같은 데이터 저장소에 저장할 수도 있다.

또한 데이터를 데이터웨어하우스에 저장하기 전에 필터링하거나 통합하는 데 이러한 방법을

사용할 수도 있다.

분석 후 저장하는 두 가지 주요 방법은 다음과 같다.

Page 118: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

118

3) 개인의 의사결정 한계를 극복하는 빅데이터

빅데이터가 왜 의사결정에서 중요해지는지를 한마디로 요약하자면 결국 “우리 누구도 우리 모

두보다는 현명하지 않다(None of us is as smart as all of us).”라는 사실 때문이다. 모든 조직

은 내부 구성원의 판단뿐 아니라 되도록 많은 외부 이해관계자, 특히 고객의 목소리를 통해

의사결정의 질을 높이고 있다. 이른바 ‘대중의 지혜’를 활용하는 것이다.

이를 위해 많은 성공적인 조직들은 소셜 미디어나 예측시장(Prediction Market)을 활용하고

고객을 상품 개발에 참여시키는 등의 노력을 해왔다. 현장 혹은 고객의 목소리를 반영하도록

많은 사람들을 의사결정에 참여시키려면 빅데이터를 활용할 수밖에 없다.

빅데이터가 소셜 미디어 데이터와 내부 소통 문서 데이터의 분석을 강조하는 이유도 여기에

있다. 또한 핵심 의사결정을 하는 리더가 한 사람이 아닌 경우도 있다. 집단적인 리더십을 강

조하는 경우, 결국 여러 리더들의 의견도 하나의 데이터로 분석되어야 한다.

앞서 편견에 대해 거론했지만 개인의 경험만을 가지고 의사결정을 하기에는 세상이 너무 빨리

변하고 있다. 과거의 성공적인 법칙이 오늘날에는 더 이상 유효하지 않다는 것은 일본과 유럽

의 전자, 통신업체들의 몰락에서 이미 입증되었다. 물론 직관은 중요하고 그 중요성이 간과되

지는 않을 것이다.

하지만 데이터에 기반을 둔 의사결정이 더 좋은 결과를 낳는다는 증거가 점차 늘어나는 것을

무시해서는 안 된다. 더욱이 경영자들의 직관을 빅데이터 분석으로 보완할 수 있을 때 더 좋

은 결과를 볼 수 있다. 일반적으로 빠른 의사결정이 필요한 복잡한 문제의 경우에는 직관이

데이터 분석보다 우선한다고 알려져 있지만, 이제는 빅데이터적인 실시간 데이터 분석 능력

덕분에 최소한 신속한 의사결정 문제는 빅데이터의 영역이 되고 있다.

무슨 일이든 반복되기 시작한다면 그러한 일들과 관련된 의사결정은 데이터 분석으로 대체하

거나 최소한 개선할 수 있다. 앞서 언급했듯이 지금까지는 단순한 거래의 처리 부분들이 정보

화되었지만 앞으로는 은행의 대출 심사, 보험사의 청구 심사, 사기 탐지 등 다소 복잡한 문제

들도 데이터에 의한 의사결정이 가능해진다.

데이터 분석은 모델을 기초로 하기 때문에 유사한 의사결정 상황이 반복되면 이런 모델이 더

욱 다듬어지고 완성도 또한 높아진다(4장의 ‘선뎀/티어니의 연예인 결혼 기간 예측 공식’을 기

억해보자). 모든 사물들에 센서가 부착되고(스마트폰을 소지했다면 이미 센서가 부착되었다고

봐도 될 것이다) 인터넷으로 연결된 스마트한 세상이 되면서 고객의 의사결정 과정을 기업이

쉽게 파악할 수 있게 되었다.

기업이 고객의 의사결정에 개입하는 부분에는 찬반양론이 있겠지만, 어떤 제품의 재고를 늘려

야 할지와 같은 기업의 고민을 고객이 대신 결정해준다면 기업과 고객 모두에게 도움이 될 것

이다.

Page 119: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

119

1. 다가오는 스마트한 세상

빅데이터가 몰고 오게 될 궁극적인 미래는 어떤 모습일까? 그것은 지능화 또는 스마트화가 더

욱 광범위하게 실현되어 사람이 구체적으로 지시하지 않아도 컴퓨터가 사람 대신 뭔가 알아서

해주는 세상이다. 빅데이터는 이러한 궁극의 스마트화를 위한 기본 토양이자 재료이다. 그리고

더욱 발전된 기법의 애널리틱스들과 보편화된 웹 환경은 이러한 기반과 재료가 어우러져 거대

하고 풍성한 인간 중심의 서비스로 영글 수 있도록 만들어준다.

사실 지능화나 스마트화는 이미 빅데이터 시대 이전부터 존재해온 개념이다. 그러나 많은 부

분 모호하기만 했던 이들 개념이 빅데이터 시대에 들어서며 여러 분야에서 구체적인 실현 가

능성을 갖고 드러나기 시작했다. 지능화나 스마트화도 데이터의 존재 유무에서 출발하나, 일반

적인 데이터 활용에 비해 현재의 스마트화는 더욱 다양한 형태와 소스로부터의 데이터 처리,

고도의 분석력, 접근의 용이성을 필요로 한다. 마치 인터넷과 웹 브라우저가 일반인의 정보 활

용에 새 장을 연 것처럼, 빅데이터의 분석력과 예측력이 보편화되면서 스마트한 세상이 일상

화되고 있다.

<그림 11-1>과 같이 지능화는 전산화와 정보화를 거쳐 실시간 맥락/상황 정보(시간, 공간, 사

물, 위치)를 인식하고, 그 정보를 분석해 앞으로의 상황을 예측하며, 대응해야 할 조치들을 마

련하는 단계까지 진화하고 있다.

‘스마트화’도 얼마나 다양한 정보를 인터랙티브하게 실시간으로 처리하고 분석하느냐에 따라

그 적용 범위가 넓어지고 효과는 커진다. 더욱이 이러한 스마트화의 단계는 바로 맥락/상황

정보를 실시간으로 수집하고 활용하는 컴퓨팅 단계로, 고도화된 유비쿼터스(Ubiquitious) 단

계나 앰비언트 컴퓨팅(Ambient Computing) 단계로 불리기도 한다.

11차시 새로운 고객 가치와 빅데이터

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

11차시 학습 교안

Page 120: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

120

<그림 11-1> 스마트화/지능화 과정

<자료 : 김성태 (2010). 《국가 지식기반 인프라 구축전략과 추진과제》. 한국정보사회진흥원.>

2. 새로운 가치를 만들어내는 빅데이터

빅데이터 시대에 새로운 데이터들이 생성되고 있다는 것은 새로운 비즈니스의 가능성을 말한

다. 새로운 비즈니스는 기업들이 새로운 가치를 창출할 때 가능하다.

네덜란드의 스마트 목축업체 스파크드(Sparked)가 스마트한 목축업을 위해 소에게 센서를 장

착하여 식사량이나 운동량을 파악하듯, 각종 객체에 인텔리전트한 센서들을 장착하는 시장을

의미하는 ‘임베디드 시스템(Embedded Systems)’이 커지고 있다.

이 시장은 수십 년간 컴퓨터, 통신, 소비재, 에너지, 의료, 교통/자동차 등으로 나뉘어 서로 간

의 시너지가 부족했다. 그런데 본격적으로 통일된 모습을 갖추면서 급성장해 2010년에는 16

억 달러의 매출과 71억 개의 센서가 팔리는 시장이 되었다.

전문가들의 예상으로는 2015년까지 연평균 10% 이상 성장해 수익이 26억 달러에 달하고

116억 개의 센서가 판매될 것으로 보인다. 이는 기존의 정보기술에 대한 기업들의 지출보다

더욱 빠를 뿐만 아니라 반도체 산업보다도 1.5배 빠른 추세이다. 심지어 2020년이 되면 지구

상에 모바일폰은 26억 개가 존재하는 반면, 임베디드 시스템은 무려 250억 개가 있을 것으로

예상된다.

스마트폰과 앱의 발전도 빅데이터에 의한 새로운 가치 창출의 한 축이 되고 있다. 플랫폼과

운용 시스템, 앱의 다양성은 향후 3~5년간 지속적으로 확장될 것이며, 개발자들은 PC와 스마

트폰 등 다양한 디지털 기기에서 사용되는 수백만 개의 앱들을 만들어낼 것이다.

현재는 안드로이드와 iOS가 모바일 기기의 대부분을 차지하지만, 다른 대안의 생태계와 콘텐

OLTP OLAP SNAP

Page 121: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

121

츠 제공자에 대한 기회도 무궁무진하다. 신흥국 시장에서도 빅데이터는 존재하지만 인프라와

투자 문제로 기회 실현 면에서 다소 어려움이 따를 전망이다.

그러나 서비스 제공자들은 빅데이터를 활용할 수 있는 리눅스(Linux) 혹은 HTML5와 같은 대

안적 생태계에 항상 관심을 가지고 개방적으로 접근할 것이다. 무엇보다도 한국과 같이 소셜

미디어와 인터넷 환경이 발달한 나라들에서 빅데이터에 의한 새로운 사업 기회는 상대적으로

다른 나라들에 비해 더욱 커질 것으로 예상된다.

리눅스는 대형 기종에서만 작동하던 운영 체계인 유닉스(Unix)를 기반으로 한 PC용 공개 운

영 체제이다. HTML5는 웹에서 콘텐츠를 구성하고 표현하는 기존 HTML의 차기 버전으로 제

안되고 있는 표준이다. 멀티미디어 환경을 위해 액티브 엑스(Active-X)를 설치하지 않아도 같

은 기능을 구현할 수 있다.

기존의 사업들이 빅데이터와 결합되면 한 차원 다른 새로운 모습으로 변모할 수 있다. 일찍이

GM(제너럴모터스)은 온스타(OnStar) 원격측정 시스템의 측정 데이터로 자동차 운전자에게

차량 보안과 함께 각종 정보 제공 및 차량 진단이라는 새로운 가치를 제공했다. 더 나아가

2007년부터는 온스타와 GMAC 보험이 손을 잡고 원격측정 데이터를 이용해 이동 거리가 짧

은 운전자에게 낮은 보험 프리미엄을 부과하는 선택 프로그램을 개발했다. 이 프로그램 덕분

에 고객들은 차량 보험료를 상당 부분 절약하고, GM은 고객 만족도를 높일 수 있었다. 덩달

아 온스타 유료 고객도 늘어났다.

엄청난 고객 데이터를 보유하고 있으나 모두 활용하지 못하고 있는 통신, 유통, 금융, 배송 회

사들에는 ‘스마트 정보 제공자’라는 새로운 사업 기회가 존재한다. <그림 11-2>와 같이 일본

NTT도코모(NTT Docomo)는 센서들이 제공하는 각종 데이터로 의료, 미디어, 방송통신, 에너

지 산업 등에서 편의성, 안정감, 재미나 즐거움과 같은 새로운 가치를 제공해줄 수 있다고 주

장한다.

Page 122: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

122

<그림 11-2> 빅데이터에 의한 새로운 가치 창출 : NTT도코모 사례

<자료 : NTT Docomo Factbook (2012).>

이러한 가치는 기존의 서비스에서는 찾을 수 없었다. 이는 사람들이 중요하다고 생각하나 기

업들이 실제로 그 실체를 파악하고 제공하기는 어려운, 삶의 질을 높이는 가치들이다. 빅데이

터에서는 이들과 같은 가치를 느끼는 상황이나 시점을 파악하고 대상도 판별할 수 있기 때문

에 새로운 가치를 제공할 수 있다. 앞서 말한 GM의 온스타 사례도 이에 해당한다.

정리하자면, 빅데이터는 이전의 스마트화를 한 단계 업그레이드시키고 있다. 비즈니스 모델이

빅데이터에 의해 스마트해지고 심지어 전혀 새롭게 바뀌는, 그야말로 ‘비즈니스 모델의 혁신’

이 가능해지는 것이다. 빅데이터에 의한 스마트화는 기존에 비해 스마트화를 구현하는 데이터

의 규모와 종류, 속도에서 차이가 나기 때문에 좀 더 다른 차원의 스마트화를 실현할 것으로

전망된다.

Page 123: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

123

3. 스마트 비즈니스의 진전

IBM의 2011년 스마터 커머스(Smarter Commerce) 보고서에 따르면, 네 가지 분야에서 스마

트 비즈니스가 진전되고 있다고 한다. 즉 물건을 구매하거나(Buy) 거래하는(Market) 부분, 물

건을 판매하거나(Sell) 서비스하는(Service) 부분에서 컴퓨터가 사람의 수고를 덜어주면서 스스

로 판단해 좀 더 효율적이고 효과적으로 작업을 수행한다.

1) 사례 1 구매 분야. 공급사슬을 가시화한 트루 밸튜

트루 밸류(True Value)는 소매업체들을 회원으로 각종 공구를 판매하는, 전 세계에서 가장 큰

협동조합 중 하나이다. 소매업체들은 각자 자기 점포를 독자적으로 운영하지만 제품은 공동으

로 조달하는데, 스마트화된 상거래를 위해 공급자와 파트너 간의 상호작용 최적화에 빅데이터

를 활용하고 있다. 이는 공급사슬에서 발생하는 쇼핑/구매 행태 및 새롭고 차별화된 고객 가

치를 위한 파트너들의 역할과 관계를 재조정하면서 이루어진다.

트루 밸류는 54개 국가에 5,000여 개의 점포와 12개의 지역 유통센터가 있으며, 미국에서는

물론 중국 등 해외에서도 판매할 공구들을 구매한다. 미국 내로 들어오는 이들 물품 선적은

연간 6만 4,000건에 달하며, 연간 28만 톤의 물량이 비행기로 운송된다. 또한 국제 무역을

위해 30개의 국제 무역항과 10개의 미국 내 항구에서 5개의 화물선으로 3,500개의 컨테이너

를 수출한다.

이는 많은 비용이 들고 잘못하면 고객 서비스에 치명적인 오류까지 나타나는, 매우 복잡한 물

류를 관리해야 함을 의미한다. 과거 트루 밸류는 적절한 시점과 장소에 원하는 물건을 배송하

는 데 어려움을 겪었다.

그러한 문제를 해결하기 위해 공급사슬 상황을 가시화하는 솔루션을 도입하고 전체 거래 파트

너들의 네트워크에 걸쳐 데이터를 통합했다. 그 결과 주문 후 납품까지 걸리는 시간이 57%

줄었고, 주문 정체도 85% 감소했다.

2) 사례 2 시장 분야. 이메일 반응을 높이기 위한 록시땅의 시도

록시땅(L’Occitane)은 스킨케어, 바디케어, 헤어케어 제품들을 제조, 판매하는 글로벌 기업으

로, 전 세계에 걸쳐 85개 국가에서 전문상점이나 전략적 파트너들을 통해 상품을 판매한다.

이 회사는 수년 전부터 고객에게 새로운 즐거움을 선사하고 주문을 유도하기 위해 온라인과

이메일을 통해서도 마케팅을 펼쳐왔다. 하지만 최근 마케팅 담당자들은 이메일에 반응을 보이

는 고객들의 비율이 급격히 줄어들고 있음을 알았다.

그래서 고객들이 자사 웹 사이트에서 어떤 행동을 하는지 소프트웨어로 분석해(행태적 웹 애

널리틱스 기법) 고객을 세분화한 뒤 각 그룹에 맞는 상품 특성을 추출해 제공하기 시작했다.

Page 124: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

124

마치 아마존에서 고객이 특정 책을 구매하거나 선택하면 그 책을 선택한 다른 사람들이 구매

한 다른 책을 추천하는 것과 같은 방법으로 고객들을 연관 상품군에 따라 분류한 것이다.

이러한 개인 맞춤화 노력은 큰 결실을 거두어 이메일 개봉 비율이 26.1%에서 43.1%로 증

가하고, 실제 효과구매 비율도 0.14%에서 2.43%로 높아졌다. 또 이메일당 수익은 약

2,500% 늘어났다(<표 11-1> 참조).

<표 11-1> 록시땅의 개인 맞춤화된 이메일 효과

개인 맞춤화된 이메일 맞춤화되지 않은 이메일

이메일 개봉 비율 43.1% 26.1%

링크 클릭 비율(중복 제외) 19.5% 3%

실제 구매율 2.43% 0.14%

이메일 메시지당 수익 2.84달러 0.11달러

3) 사례 3 판매 분야. 빅데이터 분석의 선두에 선 징가

페이스북에서 이용하는 소셜 네트워크 게임들을 제조하는 징가(Zynga)는 자사 게임에서 아이

템 판매 수익을 높이기 위해 매우 광범위한 통계적 데이터 분석을 매일 실시한다. 징가의 모

토는 ‘가장 재미있는 방식으로 친구들을 연결한다.(The Most Fun Way to Connect with Your

Friends)’로, 이를 위해 무엇이 가장 재미있는 일이고 무엇이 사람들을 연결하는지에 초점을

맞춰 엄청난 데이터를 수집, 분석한다.

징가는 기존보다 훨씬 큰 데이터웨어하우스를 보유하고 있는데, 이런 시스템은 수익을 내기

위해 반드시 필요하다. 징가의 게임은 매일 15테라바이트(1테라바이트는 브리태니커 백과사전

1,000질에 해당)의 새로운 데이터를 생산해낸다.

징가 자체는 무료 게임이고 사용자들의 95%는 게임 아이템들을 구매하지 않는다. 그러나 한

달 신규 가입자가 1,500만 명이 넘을 정도로 사용자들이 많아, SNS에서 지인들과 협력해 농

장 관리 능력을 기르는 ‘농장마을(FarmVille)’ 게임에서 5달러의 가상 닭을 사거나 ‘도시마을

(CityVille)’ 게임에서 3달러의 건물을 사는 사람들만으로도 높은 수익을 내고 있다. 매달 수천

달러를 쓰는 게이머들도 있다고 한다.

징가는 사용자의 프로파일과 게임 습성을 분석해 아이템을 추천한다. 사람들이 게임에 흥미를

느끼고 집중하면서 무언가를 하게 만드는, 즉 게임 아이템 등을 구매하도록 하는 것이 목적이

다. 이를 위해 징가는 사용자들의 행동 데이터를 지속적으로 분석해 게임의 요소들을 테스트

하고 조절한다. 예를 들어 ‘농장마을’ 게임을 하는 사람은 독립기념일에 성조기 무늬의 트랙터

를 사는 등 특정 공휴일과 관련된 가상 상품들을 더 많이 구매한다는 사실을 찾아내기도 했다.

즉 징가는 예측을 위한 인텔리전스용 대규모 데이터 분석을 하는, 빠르게 성장하는 기업으로

빅데이터 분석의 선두에 있다. 심지어 자사를 게임회사로 위장한 데이터 분석 기법 회사라고

Page 125: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

125

칭하기도 한다.

<그림 11-3> 징가의 ‘농장마을’ 게임 화면과 분석 문제 사례

4) 사례 4 서비스 분야. 고객 피드백 분석을 개선한 허츠

허츠(Hertz)는 146개 국가에 8,300개 사무실이 있는 전 세계에서 가장 큰 공항 렌터카 업체

로, 고객으로부터의 피드백을 지속적으로 수집해 왔다. 과거에는 사무실 매니저들이 온라인 이

메일이나 전화로 제시된 고객들의 피드백을 직접 읽고 수작업으로 분류해 보고서를 작성하거

나 분석했는데, 매니저의 개인적 해석에 따라 내용들을 분류해야 하기 때문에 매우 손이 많이

가고 시간도 오래 걸렸다.

반면 오늘날에는 분석 소프트웨어와 고객 감정 기반의 태그 솔루션을 사용한 ‘고객의 목소리’

분석 시스템으로 실시간 고객 경험을 수집해 이를 조치가 가능한 정보로 바꾼다. 이 시스템은

언어학적 법칙에 따라 이메일과 온라인으로 받은 고객의 피드백을 ‘자동차 청결도(Vehicle

Cleanliness)’, ‘직원 친절도(Staff Courtesy)’, ‘기계적 문제(Mechanical Issues)’ 등의 서술적

용어로 분류한다. 그리고 관리자로부터 전화를 받길 원하거나, 허츠의 고객 충성도 프로그램인

‘#1 Club Gold’를 언급한 고객을 표시해둔 다음 이런 피드백들을 신속히 분석해 문제의 해결

방안을 찾는다.

새로운 해결책은 고객 피드백을 분류하고 분석하는 프로세스의 정확도와 속도를 2배 이상 높

여 더욱 안정적인 분석 기법을 개발하는 선순환을 이룬다. 또한 고객 피드백을 분류하는 수작

업이 없어지면서 이제 회사 관리자들도 좀 더 심도 있는 정보 분석에 관심을 가질 수 있어,

재빨리 고객의 취향 변화나 문제들을 파악하고 이에 따라 업무 운영 방식을 조정할 수 있다.

Page 126: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

126

5) 사례 5 서비스 분야. 스마트 인형으로 불만을 잠재운 디즈니

디즈니사는 환상적인 놀이공원의 경험을 서비스하는 데 빅데이터를 활용하고 있다. 이미 오랫

동안 디즈니사는 고객관계 관리(CRM)의 리더였다. 하지만 디지털 시대의 어린이들에게는 디

즈니 브랜드의 영광이 약해지고 있었다. 최근 들어 디즈니 놀이공원 입장객 수는 15%나 줄

어들었다. 고객들이 다시 디즈니를 찾고 싶지 않은 이유로 거론한 것들은 전혀 관리되지 않는

구내매점의 대기 줄, 놀이기구와 이벤트를 구경하기 위한 지루한 기다림, 공원 내 무질서한 교

통 흐름 등이었다. 사실 이는 수년 동안 디즈니를 괴롭혀온 불만들이었다.

수익이 계속 감소하자 디즈니사는 고객과 모바일로 실시간, 양방향 소통하는 데 기반을 둔 야

심 찬 차세대 CRM 전략을 실행했다. 즉 디즈니사의 오랜 영광을 재현하고, 효율성을 높이며,

입장객 수와 핵심 가치를 개선하는 CRM 전략을 세우고 이에 따라 GPS, 스마트 센서, 무선

기술들을 통합하여 10인치(약 25센티미터) 크기의 봉제 인형 ‘팔 미키(Pal Mickey)’를 만들었

다(<그림 11-4> 참조). 목표는 고객 경험을 재창출하고, 방문객의 행태에 영향을 주며, 공원

내 혼잡함을 줄이는 것이다.

<그림 11-4> 팔 미키의 구조와 기능

팔 미키는 코에 달린 강력한 적외선 센서로 어떤 놀이기구의 줄이 가장 짧은지 알려주는 동시

에, 각종 이벤트 정보를 제공하는 가상 관광 가이드 역할을 한다. 공원 내 곳곳에, 예컨대 가

로등, 지붕, 덤불 속 등에는 디즈니 데이터 센터로부터 정보를 받아 다시 팔 미키 인형으로 전

송하는 적외선 신호기들이 500여 개나 숨겨져 있다고 한다. 인형을 공원 내로 가지고 들어오

Page 127: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

127

는 순간부터 센서가 적외선 신호기를 통해 무선 데이터를 수신하는 것이다.

가족이 공원을 방문하는 동안 팔 미키는 적절한 정보를 제공하고, 놀이기구를 타기 위해 줄을

서거나 이벤트를 관람하는 사이사이 쉬는 시간에 아이들에게 즐거움을 선사한다. 새로운 정보

를 받으면 팔 미키는 낄낄거리거나 진동하여 뭔가 새로운 얘기를 하려 한다고 알린다. 아이가

팔 미키의 손이나 배를 꼭 누르면 인형은 다가올 퍼레이드나, 기다리는 줄이 짧은 놀이기구나,

산책하기 좋은 곳을 말해준다. 또한 사전에 프로그램된 700여 개 메시지 덕분에 팔 미키는

아이들에게 항상 농담 등 무언가 이야기를 건네어 즐겁게 해준다. 줄을 서서 기다릴 때에는

인형으로 게임을 즐길 수도 있다. 이 스마트한 인형은 아이들을 위해 고안되었지만, 의외로 어

른들도 놀이공원에 대해 이것저것 파악하거나 무언가 놓치지 않았는지 등의 압박으로부터 해

방될 수 있어 고마워한다.

디즈니사가 개발 중인 기술 기반의 CRM 수단은 팔 미키만이 아니다. ‘목적지는 디즈니

(Destination Disney)’는 대화형 인터넷 사이트를 통해 방문객들이 놀이공원 도착 전에 미리

하루 일정을 계획할 수 있게 해주는 고객 중심 프로그램이다. 공원에 들어오면 ‘목적지는 디즈

니’ 회원들은 스마트폰으로 그날의 계획된 일정에 관한 메시지를 수신한다. 이 프로그램은 자

신이 즐기고 싶은 여러 가지 일들 사이에서 오래 기다릴 필요가 없도록 사전에 이벤트와 이벤

트, 공원과 공원 사이 예약을 하는 데 사용할 수 있어, 여행 중 디즈니 놀이공원을 여러 곳 방

문하려는 고객들에게 특히 유용하다.

디즈니사는 CRM에 대한 노력으로 고객 경험이 더욱 풍부하고 즐거워지길 기대하고 있다. 디

즈니사가 직면한 주요 과제는 사람(직원)과 기술(데이터)을 결합해 고객에게 잊지 못할 감동을

주는 것이다. 따라서 고객들이 언제, 어느 상황에서 사람과 기술을 통해 기억에 남는 좋은 경

험을 하는지 CRM을 통해 파악하려고 노력하고 있다. 고객들은 디즈니 놀이공원에서 친절한

직원들과 접촉하며 좋은 인상을 받는다. 반면 팔 미키는 기술, 즉 빅데이터로 고객들에게 즐거

운 경험을 선사하려는 디즈니사 전략의 일환이다.

Page 128: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

128

4. 새로운 비즈니스의 탄생

빅데이터는 데이터 분석에 바탕을 둔 신규 사업들을 창출하고 있다. 특히 두 가지 사업이 두

드러지는데, 하나는 데이터 분석 사업의 발달이고, 다른 하나는 데이터 분석을 활용하는 인텔

리전스 사업의 발달이다.

전자는 기업 활동에서 빅데이터의 비중이 높아질수록 당연히 나타나는 현상으로, 현재의 비정

형화된 데이터 분석에 대한 수요가 증가하는 빅데이터 추세가 계속되어 관련 기업들이 예상보

다 더욱 급성장하고 있다.

1) 새로운 인력과 기업의 등장

취업 검색 사이트 인디드닷컴(Indeed.com)에 따르면, 전문적인 통계학이나 수학 지식을 바탕

으로 데이터를 분석하는 ‘데이터 과학자(Data Scientist)’ 등의 빅데이터 분석 인력 수요가

2011년부터 급격히 증가하고 있다고 한다(<그림 11-5> 참조).

맥킨지도 빅데이터 보고서에서 미국에서만 2018년까지 49만 명의 빅데이터 분석 인력이 필

요하나, 기존 공급 인력 및 외부 인력을 포함해도 14만~19만 명이 부족할 것으로 예상했다.

산업별로는 금융, 컴퓨터, 연구개발 등의 분야에서 많은 수요가 생길 것으로 예상하고 있다.

<그림 11-5> 빅데이터 관련 일자리 증가율

<자료 : http://www.indeed.com.>

빅데이터 분석 기업들도 대거 등장하고 있다. 이들은 신규 기술로 무장한 곳도 있고, 반면에

기존 기업들 중 데이터 분석 경험과 노하우가 축적되면서 탄생한 곳도 있다. 먼저 신규 기업

Page 129: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

129

들은 빅데이터 분석 수요가 급격히 늘어나면서 빅데이터와 관련된 기술을 보급하고 데이터를

분석하는 데 특화된 기업들로 급성장하고 있다. <표 11-2>와 같이 빅데이터 분석의 수요 증가

로 나타나고 있는 기업들은 기존의 데이터 분석 기업들과는 다른 기술을 보유하고 있다.

<표 11-2> 새로운 사업 등장 : 빅데이터 수집 및 분석 기업들의 사례

회사명 제공하는 데이터 수집/분석 기능

InfoChimp

데이터 셋(일종의 외부로부터 구매하는 데이터) 및 API(데이터 연결

인터페이스)의 마켓플레이스. 구매 가능한 데이터 셋들을 쉽게 살펴볼 수

있으며, 사용자들로부터 메타데이터(데이터에 관한 설명)를 제공받고 있음

Factual

위젯이나 API를 통해 오픈 데이터를 어떤 주제에 대해 공유하고

혼합(매시)하는 플랫폼을 제공. 신뢰할 수 있는 소스로부터 구조화된

데이터를 구축하고 유지하는 스마트 도구들을 제공

Cloudera 최근 인기 있는 아파치 하둡(Apache Hadoop) 오픈소스 소프트웨어

패키지에 기반을 둔 데이터 플랫폼을 기업들에 제공

Lattice

Engines

B2B 영업과 관련된 분석 소프트웨어를 제공. 이를 통해 기업들은 내부,

외부 데이터 및 이 회사가 제공한 데이터를 통합하여 고객의 패턴을

파악하고, 구매 의사결정에 영향을 주는 이벤트를 만들어냄

Palantir 정형, 비정형, 관계형, 시공간 데이터를 포함해 전 세계 정보를 취합,

시각화하고 분석할 수 있는 플랫폼을 제공

Sulia 실시간 소셜 미디어 데이터를 고객의 활용과 분석에 맞춰 선별, 요약하여

(‘큐레이션(Curation)’이라고 함) 제공

Gnip 다양한 소스로부터 소셜 미디어 데이터를 수집, 정리

클라우데라(Cloudera)는 빅데이터 저장 기술인 하둡 파일 분산 저장과 관련된 오픈소스(즉 소

프트웨어 소스 코드가 공개된) 데이터 플랫폼을 제공한다. 대용량 데이터에 대한 고급 분석을

더 쉽고 빠르게, 간편하게 수행하는 미국 소프트웨어 제조사 네티자(Netezza)의 수익은 2006

년 5,400만 달러(615억 원)에서 2010년 2억 2,000만 달러(2,500억 원)로 4배 증가했다.

연평균 성장률이 37%인 이 회사는 2000년 4~5명으로 시작해 2011년 말에는 직원 수가

850여 명에 이르렀는데, 전체 직원의 3분의 1 이상이 연구직이다(단순 노동자는 단 1명도 없

다). 2011년 IBM에 의해 17억 달러(1조 9,400억 원)에 인수되었다.

다른 사례를 보면, 2005년 설립된 미국기업 오페라 솔루션(Opera Solutions LLC)에서는 220

여 명의 기계 학습(Machine Learning) 과학자들이 고객과 함께 작업해 특정 비즈니스 니즈를

해결하는 예측 프로그램을 개발하고 있다. 이 회사는 마치 컨설팅 회사처럼 보이는데, 고유의

데이터 분석 기술과 지적 자산이 회사 경쟁력의 원천이다. 모든 예측 프로그램은 이른바 ‘신호

(Signal)’에 기초하고 있는데, 이는 데이터 집합 속에서 발견되는 일종의 반복 패턴을 말한다.

예를 들어 고객이 특정 제품을 구매하는 신호나, 특정한 날에 부과할 수 있는 최적의 가격은

무엇인지를 찾아낸다.

Page 130: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

130

이 회사는 4만여 개의 신호를 보유한 라이브러리를 바탕으로 예측 프로그램을 개발하는데, 이

러한 신호의 예로는 고객의 가격 민감도, 특정 프로모션 유형의 영향도, 맞춤화된 경제 정보의

효과 등이 있다.

일본 자동차 제조업체는 소유권이 바뀌거나 임대 기간이 끝난 자동차를 경매하기 위해 이 시

스템을 사용하여 자동차 가치에 영향을 미치는 부분들을 여러 요소로 나누고 각 요소의 가치

를 책정한다. 그리고 이를 통해 경매를 위한 각 차량의 기본 가격과 최적 가격을 결정한다. 이

러한 정보는 경매 대리인에게 전달되어 기존 데이터에는 나타나지 않지만 최종 가격에 영향을

미치는 무형의 요소들(차에서 담배 냄새가 나는 것 등)을 통제할 수 있게 한다. 이 회사의 프

로그램을 활용함으로써 자동차 회사는 매년 경매로 팔리는 25만여 대의 차량에 대해 각 차량

당 약 150달러의 추가 수익을 올리고 있다.

의학 분야에서도 빅데이터로 새로운 사업을 창출하고 있다. 유전자 분석과 관련된 데이터 처

리 사업이 대표적이다. 이와 관련된 게놈 정보 처리 기술이 급속히 발전하고 있으며, 클라우드

컴퓨팅을 이용한 데이터 분석 기술의 가능성도 높아지고 있다. 중국의 베이징 게놈 연구소

(BGI)는 클라우드 컴퓨팅을 이용해 게놈 해독을 대행해주는 서비스를 시작했다. 엄청난 양의

게놈 해독 정보를 전 세계에 흩어져 있는 대형 저장 장치에 분산시켜 처리하는 방식으로, 온

라인에 방대한 데이터를 저장해 비용을 낮추고 해독 시간을 줄이겠다는 계산이다.

빅데이터 시대에는 첨단 기술과 상관없어 보이는 기업들도 데이터 분석 경험이 축적되면서

빅데이터 사업으로 진출하고 있다. 빅데이터 처리 과정인 데이터를 수집하는 부분에서부터,

데이터를 추출하고 저장하며 분석하는 데까지 한 단계 이상의 노하우가 축적된 기업들이

이러한 사업을 시도하고 있다.

2009년 아메리칸 익스프레스는 127개국의 9,000만 신용카드 소지자들로부터 나오는 구매

행태 정보를 활용하기 위해 전문 분석 및 컨설팅 회사인 ‘아메리칸 익스프레스 비즈니스 인사

이츠(American Express Business Insights)’를 설립했다. 이 회사는 고객 유치(Customer

Aquisition)와 유지(Retention)를 위해 자신만이 보유한 데이터를 활용하여 다이렉트 마케팅

을 시도하길 원하는 기업들을 목표로 하고 있다.

미국의 대표적인 대형 소매유통업체 시어스(Sears) 또한 2012년 4월 클라우드로 데이터 관리

및 분석 서비스를 제공하는 자회사 ‘메타스케일(MetaScale)’을 설립한다고 발표했다. K마트

(Kmart), 랜즈엔드(Lands’ End), 시어스 등 그룹 내 회사들의 내부 업무에 적용하기 위해 자

체 개발한 솔루션을 토대로 본격적인 데이터 분석 산업에 뛰어든 것이다.

Page 131: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

131

▶ 빅데이터로 기업의 비즈니스 모델이 바뀌면 소득 1위 직업도 바뀐다.

빅데이터에 의한 산업 및 비즈니스 모델의 변화는 결국 돈 잘 버는 직업 순위의 변화로까지

이어질 전망이다. 빅데이터 수요가 커지면서 일반적으로 소득이 높다고 알려진 의사나

변호사와는 다른 직종들이 뜨고 있다.

신문 보도에 의하면 2011년 미국의 직업 전문 포털사이트 커리어캐스트(Career Cast)가

200개 직업군을 분석해 발표한 최고의 유망 직종에서 수학자는 2위로 선정되었지만, 연평균

소득은 1위인 소프트웨어 엔지니어의 8만 7,140달러보다 높은 9만 4,178달러로 조사되었다.

현대 사회에서 수학이란 학문이 각광을 받는 것은 기술이 발달하고 세상이 점점 복잡해지면서

처리해야 할 정보의 양도 기하급수로 늘어나고 있기 때문이다. 넘쳐나는 데이터를 더 빨리,

효율적으로 분석하고 가공하는 기업이 경쟁의 우위에 서게 되는 것이다.

미국 시장의 사례를 살펴보면, 검색업체 구글의 수학자들은 검색어와 광고 클릭률로 향후 경

기를 예측하는데 그 정확도가 미국 통계청을 능가한다고 한다. 또한 미국 금융업계에서 가장

높은 연봉을 받는 제임스 사이먼스(James Simons)는 경제학자가 아닌 수학자이다. 74세의 전

직 수학 교수인 그가 1982년 창업해 현재 비상임 회장으로 있는 헤지펀드 ‘르네상스 테크놀

로지(Renaissance Technologies)’는 수학자, 통계학자, 물리학자, 천문학자, 컴퓨터 공학자들

이 만들어낸 매매 알고리즘에 의해 컴퓨터가 주식, 채권 등 유가증권의 가격을 예측하고 투자

하여 수익을 올린다. 이 투자회사의 대표 펀드 메달리온(Medallion)은 2009년 가장 수익률이

높은 헤지펀드 중 하나로 10억의 이익을 실현했으며, 한때 10년 누적 연평균 수익률이

2,478%에 달했다.

<자료 : “높은 평균 소득 보장하는 유망 직종은?” (2012. 4. 4). 《한국경제》;

<http://www.careercast.com/jobs-rated/10-best-jobs-2011>.>

2) 새로운 비즈니스 등장의 배경

기존 산업에서 제품이나 서비스가 빅데이터와 결합하면서 새로운 가치와 비즈니스를 창출하는

기회가 디지털 시대의 자연스러운 과정으로 나타나고 있다. 이에 더해 빅데이터는 스마트한

신규 사업들을 창출하고 있다. IBM은 빅데이터가 에너지, 교통, 생산 설비, 수자원 관리, 식품

공급, 환경 보존, 질병 예방, 의료 서비스, 주거 환경/미래 도시 등에서 새로운 유형의 스마트

비즈니스를 창출할 것으로 전망했다. 스마트 비즈니스는 무엇보다도 수많은 데이터와 스마트

기술에 기반을 둔 사업으로, 누가 더 스마트한지에 따라 사업 경쟁력이 결정된다. 빅데이터에

의한 새로운 비즈니스 창출은 다음과 같은 다섯 가지 기회의 확대 혹은 역량의 증가에 기인하

고 있다.

첫째, 고객 소비 행동은 물론 일상적인 행동에 대해 정보를 수집함으로써 고객의 행태를 반영

한 사업 기회가 늘어난다. 상품에 센서를 내장하면 기업들은 이들 제품의 이동을 추적할 수

있고, 심지어 이들 간의 상호작용을 모니터할 수도 있다. 비즈니스 모델들도 이러한 행태적 데

이터를 활용하기 위해 변경될 수 있다.

Page 132: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

132

코카콜라의 차세대 음료 자판기 ‘프리스타일(Freestyle)’은 각기 다른 맛의 125개 음료 판매

정보를 수집해 전송한다. 어떤 제품이나 맛이 어느 시간 동안 가장 인기가 있는지 그 정보를

본사로 보내는 것이다. 코카콜라는 이처럼 여러 곳에서 수집한 음료수 사용 데이터를 기존의

재고 정보와 통합해 적절한 시간대에 필요한 제품의 양을 파악하고, 심지어 센서가 부착되지

않은 판매기의 재고 관리에도 분석 정보를 활용한다. 특정 제품에 문제가 있어 판매를 금지시

키는 것도 본사에서 바로 지시할 수 있다. 앞으로 무인 판매기의 개념은 고객이 선택 가능한

모든 상품을 진열하는 것이 아니라 고객의 계절적, 사회적 취향 변화를 예측하여 잘 팔릴 상

품만을 상황에 따라 선택해 진열하는 것으로 더욱 스마트해질 가능성이 높다.

둘째, 상황 혹은 맥락 인식 능력이 향상된다. 이는 빅데이터에서 실시간 데이터와 상호작용 데

이터의 증가와 관계가 깊다. 기업들은 하부구조(도로나 빌딩)에 설치된 센서로부터 대량의 데

이터나 환경 상태(토양의 수분, 바다의 해류, 기상 상태 등)를 알려주는 시스템, 특히 센서들

이 첨단 디스플레이나 시각화 기술과 함께 사용되는 경우 실시간 사건에 대해 더욱 명확하게

인식할 수 있다.

보안요원은 비디오, 오디오, 진동 감지 장치를 결합한 센서 네트워크를 이용해 제한 구역에 들

어온 불법 침입자를 탐지할 수 있다. 이미 이러한 기술들 일부를 사용하는 첨단 보안 시스템

도 존재한다. 첨단 애플리케이션들이 개발되어 센서들은 점점 더 작아지고 성능도 강력해지며,

소프트웨어 시스템들도 수집된 정보를 분석, 표시하는 데 더욱 적합해지고 있다.

항공사나 운송사의 물류 관리자들은 이미 기상 상태, 교통 흐름, 차량 위치 등의 실시간 정보

를 시험적으로 활용하고 있다. 즉 교통 혼잡으로 생기는 비용을 줄이고, 네트워크의 효능을 향

상시키도록 즉각적인 경로 변경을 할 수 있다.

또 다른 애플리케이션에서는 경찰들이 총소리가 어디서 났는지 정확한 위치를 알려주는 소리

센서로부터 실시간 데이터를 얻을 수 있다.

모든 산업에서 앞으로 상황 인식 능력이 중요해질 것으로 전망되는데, 구글이 지급결제 사업

을 시도하려는 배경에는 이와 같이 모바일과 인터넷으로 수집된 사람들의 구매 행태 정보를

상업적으로 활용하려는 목적이 있다. 다시 말해, 기업들이 고객의 구매 상황에 맞춰 영업이나

마케팅 활동을 하는 것이 중요해진다.

셋째, 앞에서도 소개했지만 센서 중심의 자동화된 판단(의사결정)이 가능해진다. 인터넷으로

연결된 모든 사물은 장기간의 더욱 복잡한 계획 및 의사결정을 지원할 수 있어 사람을 완전히

대체할 가능성도 없지 않다. 빅데이터로 더욱 신속해지고 자동화된 의사결정을 활용하는 사업

도 유망한 분야라고 할 수 있다. 이는 데이터 분석을 위해 다양한 종류의 엄청난 데이터를 포

착하여 저장하고, 이들로부터 사람의 판단을 돕거나 대신할 정보를 자동으로 추출하는 기술의

발전 덕분에 가능해지고 있다.

Page 133: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

133

석유 및 가스 산업에서는 탐색 및 개발 단계에서 잠재적 유정의 위치나 구조 등을 더욱 정확

히 파악하기 위해 기존의 데이터 중심 방법보다 지구 표면에 배치된 대규모 센서 네트워크에

의존할 수도 있다. 그 성과로 개발 비용의 절감과 석유 배송의 개선이 예상된다.

소매업에서는 쇼핑하는 사람들이 여기저기 상점을 다니며 남긴 데이터들의 수집 및 처리 방법

을 일부 기업들이 연구하여 신용카드 등 소매 여신금융업에 적용할 가능성이 있다. 이를 위해

구매자들이 무엇을 구매하고 얼마나 오랫동안 상점에 머무르는지 센서 데이터와 비디오로 파

악할 수 있어야 한다. 이러한 데이터에 기초한 시뮬레이션으로 상점의 물건 배치를 최적화해

수익을 높일 수도 있다.

넷째, 자원 이용을 최적화하는 데 스마트화를 광범위하게 활용한다. 각종 자원의 최적화된 활

용도 빅데이터가 제공하는 새로운 사업 기회 중 하나이다. 네트워크화된 센서들과 자동화된

피드백 메커니즘으로 변동 요금제가 가능해져 에너지나 수자원과 같은 희소 자원의 사용 패턴

을 바꿀 수 있다.

미국의 PG&E(Pacific Gas and Electric)는 스마트 미터를 설치해 가정과 기업 고객이 시각 디

스플레이로 에너지 사용과 실시간 비용을 확인할 수 있게 한다. 사용량에 따른 기존 고정 요

금제는 하루에도 에너지 생산 비용의 변화가 크다는 사실을 반영하지 못한다.

반면 사용 시간대 요금제와 향상된 정보를 바탕으로 가정의 고객들은 요금 피크 시간대에 에

어컨이나 히터를 끌 수 있고, 기업 고객들도 에너지를 많이 소모하는 프로세스와 생산을 저비

용 시간대로 옮길 수 있다. 글로벌 에너지 산업에서는 데이터 센터들이 정보 피드백에 연결된

전력 관리 기법을 도입하고 있다.

일반적인 시설에서는 전 수명주기의 운영비용 가운데 절반이 전기요금이지만, 대부분의 관리

자들은 언제 어떤 상황에서 전기가 많이 쓰이는지 정확히 알지 못한다. 업무량에 따라 서버

에너지 사용이 제일 많은 시간대가 그때그때 바뀌기 때문에 그러한 사항을 파악하는 것이 쉽

지는 않다. 더욱이 많은 서버들이 일주일 24시간 내내 작동해야 하나, 대부분 특정 작업에 묶

여 있어 매우 제한적으로만 사용된다.

따라서 제조업체들은 컴퓨터의 과부하를 조정하고 사용량이 적은 서버와 저장 장치의 수요를

제거하는 소프트웨어를 도입하며, 각 서버의 전력 사용을 모니터하는 센서를 활용하고 있다.

다섯째, 복합적인 자동 시스템을 실현해야 한다. 빅데이터의 또 다른 기회는 불확실성이 높은

기존 분야에서 빅데이터를 활용해 불확실성을 줄이고 통제하는 것이다. 현재 불확실성이 높은

분야가 바로 빅데이터 적용 가능성이 큰 분야가 된다. 금융업 등 각종 분야에서의 위험 관리

가 대표적인 사례이다. 빅데이터 수집과 분석을 통해 예측 불가능한 상태를 신속하게 실시간

으로 파악하여 즉각적으로 대응하는 부분 또한 새로운 사업 모델을 만들고 있다. 이와 같은

기계에 의한 의사결정은 사람을 흉내 내지만 수준은 상당히 높다.

Page 134: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

134

자동차 산업이 네트워크 사업이 될 수도 있다. 각종 센서들을 부착한 자동차가 급박한 충돌을

감지해 회피 조치를 취하는 시스템을 개발하려면 주변을 인식하고 주위 다른 자동차의 움직임

도 파악하여 대응하도록 모든 센서 데이터를 실시간으로 취합해 분석해야 한다. 이때 차량과

그 차량이 주행하는 도중 주의해야 할 모든 대상들 간의 관계 조정은 네트워크를 분석하는 방

법과 유사하다. 실제로 구글 등 특정 기업이나 연구 조직들은 고속으로 지정된 경로를 사람

없이 운전하는 네트워크화된 자동차를 실험하고 있다.

종합하자면 지금까지는 기업이 서비스를 제공하는 위치(점포나 PC, 스마트폰 등)가 그 기업의

존재를 알리는 기회였으나, 고도의 유비쿼터스 시대와 연결된 빅데이터 시대에는 고객이 기업

과의 상거래 니즈를 느끼는 그 순간, 그 장소, 그 상황을 빅데이터 분석으로 포착하는 것이 기

회가 될 것이다.

고객이 요구하기 전에 먼저 알아서 고객의 니즈를 파악하고 서비스할 수 있는 것이다. 빅데이

터 환경에서는 고객이 어떤 사람인가가 중요한 것이 아니라, 고객이 어디를 다니면서 어떤 행

동을 하는지 빅데이터로 포착하고 대응할 수 있는가 하는 것이 더욱 의미 있다.

이처럼 빅데이터를 활용한 새로운 비즈니스 중 최근 다양한 혁신으로 신산업을 개척하고 있는

‘맥락/상황 인식 비즈니스’와 이를 스마트폰 내에서 구현하는 ‘스마트 모빌리티 비즈니스’, 그리

고 ‘자원 이용 최적화 비즈니스’에 대해 좀 더 살펴보자.

Page 135: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

135

1. 맥락/상황 인식 비즈니스

이전에는 기업에 있어 ‘유비쿼터스화’란 단순히 마케팅적인 의미로 고객이 언제 어디에 있든

가능한 모든 수단을 통해 접근한다는 뜻이었으나, 앞으로 고도화된 유비쿼터스 환경에서 업그

레이드된 스마트화는 고객의 맥락/상황을 실시간으로 이해하여 파악한 후 바로 대응하는 시대

를 열고 있다.

예를 들어 <그림 12-1>은 IBM이 ‘의료 서비스 산업을 위한 콘텐츠와 예측 애널리틱스

(Content and Predic tive Analytics for Healthcare)’ 솔루션을 통해 아기의 몸에서 초당 수천

개의 정보를 센싱하여 건강에 문제가 없는지 파악하는 동영상 화면이다.

<그림 12-1> IBM ‘Data Baby’ 유투브 동영상 화면

<자료 : http://www.youtube.com/watch?v=ZiqY7p1v950>

스마트 비즈니스로 유망한 의료 서비스 분야의 한 연구에서는 몸에 착용 가능한 센서들을 스

마트폰에 연결해 스트레스나 탐닉적 행태(예컨대 음주, 심전도, 호흡) 등 여러 가지 신체적,

정신적 신호들을 수집한다.

그리고 그 사람의 행태에 문제가 있으면 스마트폰의 소프트웨어가 자동으로 의사에게 이를 실

시간으로 통보한다.

<그림 12-2>은 미국기업 어펙티바(Affectiva)가 개발한 ‘Q-센서’로, 이를 착용하면 사람의 (기

쁨과 공포를 포함한) 스트레스 레벨이 모니터링되고 분석된다. 디지털시계처럼 생긴 이 센서

는 앞쪽 원 속에 색으로 스트레스 수준을 표시한다. 과학자들은 이런 센서를 이용해 숙면을

12차시 스마트 비즈니스의 유형

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

12차시 학습 교안

Page 136: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

136

취하는 방법에부터 게임 디자인, 식사 습관, 브랜드 디자인 등을 실험하고 있다.

<그림 12-2> 사람의 스트레스 수준을 측정하는 Q-센서

<자료 : http://www.affectiva.com>

이외에도 인텔에 따르면 빅데이터에 활용할 수 있는 센서로 자연 환경, 차량, 사람의 움직임

등 진동을 인지하는 ‘모션 센서(Motion Sensor)’, 온도와 습도, 풍속과 기압을 수집하는 ‘날씨

센서(Weather Sensor)’, 대기오염을 측정하는 ‘대기 센서(Air Quality Sensor)’, 사람의 습관을

수집하는 ‘생활 관리 센서(Life Management Sensor)’, 가정에서 에너지 사용 행태를 모니터

하는 ‘에너지 센서(Home Energy Sensor)’ 등이 있다.

맥락/상황 인식 비즈니스는 사물에 센서들이 내장되고 커뮤니케이션할 수 있는 능력을 갖추고

있다. 다시 말해, 빅데이터의 비구조적인 상호작용 데이터와 데이터 속도(velocity)의 변화로

인한 고객 대응 관계의 변화가 바로 이러한 비즈니스의 배경이 된다.

그 결과로 생긴 정보 네트워크는 새로운 비즈니스 모델을 창출하고, 비즈니스 프로세스를 개

선하며, 비용과 위험을 줄인다. 대부분의 조직에서 정보는 익숙한 경로를 오간다. 기업에서 생

산된 데이터들은 데이터베이스에 저장되고, 보고서로 분석되며, 보고 계통을 따라 전달될 수

있어야 한다.

과거에는 고객에 대한 분석 정보가 실제로 활용되기까지 어느 정도 시차가 있었지만, 빅데이

터에서는 정보가 발생한 순간에 바로 분석되는 기술적 환경이 가능하기 때문에 실시간 추적

등 고객 대응의 민첩성(agility)에서 큰 차이를 보이고, 그 자체가 새로운 기업 기회가 된다.

앞으로는 전자상거래의 비즈니스 모델도 단지 오프라인 거래를 온라인으로 옮기는 데 그치는

것이 아니라, 고객 상황을 실시간으로 분석해 고객과의 관계에서 다음과 같은 순간을 찾아내

고 대응해야 한다.

Page 137: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

137

⇒ 고객이 지금 무엇을 하길 원하는가? - 고객의 위치, 상태, 태도, 니즈에 기업의 대응 맞춤

⇒ 고객에게 현재 무엇을 더 구매하도록 추천할 수 있는가? - 상황에 따른 상향 판매 및 교차

판매

⇒ 고객이 현재 어떻게 상품/서비스를 사용하고, 또 사용할 수 있는가? - 고객의 상황에 맞는

사용자의 경험 및 상품 특징 제시

⇒ 고객 서비스 - 상황 및 고객에 대한 지식에 따라 온라인이나 콜센터 활동 및 행동 최적화

1) 맥락 인식으로 고객 의도까지 파악

빅데이터로 인한 새로운 가치의 시대에는 고객 중심이나 초점을 넘어 기업이 고객의 의도

(Customer-Obsessed)와 함께하는 마케팅이 필요한데, 가장 간단한 방법은 고객이 원하는 바

를 제공하는 것이다. 헨리 포드(Henry Ford)는 생전에 만약 사람들에게 원하는 것이 무엇인지

물으면 가장 빠른 말이라고 대답할 것이라 했다(당시 사람들의 주요 이동 수단은 아직 말이었

다). 포드 자신은 사람들에게 자동차를 제공할 수 있지만, 사람들은 자신의 문제 해결 관점에

서 자동차보다는 빠른 말을 원한다는 것이다. 즉 사람들은 기업에 무엇을 요구해야 할지 모르

는 경우가 더 일반적이라는 뜻이다.

고객들은 자신이 원하는 바를 구체적으로 요구하거나 표현하는 경우도 있지만, 표현하지 않거

나 못하는 경우도 많다. 고객 중심 경영이 고객이 구체적으로 요구하는 부분에 충실한 접근법

이라면, 고객의 의도와 함께하는 경영은 고객과의 상호작용을 높이고 빅데이터를 활용해 고객

의 잠재적인 혹은 숨겨진 의도까지 파악하는 접근법을 말한다. 고객의 의도와 함께하기 위해

기업들은 빅데이터를 활용하여 통찰력을 높임으로써 자사의 상품이나 서비스의 가치를 고객의

잠재된 욕구에 맞춰야 한다.

또 하나, 고객의 의도와 함께하기 위해서는 우선 고객 의도가 시시각각 변한다는 가정을 인정

해야 한다. 다음으로 고객 의도 변화를 실시간으로 파악하기 위해 소셜 청취 플랫폼, 고객 인

텔리전스 등에 투자해야 한다. 고객 경험을 즐겁고 가치 있게 만드는 문제도 고객 의도와 함

께하는 마케팅에서 중요하다. 고객 경험과 고객 서비스를 종합적인 경험으로 만들기 위해 여

러 채널에 걸쳐 빅데이터를 활용하는 방법이 실현되어야 한다. 인텔리전트한 판매 채널을 구

축하는 문제도 고객의 의도와 함께하기 위해 빅데이터를 활용하는 문제로서, 최종 사용자와

반복되는 비즈니스에 초점을 맞춘 고객 데이터베이스를 구축해야 한다.

그리고 앞서 맥락/상황적 서비스 제공에서 소개한 바와 같이, 인터랙티브한 콘텐츠와 마케팅

도 고객 의도에 맞춘 마케팅 전략이다(<표 12-1> 참조).

Page 138: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

138

<표 12-1> 고객 의도와 함께하는 마케팅을 위한 빅데이터 활용 분야

전략 과제 투자 변화

더 많이 필요한 부분 줄여야 할 부분 늘어나고 있는

부분

줄어들고 있는

부분

상품에 대한

실시간 고객

의 인식 정보

실시간 모니터링과

DB 분석을 결합한

통찰력으로 표출되지

않은 고객 니즈 탐색

느린 설문조사 중심의

리서치와 불특정 다수

에 대한 이메일 폭탄

소셜 청취 플랫폼,

고객 인텔리전스

전통적인 리서치

설문조사

고객 경험과

고객 서비스

여러 채널들에 걸쳐있는

고객 경험 그룹 지원

콜 숫자에 목표를 맞

춘 고객 서비스 인력

종합적인 고객 경험,

콜센터 트레이닝

단일 채널 고객

경험 프로그램

인텔리전트한

판매 채널

최종 사용자와 반복되는

비즈니스에 초점을

맞추고 고객 DB 구축

채널에서 밀어내기에

의한 매출 증대 풍부한 고객 DB

채널 영업

(Channel sales)

인터랙티브한

콘텐츠와

마케팅

인바운드 트래픽을

유발하는 콘텐츠 창출

및 고객이 참여하는

모바일 앱 구축

별 의미 없는 소셜 앱

및 광고 폭탄

목표 주도형 소셜 및

모바일 앱, 사이트

콘텐츠

단방향 광고

▶ 웹 출판의 판도를 바꾸고 있는 파스닷리(Parse.ly)

빅데이터는 웹 출판에서도 획기적인 변화를 가져올 것으로 보인다. 변화를 위해 엄청난 IT 투

자나 뛰어난 박사급 인력이 필요한 것도 아니다. 그저 소수의 인원과 클라우드 컴퓨팅, 그리고

빅데이터를 충실히 이해하고 있으면 된다. 그러한 가능성을 열고 있는 회사가 바로 파스닷리

(Parse.ly)이다.

파스닷리는 2012년 1월 설립된 미국의 신생 업체로, 8명의 직원이 출판과 관련된 웹 콘텐츠

분석 서비스를 클라우드 컴퓨팅으로 제공한다. 일종의 웹 애널리틱스 도구로 한 달 사용료가

약 500달러인 ‘대시(Dash)’라는 프로그램을 통해 어떤 콘텐츠에 사람들이 관심을 보이는지,

또 어떤 유형의 콘텐츠가 앞으로 유망한지 판단하고 예측한다.

물론 《뉴욕타임스》 같은 몇몇 출판 미디어 기업들은 자체적으로 디지털화된 기사에 인덱싱을

하여 콘텐츠를 엄격하게 관리하고, 데이터 과학자를 고용해 콘텐츠에 대한 접속 트렌드를 분

석하며, 분석된 정보를 시각적으로 표현하는 등 이미 빅데이터 활용법을 잘 알고 있다. 그러나

대부분의 출판사들은 빅데이터를 활용할 재정적, 기술적 역량이 부족하며 관심을 가질 만한

여건이 되지 못한다. 파스닷리는 바로 이런 출판사들을 타깃으로 한다.

편집자들은 파스닷리의 분석 도구를 이용하면 어느 웹사이트의 어떤 글이 독자들의 관심을 끄

Page 139: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

139

는지 알 수 있고, 관심 대상을 저자, 주제, 장르, 소개된 사이트, 등장 빈도의 추세 및 기타 지

표들에 따라 분류할 수 있다. 요컨대 출판사는 자사의 저자들과 기획 중인 주제가 등장하는

웹사이트가 어디이며, 그 출현 빈도 및 트렌드가 어떠한지 등을 분석할 수 있다. 또한 어떤 콘

텐츠가 어느 사이트, 어느 페이지에 있을 때 사람들의 관심을 불러일으키며, 최근에 어떤 주제

가 핫 이슈인지 등 다양한 정보를 얻을 수 있다.

더 구체적으로 보면, 출판사 편집자는 대시의 ‘웹에서의 트렌드(Webwide Trends)’ 기능을 이

용해 많은 사람들의 관심을 끌고 있는 주제의 인기 추세를 파악하고 새 책을 위한 최적의 저

자를 찾아 해당 주제의 인기가 떨어지기 전에 책을 출판할 수 있다. 다음 그림은 유명 저자들

의 인기도를 페이지뷰에 따라 나타낸 것으로, 저자 글(Posts)의 인기 상승 속도(Vel)를 함께

보여준다.

<자료 : <http://www.parsely.com>

나아가 파스닷리는 자사 고객들(TheAtlantic.com, PE.com, TheNextWeb.com,

Mashable.com, USNews.com 등의 잡지사)로부터 수집한 데이터를 이용해 특정 주제와 관

련해 어떤 일이 벌어지고 있는지 종합적으로 이해할 수 있도록 그 추이를 그래프로 정리하여

보여줄 수도 있다.

대시 같은 도구의 가장 큰 장점은 고객이 원하는 데이터 분석을 기본 시스템이 대신 해준다는

것이다. 대시는 아마존의 웹 서비스와 랙스페이스(Rackspace)의 클라우드 컴퓨팅 플랫폼을

통해 일관된 데이터 취합과 프로세싱이 가능하다.

대시를 통해 웹상의 콘텐츠를 분석하는 과정을 보면, 우선 첫 단계에서는 자사의 자연어 처리

시스템으로 콘텐츠의 텍스트를 읽어들여 저자, 장르, 및 기타 특징들을 파악한다. 그 다음, 이

Page 140: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

140

특징들을 토대로 콘텐츠의 유형을 분류하고 인덱스(콘텐츠의 키워드들 또는 이름표)를 달아

사용자가 특정 콘텐츠를 찾는 경우 쉽게 검색할 수 있도록 한다. 파스닷리는 한 고객을 위해

대략 한 달에 400만 개의 URL을 읽어들여 약 7억 페이지를 분석하는데, 이렇게 찾아내 분류

한 콘텐츠 주제만 해도 2011년 말 약 37만 7,000개에 달했다고 한다.

<자료 : GigaOM Pro (2012). “10 Ways Big Data Changes Everything”을 토대로 재구성.>

2) 새로운 파트너가 필요한 시대

빅데이터 시대에 데이터가 많다는 것은 그 만큼 데이터를 통한 기업 간 협력 기회가 많아진다

는 것을 의미한다. 최근 산업 생태계를 강조하는 이유도 기업 혼자서 고객이 원하는 모든 것

을 제공하기가 점차 불가능해지고 있으며, 산업 내 대표 플랫폼을 중심으로 기업들이 협력해

고객이 원하는 서비스나 환경을 제공하는 경향이 높아지고 있기 때문이다. 고객이 원하는 콘

텐츠의 창출도 콘텐츠 융합 요구를 증대시키고 있다.

생전에 스티브 잡스가 애플이 아이튠즈 스토어를 통해 음원을 판매할 수 있도록 대형 미디어

회사들을 설득하고자 온갖 노력을 다하고, 심지어 롤링스톤스나 U2와 같은 유명 뮤지션들의

협조를 구했다는 것은 이미 잘 알려진 사실이다. 그러나 이 문제에 대해 여러 가지 이상적인

모습을 기대하는 중에도 향후 10년간 해결되지 않을 것으로 보이는 문제는, 기술이 너무 복잡

해진다는 것과 상호 호환성이나 연결성의 문제는 여전할 것이라는 점이다.

아이튠즈도 마이크로소프트 윈도우 환경에서 서비스를 제공할 때 동일한 문제를 경험했다. 콘

텐츠의 제공도 채널 보유자들(대표적으로 애플)이 자신만의 고유 콘텐츠를 주장하는 폐쇄형

콘텐츠 시장, 소위 ‘폐쇄된 정원(Walled Gardens)’을 유지할 것이다. 그리고 여전히 규제 감

독, 프라이버시, 신뢰의 문제가 존재하며, 정보 소스들이 흩어져 있어 규모의 경제를 확보하기

어렵다. 반면 앞서 말한 빅데이터 내의 개인화/맞춤화 흐름은 더욱 가속화될 것이다.

다른 측면에서 보면 이러한 새로운 가치들은 산업과 제품 및 서비스 간의 융합화가 이루어지

는 과정이며, 융합화의 출발은 데이터의 융합화라고 할 수 있다. 다시 말해, 복합적인 서비스

를 위해서는 이종 산업 간의 교류가 필수적이며 데이터 교류가 바로 산업 간의 융합이 된다.

결국 빅데이터를 활용하기 위해 기업들이 다양해지는 외부 기관들과 효과적으로 협력 관계를

구축하는 일도 중요해지고 있다.

예를 들어 기업의 협력 대상들이 콘텐츠 제공자, 증강현실 및 사회적 위치(Social Location)

관련 데이터 공급자, 모바일 고객, 응용 프로그램 플랫폼 제공자, CRM-전자상거래 및 인터페

이스 관리업체, 보안업체, 웹 콘텐츠 관리업체, 통합 커뮤니케이션 및 협업 플랫폼 제공자 등

으로 다양해질 가능성이 높다(<표 12-2> 참조).

Page 141: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

141

<표 12-2> 빅데이터를 통해 가치를 창출하기 위한 새로운 파트너들

협력 대상자 사례 기업 주요 이슈

웹 콘텐츠 관리자 Apple, Google, Amazon,

Nokia, Vodafone, Facebook

2013년까지 2~3개 사와

관계 형성

증강현실, 사회적 위치

관련 데이터 공급자

Sense Networks, Tagwhat,

Wikitude, Foursquare

2015년까지 스마트폰 사용자의

30%가 증강현실 사용 예상

모바일 고객,

앱 플랫폼 제공자

Netbiscuits, Appcelerator,

Usablenet

모바일 웹, 텍스팅, 리치(rich) 앱

등을 지원해야 함

CRM-전자상거래 소통

관리 제공자 Digby, Demandware 고객의 의도에 초점을 둬야 함

보안업체 41st Parameters, VaildSoft 모델 중심의 보안

콘텐츠 제공자 IBM, OpenText 멀티 채널 상황에서의 이용은 추가

준비 작업 필요

통합 커뮤니케이션

및 협업 플랫폼 제공자

Cisco, Avaya, Microsoft,

Interactive Intelligence

작은 규모로 시작하나 잠재적으로

높은 통찰과 통제 필요

<자료 : Gartner (2011). “How Context Can Improve Your Customer Relationships.”>

이동통신사 NTT도코모는 맥락 정보를 수집하기 위해 SNS 업체인 트위터와 2011년부터 제휴

하여 실시간 트윗(Real-time Tweets™) 등 트위터 콘텐츠를 2012년까지 스마트폰의 ‘도코모

마켓(docomo market)’ 포털 검색 서비스 결과에 추가할 예정이다.

결론적으로 말해, 서비스 제공이 점차 더 고도화된 유비쿼터스 환경으로 변한다는 것은 기업

들도 비즈니스 모델에서 커다란 혁신을 이루어야 한다는 의미이다. 그리고 그러한 혁신은 외

부 기관들과의 협력 속에서 새로운 생태계를 구축하는 과제를 안고 있다.

물론 빅데이터 환경에서 가장 큰 혜택을 받을 곳은 구글, 마이크로소프트, 페이스북, 이동통신

사 등 ICT 업체들과, 기본적인 정보 요소들을 보유하고 있는 유통업체 및 금융기관이 될 확률

이 높다. 일부 진부한 면이 있지만 기존 산업에서 새로운 가치를 창출해 산업을 변모시킨 사

례들을 보면 미디어 산업의 아이튠즈, 넷플릭스(Netflix), 유튜브, 소매업의 아마존과 그루폰

(Groupon), 금융산업의 이트레이드(E-Trade)와 키움닷컴, B2B 서비스의 인포시스(Infosys)

같은 아웃소싱 업체 등을 꼽을 수 있다. 이들은 기존 산업의 질서를 파괴하는 변화를 가져왔

는데, 이러한 새로운 가치 창출자들은 대부분 빅데이터를 기반으로 한 혁신가들이다.

즉 기존 방식들로 만들어내는 가치로는 이제 고객을 붙잡기 어려우며, 산업의 파괴자들은 빅

데이터에 근거한 새로운 가치를 창출해 산업 자체를 정보산업으로 변모시키고 있다.

Page 142: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

142

▶ 지오비전의 상권 분석 서비스를 위한 데이터 협력

빅데이터 시대의 또 다른 추세는 데이터의 부가가치를 높이기 위해 여러 기관들 간의 협력이

증가하는 것이다. 빅데이터를 더욱 유용하게 활용하기 위해 여러 기관들의 데이터를 통합하려

는 시도들이 늘어날 전망이다.

SK텔레콤은 2012년 6월부터 상권을 분석하는 사이트/앱 ‘지오비전(Geovision)’을 개인들에게

무료로 제공하고 있다(법인 고객은 유료). 상권을 분석하기 위해서는 여러 기관들로부터 나오

는 매우 다양한 데이터 소스들을 통합해야 한다.

지오비전은 다음 표와 같이 자사 및 그룹사 데이터는 물론 현대카드나 KT 같은 경쟁사 데이

터 등 내부 및 외부 데이터를 통합해 특정 지역의 상권(예 : 경쟁업체, 시간대별 유동인구, 예

상 수요)을 분석하고 시각화한다.

DB 제공사 DB 내역 DB 특징 업데이트

주기

SK텔레콤 행정동 기반

유동인구 통계 정보

2,650만 가입자 중 기지국에 잡힌 가입자들의 실시간

이동 상황(유동인구 분포 및 특성) 분석 월별

SK마케팅

컴퍼니

행정동 기반

OK캐쉬백

패턴 분석 정보

3,400만 명 회원들의 포인트 적립 정보로, 지역 단위 생

활과 소비 패턴 등의 행태 분석 정보 월별

현대카드 행정동 기반

카드 평균 매출 221만 개 결제 데이터를 이용한 업종별 평균 매출액 월별

부동산

114

상권 정보 및

잠재 수요 DB

1만 4,000여 개소의 지역 정보를 바탕으로 상권별 시세

및 상권 정보, 주거용 부동산 DB를 통한 잠재 수요 정보 월별

선도

소프트

GIS Map

Solution Arc_GIS Solution -

한국

지하철공사

지하철 이용

인구 DB 지하철을 이용하는 고객들의 승하차 인원수 1년

외부감사

법인

외부 감사법인

DB

연 매출 100억 이상의 기업 리스트 및 개업, 폐업 기업

정보 월별

통계청

센서스

국민 총인구 및

주택 조사 대한민국 세대수 및 인구 조사 자료 5년

KTIS KT114 DB 전국 전화번호부 월별

한국창업

전략연구소 분석 주석 전문 컨설턴트 자문 수시

Page 143: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

143

<자료 : http://www.geovision.co.kr>

2. 스마트 모빌리티 비즈니스

IT 시장조사기관 가트너는 스마트폰을 중심으로 맥락/상황 인식 컴퓨팅이 진전되고 있는 현상

을 ‘스마트 모빌리티(Smart Mobility)’라 칭하고 있다. 이는 스마트폰에서 사용자에 대한 정보

를 활용해 상호작용의 수준을 높이는 개념이다. 최근 등장하고 있는, 맥락/상황 정보를 반영한

서비스들은 스마트폰으로 수집되는 맥락/상황 요인들(위치, 환경 등)에 관한 정보로 고객의 현

니즈를 예측해 더 정교하고 유용하며 상황에 맞는 서비스를 제공한다. 현실적으로 이는 스마

트폰, PDA나 다른 모바일 기기를 통해 고객의 현 위치나 상황 등 모든 정보에 기업이 접근할

수 있음을 의미한다.

스마트 모빌리티는 고객이 어떻게 의사결정을 하고, 계획하고, 커뮤니케이션하고, 조언을 받고,

관심을 가지고 움직이는지 따로따로 파악된 것을 모두 통합해 고객을 종합적, 입체적으로 이

해할 수 있음을 의미한다.

빅데이터에 의해 파악할 수 있는 맥락/상황 정보도 활동, 환경, 아이덴티티, 커뮤니티, 지식,

기기, 위치, 참석 등 다양해지고 있다(<그림 12-3> 참조).

Page 144: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

144

<그림 12-3> 다양한 맥략/상황 데이터의 활용

<자료 : http://www.atos.net/en-us>

현재 가장 많이 사용되는 상황 정보인 위치뿐 아니라 현재 무슨 활동을 하고 있는지에 관한

활동 정보, 내가 처한 환경(예 : 날씨)에 관한 환경 정보, 맥락에 따라 달라지는 ‘나’라는 주체

에 관한 아이덴티티 정보(예 : 가정에서는 가장이며, 직장에서는 특정 팀의 팀원), 내가 속한

커뮤니티 정보 등 다양한 맥락/상황 정보들을 활용할 수 있다.

휴대전화가 등장하기 전에는 소위 ‘삐삐’로 알려진 모바일 기기 페이저(Pager)의 시대였다. 당

시 이를 운영하는 이동통신사들은 고객이 특정 지역 내에 있는 경우, 그 지역 업체의 광고나

프로모션 메시지를 페이저로 보내곤 했다. 극장의 조조할인도 그 중 하나였다. 페이저 이용자

가 관심이 있건 없건, 시간이 되건 안 되건, 무조건 셀 내 고객에게 뿌리는 모바일 광고 전단

지였다.

가장 기본적인 맥락/상황 정보는 고객의 행동, 위치, 시각 등인데 이외에도 고객의 구매 의도

와 같은 인텔리전스에서부터, 사람의 주위 환경 및 공간을 인식하는 수준과 사람의 음성, 손과

몸동작으로 표현되는 감정 등의 정보까지 다양한 수준의 맥락/상황 정보를 활용할 수 있다(<

그림 12-4> 참조).

Page 145: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

145

<그림 12-4> 맥락/상황 경험의 진화 단계

<자료 : Forrester Research (2011). “The Future of Mobile Is Context.”>

맥락/상황 정보를 수집하는 기술들이 발전함에 따라 이를 활용하는 비즈니스들도 늘어나고 있

다.

NFC(Near Field Communication) 기술은 ‘구글 지갑(Google Wallet)’ 등 비접촉식 정보를 통

한 지급결제 분야에, 3D 카메라는 공간을 인식할 수 있어 물건이나 사람을 입체적으로 표현하

는 분야에 활용되고 있다. 음주 측정기 등 각종 화학물 센서도 이미 많이 쓰이고 있으며, 적외

선 탐지기 등은 자동 주차 등 차량에 활용되는 경우가 많다. 고도기도 GPS와 결합해 건물 내

사람 위치로 정보를 제공하는 데 활용할 수 있다(<그림 12-5> 참조).

Page 146: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

146

<그림 12-5> 맥락/상황 정보 생산을 촉진하는 기술들

<자료 : Forrester Research (2011). “The Future of Mobile Is Context.”>

1) 사례 1 우드애플의 스마트 모빌리티

이제 빅데이터와 스마트폰이 결합된 세상에서는 더욱 스마트한 방법으로 고객에게 접근한다.

이러한 사례 중 하나는 유럽 지역에서 주로 제공되고 있는 우드애플(Woodapples) 서비스로,

기본 아이디어는 모바일 기기에서 사용할 수 있는 구글 애드(Google Ads)와 같은 광고 플랫

폼을 제공하는 것이다.

서비스 제공자는 특정 예산, 시간대, 위치 반경 등에 맞춘 캠페인을 설정할 수 있다. 그러면

정보에 관심을 보이는 소비자들에게 특정 지역 내, 시간대에 마케팅 정보가 뿌려진다. 소비자

들은 자신의 니즈에 가장 적합한 마케팅 정보를 받을 수 있도록 자신이 선호하는 내용을 설정

하면 된다. 기업은 현재 자사 고객들이 가장 많이 이용하며 가장 적절히 정보를 전달할 수 있

는 SNS를 선택할 수 있다.

오스트리아 빈에 새로이 문을 연 채식 전용 식당은 그 지역을 오가는 사람들을 고객으로 만들

기 위해 우드애플로 접촉이 된 사람들에게 한정판 특별 메뉴를 트위터로 제공한다. 우드애플

은 즉시 특정 사용자에게 맞춤 서비스를 제공하기 위해 맥락/상황 정보와 선호도 정보를 모니

터하여 반영한다.

Page 147: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

147

<그림 12-6> 우드애플의 개념 및 스마트폰 화면

<자료 : http://www.woodapples.com>

우드애플에서 광고주들은 사진, 파일, 동영상을 추가하거나 어느 정도의 반경에서 광고를 보여

줄지 선택할 수 있다. 이는 이전의 ‘삐삐 광고’보다 훨씬 세련된 방법으로, 동일한 쇼핑몰 안의

모바일폰 사용자들이라도 각자 다른 정보를 받아보게 된다. 모바일 스크린에는 적절한 정보들

이 모두 나타나는데, 이를 위해 우드애플 사용자가 처한 상황을 인식하여 이해하고, 개인의 취

향을 반영해 맞춤화된 정보를 고객의 상황과 위치에 따라 제공한다. 추가 정보는 우드애플의

모바일 웹사이트에서 볼 수 있다.

우드애플은 모바일폰에서 사용자 개인정보와 행태정보를 추출해 이를 바탕으로 사용자 프로파

일을 만들어낸다. 그 외에도 위치 및 날씨와 같은 상황 정보도 반영한다.

이러한 정보들을 바탕으로 맑은 날 우산 할인 쿠폰을 받지 않게 하고, 고객과 관련 있으면서

잠재적으로 관심 가질 것만을 제공한다. 결과적으로 이는 더 이상 스팸 광고가 아니다.

고객은 자신의 이해와 부합되며 평소의 습관이나 행동하는 방식과 크게 다르지 않은 범위 내

에서 새로운 정보를 제공받는다.

Page 148: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

148

2) 사례 2 애플의 앱, 시리 스마트 모빌리티

애플이 아이폰4에서 제공하기 시작한 음성 인식 서비스 ‘시리(Siri)’는 음성으로 ‘근처 이탈리아

식당 찾기’, ‘예약하기(식당 이름만 알면)’, ‘택시 부르기’, ‘최신 영화 목록 가져오기’ 등을 할 수

있다. 즉 문자나 음성으로 입력되는 일반적인 영어 표현(“맷 데이먼이 나오는 영화표 구매해

줘”)을 이해한다. ‘내 사무실’, ‘우리 아파트’, ‘내 여자 친구 집’ 등 자세한 개인정보를 기억하고

있어 한 번 이상 되묻지 않는다. 신용카드 정보도 일단 입력해놓으면 상품을 구매할 때 사용

자 대신 거래를 처리한다.

<그림 12-7> 애플의 음성 인식 서비스 ‘시리’

<자료 : http://www.apple.com>

이를 위해 시리는 위치 상황 정보(집 근처인데…)는 물론 시간 상황 정보(이번 주에는…), 대

화 상황 정보(부산 날씨가…), 과업 상황 정보(저녁 준비 중인데…) 등도 활용한다. 요컨대 사

람의 말을 이해할 뿐 아니라 심지어 표현하지 않은 의미까지도 파악한다. 그래서 “근처에 좋

은 이탈리아 식당 없을까?”라고 사용자가 물으면 시리는 “몇 군데 있군요”라고 답한다. 사용자

가 “그런데 피자는?”이라고 ‘식당’과 관련 없는 말을 해도 시리는 지금 식당에 관해 대화하고

있음을 기억하고 피자를 판매하는 이탈리아 식당을 찾아준다.

애플의 시리와 유사하게 일본 NTT도코모도 2012년 2월부터 기존 휴대전화 기능 중 하나인

i-concier(일종의 개인 비서)의 음성 인식 및 맥락 이해 스마트폰 버전인 ‘Shabette

Concier(말하는 컨시어지)’ 앱을 고객에게 무료로 제공하고 있다. 일본이 자체 개발한 음성 인

식 엔진 ‘ATR-Trek’을 탑재해 수십만 단어에 대한 인식률이 90% 이상이라고 알려졌으며, 사

Page 149: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

149

용자의 음성 명령만으로 다양한 정보 서비스와 스마트폰 내부 기능을 직관적으로 이용할 수

있다. 사용자가 음성으로 입력한 내용을 주요 콘텐츠 공급자가 제공하는 양질의 콘텐츠 중에

서 사용자 ‘의도’에 맞게 분석해 질문에 맞는 답변을 화면에 표시해주는 서비스인 셈이다. 현

재 맛집/레시피, 교통 환승, 지도, 날씨, 상점, 병원, 이미지/동영상/음악, 뉴스, 게임 콘텐츠,

앱, 책/만화 콘텐츠 등의 정보 서비스 및 전화, 이메일, 카메라, 메모, 스케줄, 알람, 타이머,

음악 플레이어 등의 기능과 연계할 수 있다.

또한 사용자의 질문에 위키피디아를 검색해 답을 하기도 하고, 첫 버전 이후 자동 번역 서비

스를 추가해 일본어 음성을 한글로 번역할 수도 있다. 특히 사용자의 음성 명령을 인식하는

데 필요한 복잡한 데이터 분석을 애플 아이폰처럼 스마트폰 내에서 처리하는 것이 아니라, 통

신 네트워크를 통해 NTT도코모 본사의 컴퓨터로 보내어 그곳에서 처리함으로써 사용자들은

단말 기종에 상관없이 정확하고 빠르게 음성 인식 서비스를 받을 수 있다는 점(소위 클라우드

서비스)을 부각시키고 있다.

3. 자원 이용 최적화 비즈니스

빅데이터에 따른 새로운 비즈니스로 부각되고 있는 또 다른 분야는 자원을 효율적으로 활용하

기 위한 인텔리전트 시스템이다. 즉 스마트 시스템 스스로 알아서 자원 이용을 최적화하는 비

즈니스들이 늘어나고 있다. 인텔리전트 시스템은 센서들을 부착한 객체들이 상호 연결되고, 소

프트웨어가 사람이나 기기의 사용 상태나 행태를 조종해 자원 활용을 극대화한다.

클라우드 컴퓨팅, 위치 기반 서비스, SNS 등과 결합된 인텔리전트 시스템은 기업들이 네트워

크 제일 바깥에 있는 최종 고객에게까지 접근할 수 있게 하여 이들도 자원 활용에 참여시킨다.

각종 앱이나 SNS를 이용하는 스마트폰 사용 고객과 기업이 연결되는 것이다. 스마트폰과 같

은 기기들의 보급 확대는 바로 데이터 처리 능력이 있으며 인터넷으로 상호 연결될 수 있는

인텔리전트 시스템이 우리 생활 속에 보편화된다는 의미이다.

이들 인텔리전트 시스템의 특징은 자체적으로 데이터를 생산하고 더 나아가 자신들끼리 데이

터를 교환한다는 것이다. 이는 고객과 기업, 그리고 고객의 기기와 기업의 기기가 항상 연결되

어 데이터를 교환함으로써 상호 이해를 높이고 즉각적인 반응/대응이 가능하다는 뜻이다.

기업은 인텔리전트 시스템을 통해 고객이 자사의 상품이나 서비스로 얻는 경험이 일관되고 최

상이 되도록 모니터하고 조정할 수 있다. 바로 뒤에 나오는 에너지 산업의 변화가 대표적이다.

이러한 자원 이용과 관련된 스마트 비즈니스는 에너지 산업은 물론 건설업에서도 나타나고 있

다. 특히 스마트 빌딩 사업은 고도화된 자동화와 통합으로 빌딩의 운영 및 유지를 측정, 모니

터, 통제, 최적화하는 것을 의미한다. 스마트 빌딩은 내외부의 각종 센서로부터 나오는 다양한

데이터 스트림에 반응해 일련의 빌딩 활동들을 실시간으로 적응시키고 통제하는 시스템이다.

Page 150: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

150

1) 사례 1 고객의 에너지 절약을 유도하는 PG&E

빅데이터의 활용 효과가 가장 클 것으로 예상되는 산업은 아마도 전력 및 수도와 같은 유틸리

티 산업일 것이다. 보고서에 따르면 미국에서만 5,200만 달러의 투자로 12억 달러의 비용 절

감을 예상한다. 전문가들은 가정에서 사용하는 전력의 20%가 낭비되고 있다고 주장한다. 그

리고 사람들이 평소 행동(밤에 스테레오 끄는 것을 잊거나, 에어컨을 22도에 맞춰놓는 일)으

로 생기는 비용을 인식할 수 있다면 자신의 행동에 여러 가지 작은 변화(스테레오를 타이머로

작동하거나, 에어컨을 26도에 맞춰놓는 일)를 줄 것으로 생각한다. 전문가들은 이러한 자발적

행동들이 모이면 평균 전기 요금을 반으로 줄일 수 있다고 주장한다.

무선 네트워크와 연결된 PG&E의 스마트 미터(SmartMeter™)는 가정에서 전력과 가스의 사

용을 15분 단위로 점검한 다음, 라디오 신호를 이용해 데이터를 각 지역의 접속 포인트를 거

쳐 PG&E 본사로 전송한다. 본사와 상용 통신 네트워크로 연결된 지역 접속 포인트에서는 데

이터를 통합하고 암호화한다(<그림 12-8> 참조).

<그림 12-8> PG&E의 스마트 미터

<자료 : PG&E (2011). “PG&E’s SmartMeter™ Program.”>

스마트 미터기에서 접속 포인트까지는 라디오 신호 주파수로 데이터를 보내는 RF(Radio

Frequency) 기술 및 메시 네트워크(Mesh Network)를 사용한다. 메시 네트워크란 복수의 와

이파이 접속 포인트를 이용해 매우 거대한 광대역 네트워크를 형성하는 것이다. 결국 이와 같

은 통신 시스템 덕분에 스마트 미터기와 본사 중앙 통제 시스템 간에는 양방향 소통이 가능하

다.

Page 151: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

151

본사로 전송된 데이터들을 분석하는 문제는 간단하지 않다. 과거 전력 미터기에서는 주로 월

단위나 연 단위로 미터기의 데이터를 읽었으나, 이제는 15분 단위로 읽는다. 스마트 미터기

하나가 수집하는 데이터의 양은 연간 약 150메가바이트에 달한다. 2012년 현재 약 1,000만

개의 스마트 미터기로부터 데이터를 수집, 분석하고 각 가정에 분석된 정보를 보내는 것은 기

존의 데이터 관리 방식으로는 불가능하다.

스마트 미터기로부터 나오는 엄청난 양과 속도의 데이터를 활용하기 위해 PG&E는 새로운 데

이터 처리 방식이 필요했다. 데이터를 중앙에 통합 저장하기보다는 시스템들 간의 연결성과

확장성을 염두에 두고 분산 저장하며, 이들을 네트워크로 연결해 데이터를 분석한다. 소위 센

서(스마트 미터기)로부터 수집된 데이터를 관리하는 시스템인 MDMS(Meter Data

Management System)를 사용하며, 수집된 데이터는 데이터 내용에 따라 ‘전력 사용량’, ‘가스

사용량’, ‘비용 청구’ 등 각기 다른 여러 데이터베이스에 저장, 분석된다.

이와 같은 스마트 미터 기술과 빅데이터 분석 덕분에 가정의 전력 사용자들은 바로 전날까지

가스 및 전기를 얼마나, 언제 사용했는지 파악할 수 있다. PG&E 웹사이트에서 ‘나의 스마트

미터(My SmartMeter™)’로 들어가 등록하면, PG&E는 사용자의 전력 사용을 계산하고 그 속

도가 위험 수준에 도달하면 월간 사용료가 청구되기 전에 경고해준다. 또한 자신의 전기 사용

행태를 분 단위로 파악할 수도 있다. 즉 스테레오 전원을 끈 후 이 웹사이트에 다시 들어가보

면 에너지 사용이 줄어든 것을 확인할 수 있다.

이처럼 ‘나의 스마트 미터’는 전기 절약을 위해 맞춤화된 제안을 할 수 있다(<그림 12-9> 참

조). 또한 비슷한 규모의 다른 가정과 비교함으로써 에너지를 낭비하는 가정이 스스로 문제를

인식하게 해준다. 앞으로 집주인이 월간 에어컨 사용 금액을 설정하면 이를 바탕으로 에어컨

의 작동 시간을 조절해주는 프로젝트도 구현할 계획이다.

Page 152: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

152

<그림 12-9> ‘나의 스마트 미터’ 로 사용자의 에너지 사용 현황과 특징 파악

<자료 : PG&E (2011). “PG&E’s SmartMeter™ Program.”>

여름 오후에 전기료가 올라갈 것으로 예상되면 그 시간 전에 자동화된 에어컨이 미리 집을 시

원하게 해놓는 것이다.

결국 에너지 산업도 빅데이터를 이용한 스마트 비즈니스로 변모하면서 정보를 바탕으로 한 부

가가치 서비스 경쟁은 더욱 치열해질 전망이다. 멀지 않은 미래에 대형 유통점 진열대의 상품

가격이 자동으로 업데이트된다든가 하는 것처럼 센서들이 스마트해지고 이들 간에 통신이 가

능해지면서 비즈니스의 방식 자체가 변할 수 있다. 그렇게 되면 기업들은 데이터를 수집, 분석,

활용하는 기존 방식을 혁신적으로 바꾸지 않으면 안 된다. PG&E 사례에서와 같이 좀 더 광범

위하면서도 섬세하고 즉각적인 방식으로 데이터를 활용해야 할 것이다.

Page 153: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

153

1. 산업별 빅데이터의 예상 효과

빅데이터가 앞으로 산업 전반에 큰 영향을 줄 것이라는 점은 모두가 예상하는 바이다. 다만

그 영향이 산업별로 차이가 날 것이라는 전망이다. 맥킨지는 빅데이터가 산업별로 어떻게 영

향을 줄지 그 전망을 <그림 13-1>과 같이 구분했다.

<그림 13-1>의 Y축은 ‘2005~2008년 사이 미국 내 생산성 증가율’, X축은 ‘빅데이터의 산업

내 가치 창출 기여 잠재력’을 나타내고 있다. 여기서 새로운 가치를 창출할 가능성이 높다는

것은 데이터를 효과적으로 활용할 수 있는 환경과 산업 내 경쟁의 정도를 반영한 지표이다.

이에 따르면 빅데이터에 의한 생산성 향상이 클 것으로 예상되는 산업은 정보산업, 컴퓨터/전

자제품, 제조업, 금융업, 공공 부문 등이며, 새로운 가치를 창출할 가능성이 높은 산업은 정보

산업, 금융업, 공공 부문 등이다.

이러한 빅데이터의 산업별 영향의 차이는 각 산업의 데이터 환경뿐 아니라 산업 특성에 따라

서도 결정될 전망이다. 클라우드 데이터 스토리지 업체 EMC는 생성되는 데이터의 양과 수집

및 분석의 용이성 정도가 다르면 빅데이터의 영향도 다를 것이라고 예상한다. 이에 따르면 금

융업, 바이오테크, 미디어 산업, 석유 및 가스 산업, 정부 연구 개발 등이 빅데이터의 혜택을

받을 것으로 예상된다.

<그림 13-1> 산업별 빅데이터 예상 효과

<자료 : US Bureau of Labor Statistics; McKinsey&Company (2011). “Big Data : The next frontier

for innovation, competition, and productivity.”>

13차시 산업별 빅데이터의 활용 동향

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

13차시 학습 교안

Page 154: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

154

그러나 빅데이터의 영향을 파악하기 위해서는 단순히 생성되는 데이터의 기술적 요소뿐 아니

라 각 산업의 비즈니스적인 특성도 살펴봐야 한다. 앞서 논의한 바와 같이 빅데이터는 기업의

생산성과 의사결정 그리고 신규 비즈니스에 영향을 미칠 것으로 전망되는데, 이러한 세 가지

변화도 산업의 특성에 따라 그 정도가 다를 것으로 예상된다. 물리적 대상보다는 디지털화된

정보나 서비스를 다루는 산업일수록 빅데이터의 영향이 클 것이다. 이에 더하여 사람, 원자재,

상품, 돈, 정보 등의 움직임이 많고 복잡한 산업은 생산성 향상 기회가 많을 것으로 예상된다.

고객의 충성도가 낮으며 취향 변화도 상대적으로 빠르고 큰 산업일수록 고객의 행동을 예측하

고 이에 대응해 의사결정을 할 기회가 많아질 것으로 전망된다. 고객이 쉽게 이곳 저곳으로

옮겨 다니며 유행에 민감한 산업은 고객을 붙잡기 위해 데이터 분석에 의존하는 경향이 높아

질 것이다. 이런 산업에서는 기업들이 데이터를 분석해 어떤 가치를 제안하면 고객들이 반응

을 보이는지 실험하고, 이를 근거로 의사결정을 하는 경향이 높아진다.

사업 환경이 이와 같은 인터넷 기업들은 이미 고객의 행동 및 선호도를 예측하는 데 빅데이터

를 활용하고 있다. 오프라인에서는 글로벌 경쟁력이 있는 소매유통업이나 통신산업, 소매금융

업 등에서 빅데이터를 토대로 스마트하고 신속한 의사결정을 내리는 것이 중요한 경영 방식으

로 자리 잡고 있다.

마지막으로, 장치 집약적이 되서 자동화 수준이 높아지고 디지털 데이터 수집도 용이해지는

산업에서 빅데이터를 이용한 비즈니스 모델의 혁신 등 신규 사업의 창출이 예상된다. 다른 산

업에 비해 오랫동안 데이터를 수집하고 분석하는 노하우가 쌓인 기업들은 자신의 장점을 사업

화하는 데 관심이 많다. 기존의 인터넷 기업이나 소매유통업, 금융업 기업들, 그리고 센서의

보급이 많아지는 분야에서 이러한 신규 사업체가 나올 가능성이 높다.

현재까지 센서는 유틸리티(전력, 수도)와 자동차 업체에서 사용하는 경우가 많으나, 신체에 붙

이는 새로운 센서나 다양한 기능의 센서들이 나옴으로써 기존에 존재하지 않던 스마트한 비즈

니스들이 등장할 것으로 기대된다.

Page 155: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

155

2. 산업별 빅데이터의 영향 전망

다음 표는 각 산업별로 빅데이터의 영향을 전망하고 있다.

<표 13-1> 산업별 빅데이터의 영향 전망

1) 제조업

제조업의 생산성 향상 가능성은 다른 산업들과 비교해 크지 않을 것으로 전망된다. 이는 그

동안 제조업에서 정보기술 및 자동화로 인한 생산성 향상이 어느 정도 성숙되었음을 의미한다.

즉 제조업체들은 이미 ERP나 SCM 등 기존 정보기술로 상당 부분 생산성이 향상되고 있다.

다만 제조 기반이 한 지역에 집중된 기업보다는 글로벌한 공급사슬에 연계된 제조업체들이 빅

데이터를 활용해 생산성을 높일 것으로 전망된다. 이들은 전 세계에 걸친 재고, 생산, 유통 관

리에 각종 데이터와 센서를 활용해 생산성을 높일 수 있을 것이다. 앞서 지적한 바와 같이, 공

급사슬이 길고 복잡하며 범위가 넓을수록 물리적인 제품의 이동 비용 및 시간을 각종 유형의

데이터로 관리할 기회가 많기 때문이다.

이외에도 글로벌 기업들은 은행과 연계된 ‘글로벌 금융 공급사슬 관리’라는, 자금의 흐름을 관

리하는 분야의 발전으로 또 다른 측면에서 제조업 생산성이 향상될 기회를 맞고 있다. 이는

주로 글로벌 대기업들(예 : GE, GM, 지멘스 등)이 주력하고 있는 생산성 향상 전략 방법으로,

비구조적 데이터인 각종 국제 상거래 및 금융 지원과 관련된 문서들의 전자적 글로벌 표준화

(예 : ISO 20022)의 진전 정도에 따라 많은 변화가 있을 것으로 전망된다.

제조업에서 앞으로 빅데이터를 이용한 의사결정 분야는 더욱 발전될 전망이다. 이는 기업들에

도입된 기존의 POS, ERP, SCM, CRM 등으로부터 나오는 수많은 빅 거래 데이터들을 방치하

지 않고 기업 경영에 활용하는 문제와 직결된다. 따라서 재고 관리, 유통 관리, 생산/품질 관

리 등에서 문제의 감지나 예방 등에 빅데이터를 활용하는 일이 늘어날 전망이다. 고객과의 ‘공

동 개발(Co-Creation)’ 등 고객이 신제품 개발과 문제 해결에 웹상으로 실시간 참여하는 경향

Page 156: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

156

이 높아지는 추세도 빅데이터가 제조업체의 의사결정에 영향을 미치고 있는 부분이다.

제조업은 금융업이나 소매유통업 등 다른 산업에 비해 최종 고객과 직접 접촉하는 경우(좀 더

다양한 고객 데이터를 수집하는 기회)가 적기 때문에 데이터 분석을 통해 신규 산업을 창출하

는 기회가 상대적으로 제한적일 것이다.

2) 금융업

금융업은 그 자체가 정보산업으로서 다른 어느 산업보다 곳곳에 빅데이터의 영향이 클 것으로

전망된다. 생산성 향상 부분에서도 마찬가지이다. 다만 비구조적 데이터와 함께 기존의 정형화

된 데이터를 활용하는 부분도 중요하다는 점이 다른 산업과 다르다고 할 수 있다.

돈 자체가 데이터이며, 금융거래 자체도 데이터이기 때문에 종이 서류를 줄여 생산성을 높일

기회가 금융산업에는 존재한다. 특히 거래가 빈번한 주식 등 유가증권 시장이 어떻게 전자화

되느냐와 종이 지폐가 디지털 화폐로 얼마나 대체되느냐에 따라 이러한 생산성 향상 기회는

더욱 커질 수 있다.

각종 위험 관리와 마케팅에서 빅데이터 경영 혁신이 기대되는 산업도 금융업이다. 금융기관들

의 상품과 서비스 차별성이 점차 감소하고, 개방화로 외국 기업들과 새로운 경쟁이 심화되고

있어 고객층별로 맞춤화된 서비스를 제공하는 데 빅데이터를 활용하는 비중은 더욱 높아질 전

망이다.

반면 주가, 금리, 채권, 환율 등의 금융 중개시장에서는 예측력이 바로 돈으로 연결되기 때문

에 앞으로 기존의 구조적 데이터 이외에 뉴스, SNS 등의 비구조적 데이터를 통한 시장 예측

이슈가 더욱 주목 받을 것이다. 또한 디지털 지급결제 분야는 이제 기존 금융기관보다 벤처기

업들에 의해 생태계가 바뀌고 있어 스마트한 신규 금융사업의 확장도 기대된다.

이러한 분야는 ‘구글 지갑’과 같은 NFC 사례에서 볼 때 앞으로 유통업 등 다른 산업과 금융업

의 융합이 가장 활발한 분야로서, 빅데이터에 의한 새로운 사업의 탄생이 빈번 해질 것으로

전망된다.

3) ICT산업(IT+통신산업)

두말할 것도 없이 ICT산업은 빅데이터의 실험장이 될 가능성이 높다. 모든 빅데이터 경영 혁

신 분야에서 ICT산업은 다른 산업들을 선도할 것으로 예상된다. 콜센터 등 일상적인 업무 처

리에서 점점 사람이 개입하지 않는 현상이 ICT산업에서 진전되고 있어 생산성 향상 기회는 어

느 산업보다 높다.

ICT산업 기업들, 특히 최종 소비자를 상대로 비즈니스를 하는 기업들에는 빅데이터가 피할 수

Page 157: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

157

없는 과제이다. 그만큼 이들이 수집하는 데이터는 많으나 항상 활용이 문제가 된다. 이동통신

업체의 경우, 이탈 가능성이 높은 고객을 사전에 파악하고 대응하는 분야에서 주로 활용하고

있다(의사결정).

ICT산업에서는 좀 더 부가가치가 높은 분야에 빅데이터를 활용하는 문제가 남아 있다. 최근의

흐름을 보면 통신 대기업들이 많은 데이터를 보유하고 있지만, 그 활용 방법을 고안하는 기업

들은 주로 벤처기업들이다. 이 분야에서 관건은 궁극적으로 빅데이터를 활용해 새로운 비즈니

스 모델을 창출하는 일이 될 것으로 예상된다.

특히 통신업체들과 인터넷 기업들은 인프라 산업에서 벗어나기 위해 빅데이터 분석으로 다른

업체들과 차별화된 서비스를 창출하고 새로운 수익원을 발굴하는 것이 앞으로의 핵심이 될 전

망이다.

결국 향후 ICT산업의 기업들은 기술 개발로 삼성전자나 애플과 같은 기업이 되거나, 아니면

빅데이터를 적극 활용하는 구글이나 페이스북과 같은 곳이 되어야 하는 선택의 기로에 설 것

이다.

4) 소매유통업

소매유통업은 유행에 민감한 사업이다. 자라(Zara)나 H&M의 패스트 패션(fast fashion) 사례

에서 보듯이, 유통업은 그 어느 분야보다도 고객의 수요와 취향 변화를 빨리 파악하고 대응하

는데 빅데이터를 중요하게 활용한다.

아마존, 테스코, 베스트바이, 월마트 등 빅데이터의 선두주자들은 빅데이터의 중요성을 이미

다른 산업에 전파하고 있는 개척자들이다. 즉 의사결정의 스마트화가 결국 유통업의 경쟁력을

결정할 것으로 예상된다. 테스코가 과거 대기업병에 걸린 공룡에서 친근한 동네 모퉁이 구멍

가게로 돌아가는 데 빅데이터가 결정적인 역할을 했듯이, 점차 유통업에서 고객이란 빅데이터

속에 먼저 존재하는 대상이 되고 있다.

애플 아이폰4에만 8개의 센서, 즉 가속도계(accelerometer), 근접센서(proximity sensor),

GPS, 환경광(am bient light), 이중마이크로폰(dual microphones), 이중카메라(dual

cameras), 나침반(compass), 자이로스코프(gyroscope)가 내장되어 있다. 이들 센서로부터

수집된 데이터는 사용자가 알게 모르게 기업들의 손으로 흘러 들어간다. 이와 같이 사람의 행

동과 반응을 포착하는 센서들을 기꺼이 사용하는 고객들 덕분에 기업들은 고객에 대한 통찰력

을 높이고 있다.

또한 유통업은 수많은 외부 협력업체들과 소위 공급사슬 관리로 연결되어 있다. 복잡한 관계

속에서 생산성 향상은 유통업체의 선택이 아닌 필수 과업이다. 유통업은 재고와의 싸움이기

때문에 이를 해결하는 데 빅데이터가 중요한 역할을 한다. 앞선 사례들에서 보듯이, 역시 센서

기술이 생산성 향상에 크게 기여하고 있다. 산업의 특성상 물리적인 제품이나 원자재의 비중

Page 158: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

158

이 높아 생산성이 급격히 향상될 기회는 상대적으로 크지 않다.

5) 공공 부문

사실 빅데이터의 효과가 가장 단기간 내에 가시적으로 나타날 분야 중 하나가 공공 부문이다.

국가의 자원을 효율적으로 활용하는데 빅데이터를 도입하는 것은 상대적으로 용이한 문제라고

예상된다. 이미 세계 여러 나라에서 빅데이터를 적극적으로 도입하려는 이유도 여기에 있다.

전력 및 수자원 생산을 효율적으로 관리해 국민들의 부담을 줄일 수 있다면 빅데이터는 누구

에게나 환영 받을 것이다. 특히 공개 된 인터넷 정보를 기업의 사적 이익이 아닌 국민들의 공

적 이익에 사용하는 것이 법률적으로 용인되는 추세이다. 따라서 다른 산업에 비해 제약이 덜

하다는 점도 공공 부문에서 빅데이터가 활용될 가능성을 높이고 있다.

그리고 공공 부문에서는 흙먼지 나지 않는 청계천 복구 사업이 도처에 널려 있다.

교통 문제, 치안 문제, 대기오염 문제, 에너지 문제 등 사업 규모만 충분하면 빅데이터 효과가

예상된다. 특히 교통과 치안 문제는 빅데이터를 토대로 한 의사결정 시스템을 도입함으로써

교통량과 사고를 줄이고 범죄를 예방하는 등 개선의 여지가 클것으로 전망된다.

현재 정부 각 부처에서 국민들에게 빅데이터를 활용한 각종 민원 및 행정 서비스를 경쟁적으

로 계획하고 있듯이, 공공 부문에서 새로운 고객 가치를 창출하는 데 빅데이터를 활용하는 경

향은 전 세계적인 흐름이 될 전망이다. 다만 빅 브라더 문제에 대한 사회 여론의 흐름이 빅데

이터 도입에 걸림돌이 되고 있다.

탈세를 탐지하기 위해 빅데이터적인 방법을 도입하는 일은 정치적으로 악용되거나 국민의 사

생활을 침해할 수 있기 때문에 많은 반발이 예상된다.

심혈관 질병의 경우 고위험군으로 확인된 환자에게는 예측 솔루션으로 트랜스지방 섭취 중단,

체중 감량 및 금연과 같은 간단한 예방 조치를 실시해 심근경색이 일어날 위험을 상당히 줄일

수 있다.

이와 같이 의료 서비스의 생산성과 빅데이터는 동전의 양면이라고 봐야 한다. 다만 의료 기록

을 디지털화하거나 공유하는 부분에서는 개인의 사생활 보호나 정보 유출의 문제가 있기 때문

에 의료 서비스에서 빅데이터는 경제적 문제인 동시에 사회적 문제가 될 확률이 높다.

이미 경쟁이 치열한 외국 병원들에서는 ‘증거 기반 진료’라는 빅데이터 분야가 진료 서비스를

차별화하는 주요 수단이다. 유통업체에서 빅데이터로 고객의 취향과 패턴을 파악하듯, 의료 서

비스업에서는 치료법의 효과, 환자의 특성, 재발 가능성 등을 빅데이터로 파악하는 경우가 늘

어나고 있다. 또한 대규모 데이터를 동반하는 유전자 분석은 사람의 힘으로는 불가능하며, 컴

Page 159: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

159

퓨터에 의한 새로운 해결 방식이 필요한 대표적 빅데이터 분야로 떠오르고 있다.

센서 시장의 발달로 새로운 의료 서비스 시장이 열릴 가능성도 높아지고 있다. 지금까지 병원

에서만 파악할 수 있던 사람의 신체적, 심리적 변화를 사람 몸에 부착된 센서로 측정한다면

다양한 의료 서비스들이 나타날 수 있다. 그리고 병원들도 이러한 새로운 센서를 바탕으로 환

자의 치료를 혁신할 수 있다.

3. 빅데이터의 산업별 기여 분야

빅데이터의 산업별 영향을 분석하는 또 다른 방법은 그로 인해 가능해질 응용 서비스들을 예

상해보는 것이다.

<표 13-2>는 저자들이 제시한 빅데이터 경영 혁신 분야에 따라, 글로벌 경영컨설팅 회사 부

즈앤컴퍼니(Booz& Company)에서 2011년 예상한 ‘디지털화에 의한 산업별 새로운 응용 서

비스’를 재해석하고 내용을 추가한 것이다.

<표 13-2> 빅데이터가 기여할 산업별 분야의 예

생산성 발견/의사결정 새로운 고객 가치

제조업

데이터 분석 기반 탐색

디지털 실시간 공급사슬 및

생산라인

클라우드 소싱 및 고객

실험실

주문 생산

디지털 프로토타이핑 및

테스팅

온디맨드 클라우드

금융업

가상 브랜치/셀프서비스

프로세스의 시작으로부터

끝까지 디지털화(트레이딩,

보험 청구 관리, 고객 제안

프로세싱)

맞춤화된 보험

맞춤화된 채널

전사적 위험 관리

고속 트레이딩

분석 기법 기반 예측

디지털 지갑/수신/대출

ICT산업

자동화된 서비스 제공

디지털화된 서비스 생산

콘텐츠 관리

개인화된 콘텐츠

디지털/소셜 마케팅

사용자 주도의 플랫폼을

통한 콘텐츠 및 서비스

창출

디지털화된 통합 서비스

소매

유통업

재고 자동 배치

트래킹

디지털화된 상품 및 서비

스와 관련된 의사결정

가상 상품

가상 상점

주문 판매

공공 부문 전자정부

교통/환경 관리

전자민원 수집 및 분석

예방적 보건/치안

디지털 신원 확인

스마트 시티

센서 신호 프로세싱

의료

서비스

만성질병 관리

진료 프로세스 효율화

게놈 정보 해독

맞춤화된 질병 관리

환자들 스스로에 의한 의

료 서비스

온라인 행복 서비스

<자료 : Booz&Company (2011). “The Next Wave of Digitization Setting Your Direction, Building

Your Capabilities.”>

Page 160: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

160

이에 따르면 제조업은 앞서 언급한 공급사슬 분야, 클라우드 소싱, 주문 생산 등이 기대되며,

금융업은 점포에서의 생산성 향상, 맞춤화 된 금융 서비스, 예측에 의한 금융상품 등이 전망된

다. ICT산업은 서비스 제공의 자동화가 더욱 촉진되고, 개인화된 콘텐츠 제공을 위한 분석 기

법의 활용이 높아지며, 사용자 주도의 플랫폼을 통한 신규 서비스들이 등장할 전망이다. 소매

유통업은 오프라인 채널에서 온라인 채널로 판매 통로가 이동하고, 온라인에서 다양한 고객

경험을 유발하고 분석하는 데 빅데이터를 활용하는 일이 많아질 것이다. 공공 부문과 의료 서

비스에서는 일상적으로 반복되는 교통/환경/진료 관리 업무에서의 생산성 향상 및 치안/질병

등 예방적 업무에서의 빅데이터 발견과 의사결정이 예상된다.

이미 미국 노스캐롤라이나 주에서는 주민의 과거 위법행위 정보를 통합 데이터베이스로 정리

하고 이를 분석 해 범죄 예방에 큰 효과를 보고 있다. 뿐만 아니라 샌프란시스코는 과거 8년

동안 범죄가 발생했던 지역과 유형을 세밀하게 분석해 후속 범죄 가능성을 예측하는 범죄 사

전예보 체계를 갖췄다.

의학 분야에서는 이전부터 데이터 분석을 통해 질병을 예방하고자 하는 의료정보학

(Preventive Medical Informatics)이 발달하고 있다. 구글의 독감 트렌드 사례처럼 마치 날씨

를 예보하듯 질병 발생을 미리 경고하는 세상이 열리고 있는데, 특히 하버드 의대 연구팀은

트위터 데이터 분석을 통해 전염병 발생 예측 시 자동적으로 이를 알려주는 연구를 진행하고

있다.

Page 161: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

161

1. 데이터 생산 대국의 그늘

지금까지 기업 경영에 빅데이터를 다양하게 활용할 가능성에 대해 살펴보았다. 그런데 이러한

내용을 보아도 여전히 많은 분들은 빅데이터에 매혹과 흥미를 느끼지 못할 것이다. 어쩌면 현

실과 괴리된 듯한 불편함을 느꼈을 수도 있다. 그런 낯설음에는 여러 이유가 있겠지만 빅데이

터와 관련된 내용 대부분이 외국 기업 사례이다 보니 한국 현실에서도 과연 가능할까 하는 회

의가 들어서일 것이다. 맞는 이야기이다. 한국기업 현장에서 빅데이터 기술을 활용하자고 목청

껏 소리 높이기에는 이를 가로막고 있는 현실의 장벽이 너무나 크다. 그렇다고 이러한 장벽을

한탄만 하고 있을 수는 없다. 문제를 선명히 드러내어야 그에 대한 해결책도 찾을 수 있는 법

이다. 이번 장에서는 바로 그러한 문제의 본령에 한 걸음 더 다가가보자.

1) 데이터 생산 – 소비를 부추기는 환경

익히 알려져 있다시피 세계 기업들이 볼 때 한국 소비시장은 매력적인 테스트베드(시험시장)

이다. 앞선 기술 트렌드를 접목한 제품과 서비스는 일단 한국 시장에 출시하여 검증을 받아보

는 경우가 점점 늘고 있다. 이는 한국 소비자들의 높은 기술 수용성과 유별난 깐깐함 덕분이

다.

모두들 경험해봤겠지만, 특정 제품이나 서비스의 ‘신상’이 나오면 열성적인 얼리어답터들은 재

빨리 이를 구매해 블로그나 동호회 등 각종 커뮤니티에 사용 후기를 올려댄다. 그러면 관심을

갖고 지켜보던 다른 소비자들도 뛰어들어 감상이나 찬반 의견을 내놓으며 한마디씩 거들기 바

쁘다. 이내 다른 이들의 의견도 올라오면서 신상의 장단점은 낱낱이 파헤쳐지고, 소비자를 기

만하는 공급자의 꼼수(?)는 없었는지 혹독한 검증이 뒤따른다.

이 과정에서 문제가 발견되면 해명과 시정을 요구하고, 이것이 관철되지 않을 경우 갖은 비난

과 환불 요구, 불매 운동으로 번지는 일도 빈번하다. 다른 나라 소비자들 같으면 쉽게 넘어갈

사소한 문제라도 안이하게 대처하다가는 큰코다치기 십상이다.

캐논(Canon)이 고급 아마추어용 DSLR 신제품 EOS 5D 마크 3(Mark Ⅲ)를 한국에 출시했을

때의 사례가 그 좋은 예다. 이 제품은 정지영상뿐 아니라 동영상 촬영에도 탁월한 화질을 가

진 기종으로, 400만 원이 넘는 고가임에도 불구하고 출시 이전부터 많은 소비자의 관심을 모

아온 기대작이었다. 그러나 제품이 나오자마자 이내 어두운 곳에서 카메라 상부의 정보 표시

창 조명을 켜면 빛이 새어나와 노출값이 달라진다는 결함이 지적되었다.

캐논은 극히 예외적인 상황에서 생기는 문제이며 실제 촬영 결과에는 아무 지장이 없다는 방

침을 표명했다. 하지만 이러한 대응은 소비자 커뮤니티의 즉각적인 비난을 불러왔으며 불매

운동 움직임까지 나타났다. 결국 문제가 커지자 캐논 측은 초기 제품을 리콜하고, 빛이 새지

14차시 빅데이터 시대, 우리는 준비되어 있는가?

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

14차시 학습 교안

Page 162: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

162

않게 내부를 보완하는 조치를 취할 수밖에 없었다.

이처럼 한국 소비자들은 다른 나라 소비자들 같으면 수긍하고 넘어갈 만한 사소한 불편함도

좀처럼 그냥 넘어가지 않는다. 각종 온라인 커뮤니티에서는 갑론을박을 벌이며 제품과 서비스

의 기능을 따지고 갖가지 개선 아이디어를 내놓는다. 특히 세간의 관심이 집중되는 IT 기기,

화장품 등의 뷰티상품, 육아용품들에서 이러한 경향이 강하다. 한국의 IT 기기들이 세계 시장

을 호령하고, 한류 열풍을 타고 국산 화장품들이 호평을 받는 이면에는 이러한 열성적인 소비

자들의 피드백이 결정적인 역할을 했다는 지적도 적지 않다.

그런데 한국 소비자들은 왜 이렇게 유별난 특성을 지니게 되었을까? 한국인들이 선천적으로

특출나게 똑똑하거나 꼼꼼해서일까? 그보다는 한국 사회의 압축성장 과정에서 쌓인 ‘빨리빨리’

문화와 사회적 관계에 민감한 행태가 결합된 결과라는 해석이 더 신빙성 있다.

모두가 느끼듯, 한국의 소비자들은 빠른 변화에 매우 익숙하다. 반세기 남짓한 사이에 전근대

적 농업국가에서 세계적인 제조업 중심 국가로 발돋움하는 압축성장을 겪어오면서, 사회 전반

적으로 옛것을 고즈넉이 지키기보다는 빨리 내던지고 ‘신상’을 갖추는 것이 미덕으로 여겨지는

시대를 살아왔다.

IT 신기술을 수용하는 면에서 이는 극적으로 발휘된다. 2009년 말 국내에 스마트폰이 출시된

지 불과 2년 반 만인 2012년 5월, 전체 휴대전화 가입자의 50%를 돌파하는 2,672만 명이

스마트폰 사용자가 되었다. 이 같은 추세라면 2012년 안에 스마트폰 비율이 80%에 육박할

것으로 예상된다. 우리보다 앞서 스마트폰 보급이 이루어진 미국의 보급률을 금세 따라잡았고,

차세대 통신망인 LTE 보급 면에서는 벌써 세계 1위를 달리고 있다.

<그림 14-1> 이동통신 3사별 LTE 가입자 추이

<자료 : 방송통신위원회; 각 통신사 보도자료.>

Page 163: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

163

이러한 경향을 더욱 강력하게 만드는 것은 촘촘한 인간관계 속에서 발휘되는 사회적 압력이다.

한국에서는 좁은 땅덩어리에 수많은 사람들이 몰려 사는 데다, 오랜 유교 질서의 영향으로 사

회적 관계를 우선시하고 그 속에서 개인의 가치를 위치 짓는 데 익숙하다.

주체적 자아(subjective self)보다는 사회적 자아(social self)에 대한 인식이 더 강한 것이다.

그러다 보니 남들에게 비치는 자신의 모습에 더욱 신경을 쓰고 과시 목적의 행태로 치우치기

쉽다. 따라서 다른 이들이 지금 무엇에 관심을 갖고 있는지 알고 뒤처지지 않기 위해 정보에

더욱 탐닉하게 된다. PC 앞을 떠나더라도 이제는 손에 쥔 스마트 기기로 각종 온라인 뉴스,

실시간 검색 이슈, 소셜 미디어에 떠도는 소식을 하루 온종일 주입하는 사람들이 계속 늘고

있다.

하지만 이러한 행동은 오히려 더 큰 소통의 갈증을 불러온다. 잠깐의 만족은 누릴 수 있겠지

만 결국 깊이 있는 관계보다 얕은 관계가 늘면서 소외감과 상실감은 더욱 빨리, 더 자주 찾아

온다. 그러다 보면 인터넷 가상공간 곳곳에서 여러 모습의 자아로 활동하며 은연중 이를 해소

하려고 발버둥치기도 한다. 불확실성이 지배하는 혼란스러운 경제 환경 속에서 나 자신과 인

식이나 이익을 공유하는 집단을 끊임없이 찾아 나서고, 인터넷 공간에서 일종의 안식처를 찾

아 시끌벅적 떠들고 열광하다가 이내 흩어지고 다시 모이기를 반복한다.

그 귀결은 자연스럽게도 막대한 데이터 생산과 소비 현상으로 나타나고 있다. 한국의 대중들

은 이미 통신사들의 통신망 확충 투자를 무색하게 할 정도로 아낌없이 데이터를 이용하고 있

다. 전 세계적으로 1인당 모바일 데이터 이용량을 비교해봐도 한국은 압도적이다. 서유럽의 2

배, 북미 지역의 3배, 전 세계 평균에 비하면 10배에 달한다(<그림 14-2> 참조).

<그림 14-2> 1인당 모바일 데이터 트래픽 비교

<자료 : Cisco (2011). “Cisco Visual Networking Index.”>

Page 164: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

164

이러한 엄청난 이용량에 글로벌 통신업계 관계자들도 모두 혀를 내두르는지, 한국 사용자들을

‘데이터 대식가(data-guzzler)’로 표현하고 있다. 앞으로도 빅데이터 시대를 추동하는 흐름이

계속 이어지는 가운데, 한국은 분명히 빅데이터를 쏟아내는 측면에서만큼은 여간해선 뒤처지

지 않을 것이다. 그렇다고 과연 한국을 진짜 빅데이터 대국이라고 이야기할 수 있을까?

2) 알고는 있지만 활용은 어렵다?

안타깝지만 앞의 질문에 대한 답은 ‘그렇지 않다’이다. 일상생활에서 데이터를 펑펑 쏟아내고

이용하는 사용자들이 많다는 것은 하나의 유리한 조건에 불과하다. 더욱 중요한 것은 이렇게

쌓여가는 데이터를 좀 더 다양하고 심층적으로 활용하여 가치로 연계시킬 수 있는 민간기업과

공공기관의 조직적 움직임이다.

삼성경제연구소에서 운영하는 동영상 서비스 ‘SERICEO’에서는 2012년 4월 초, 회원들을 대

상으로 빅데이터 시대를 얼마나 잘 이해하고 대응하고 있는지 설문조사를 실시했다. 여기서

‘빅데이터에 대해 들어보고 보통 이상 알고 있다.’고 응답한 비율은 56.4%였다. 언뜻 보면 국

내 경영자들이 빅데이터 같은 기술적 이슈에도 꽤 관심을 갖고 있다는 결과로 보인다. 하지만

질문을 바꾸어 ‘데이터를 경영 실무에 적극적으로 활용하고 있는지’ 물어본 결과는 훨씬 실망

스러웠다. 불과 19.4%만이 그렇다고 응답한 것이다.

이는 현재 한국 경영 현실에서 빅데이터를 받아들이는 양면성을 잘 드러내준다. 하나는 트렌

디한 이슈에 민감한 한국 경영자들이 빅데이터에도 왕성한 지적 호기심을 보이고 있다는 점이

다. 신제품에 민감한 한국 소비자들처럼, 경영자들도 급변하는 세상의 흐름에 뒤처지지 않도록

촉수를 곤두세우고 있는 점만은 분명하다.

반면 한 꺼풀 뒤집어보면, 그런 긍정적 호기심을 실질적 행동으로 이어가기에는 기존에 쌓아

온 데이터 활용 경험이나 실질적 기반이 미약하다는 점도 동시에 드러난다. 빅데이터가 뭔가

매력적인 신상품임은 알겠는데, 이를 어떻게 경영 활동에 접목시켜야 할지는 막연하다는 것이

다.

현업 데이터 실무자들을 인터뷰한 결과, 국내에서 빅데이터를 실제로 보유하고 활용할 수 있

는 기반 역량을 갖춘 토종 기업은 열 곳도 안 되는 것으로 파악되었다. 아무래도 방대한 사용

자들을 기반으로 스마트 환경의 핵심 IT 기업으로 자리 잡은 이동통신사, 포털사이트, 온라인

게임업체 등에서 이러한 역량이 두드러진다. 반면 역시 막대한 데이터를 보유하고 잠재가치도

충분한 금융, 유통, 공공 부문 등에서는 온전한 의미의 빅데이터 활용을 제대로 하지 못하고

있는 실정이다.

Page 165: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

165

2. 빅데이터 활용이 부진한 원인

1) 빅데이터 선진 기업의 독특한 문화

한국기업들이 빅데이터 역량에서 부진한 원인은 빅데이터의 태동 배경을 떠올려보면 실마리를

찾을 수 있다. 오늘날 빅데이터 기술을 발전시키고 있는 주력 기업들은 모두 데이터를 매우

중시하는 문화를 갖고 있다.

빅데이터 기술을 앞서 발전시킨 구글은 태생적으로 데이터를 철저히 존중하는 문화를 지니고

있다. 창업주 래리 페이지와 세르게이 브린은 스탠퍼드대 공학도 출신답게 데이터와 수치에

대해 강한 믿음을 갖고 있었다. 이는 고스란히 기업 문화에 배어 나와 구글은 아무리 사소한

변화라도 데이터에 기반한 세심한 검증 작업을 거친다고 한다. 구글이 창업 이래 시종일관 밋

밋한 디자인의 검색 페이지를 유지하고 있는 것도 화려한 겉모습보다는 이면의 데이터와 알고

리즘을 중시한 결과이다.

온라인 서점에서 출발한 아마존이 빅데이터 시대의 강자로 부상한 데에도 비슷한 배경이 있다.

창업주 제프 베조스(Jeff Bezos)가 남긴, 짧으면서도 강렬한 말이 있다.

“우리는 절대로 데이터를 내다버리지 않는다.”

아마존도 초창기에는 인터넷 태동과 닷컴 열풍 속에서 서점을 단순히 온라인으로 옮겨놓은 데

서 출발했다.

하지만 영업을 해나가는 과정에서 사용자들이 늘어나고 이들의 구매 이력이 쌓여가면서 데이

터가 생겨나기 시작했다. 여느 기업이라면 이를 어떻게 활용할지 갈피를 잡지 못했겠지만, 컴

퓨터공학도 출신인 베조스는 이를 허투루 넘기지 않았다. 이 데이터를 분석해 어떻게 고객의

만족도를 높이고 더 많은 매출을 끌어낼 수 있을지 끊임없이 방안을 찾아내도록 독려하고, 자

신도 아이디어를 더했다. 그 결과 아마존은 고객이 주로 찾는 책의 특성을 파악해 추천도서를

함께 띄워주는 정교한 서비스를 내놓았다.

또한 이미 책을 구입한 독자들의 평점과 후기를 올릴 수 있는 서비스를 접목시켜 더욱 많은

데이터를 끌어모으기도 했다. 이러한 아이디어 덕분에 자칫 그냥 지나치기 쉬운 고객들이 더

욱 흥미를 갖고 아마존에서 책을 고를 수 있었고, 이는 여러 경쟁 사이트들이 난립하는 가운

데서도 아마존이 살아남는 원동력이 되었다.

더욱 인상적인 것은 아마존이 데이터 활용을 온라인 서점에서 그치지 않았다는 점이다. 아마

존은 온라인 서점을 운영하면서 쌓은 방대한 제품의 재고나 사용자 경험과 관련된 데이터 관

리 노하우를 이용해 음악 CD, 영화 DVD 등으로 취급 품목을 계속 넓혀나갔고, 급기야 가전

제품 등 전 분야를 망라하는 공산품과 음원, 애플리케이션 등 소프트웨어가 유통되는 온라인

장터로 발전했다. 이 과정에서 기하급수적으로 늘어나는 데이터를 처리하기 위해 각종 관리

기술에도 아낌없이 투자했다. 그 결과가 현재 빅데이터 분야에서 상당한 수준으로 평가되고

있는 ‘아마존 웹서비스(AWS)’이다.

Page 166: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

166

다시 말해, 아마존은 본업에서 창출되는 데이터를 단순히 보조적인 부산물로 생각하지 않고

적극적으로 활용하는 선순환을 이루어냄으로써 끊임없이 자사의 영역을 확대하고 새로운 사업

을 창출해 변신해가는 데 성공했다. 이처럼 데이터가 기업의 성장 및 변신 전략의 중요한 토

대로 기능하는 발전적 순환 구조가 존재해야 빅데이터 역량도 자연스럽게 축적될 수 있다.

2) 빅데이터 역량 강화의 선순환 구조가 단절된 한국

한국의 기업 현장에서 가장 취약한 부분은 바로 이 선순환 구조의 부재이다. 빅데이터를 제대

로 활용하려면 먼저 기업 현장에서 데이터 축적이 원활히 이루어져야 한다. 그리고 이렇게 축

적된 데이터에서 가치를 뽑아내고자 하는 노력이 다각도로 이루어지면서, 실질적으로 업무 효

율이 향상되고 새로운 비즈니스가 창출되는 경험이 쌓여야 한다. 이러한 성공 사례가 창출되

는 과정에서 빅데이터를 다루는 데 필수 불가결한 관리 및 분석 인력이 양성되고, 관련 기술

도 발전한다. 그리고 이를 토대로 더욱 발전적인 빅데이터 수요를 발굴해내고, 새로운 수집 기

능이 더해지면서 다채로운 빅데이터가 축적되는 선순환 과정이 작동한다.

정리하자면 <그림 14-3>처럼 ‘데이터 축적 → 업무 활용 → 관련 기술 성숙 → 데이터 축적’

이 연쇄적으로 일어나는 선순환 구조를 갖춰야 한다. 그러나 불행하게도 한국의 업계 전반은

물론이고, 개별 기업 단위에서도 이런 선순환 구조를 작동시키는 기업은 극히 일부에 불과하

다.

더욱 심각한 것은 선순환 구조의 어느 한 부분만이 문제를 일으켜 일시적으로 작동을 멈춘 것

도 아니라는 점이다. 하나하나 뜯어보면 각 마디마다 모두 단절되어 구조 전체가 궤도에 오른

경우를 찾아보기 힘들다. 그렇다면 왜 이처럼 일부 IT 기업을 제외하면 빅데이터 활용이 부진

한지, 선순환 구조와 연계해 그 문제점을 살펴보자.

<그림 14-3> 빅데이터 역량을 강화하는 선순환 구조와 그 단절 원인

Page 167: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

167

▶ 문제점 1. 빅데이터가 수집되지 않는 경영 현장

한국 경영 현장에서 가장 큰 문제점은 단적으로 빅데이터 자체가 수집되지 않고 있는 현실이

다. 이미 많은 기업들은 업무 구석구석에 IT 환경을 도입하여 컴퓨터 앞에서 대부분의 사무를

보고 있다. 하지만 그 본질은 과거 수기로 기록하던 장부를 스프레드시트로 바꾸고 기계식 타

자기로 치던 각종 문서를 워드프로세서로 옮겨 조금 더 멋지게 치장한 수준에 불과하다.

설문조사 결과에 의하면 현재 한국기업에서 주로 활용하는 데이터는 전통적인 재무 데이터가

35.6%, 사내외 문서화된 보고서가 33.9%를 차지하는 반면, 고객의 소셜 미디어 활동이나

자사 웹사이트의 이용 기록 등 좀 더 광범위한 비정형 데이터에 관심을 갖는 경우는 극히 드

문 것을 확인할 수 있다.

대기업 계열사들조차 업무와 관련된 많은 내용들을 현장에서 주먹구구식으로 처리하는 경우가

대부분이며, 그 결과는 체계적으로 기록되지 않고 그대로 흘려버리기 일쑤이다. 제대로 수집해

활용 방안을 찾는다면 엄청난 가치를 발휘할 데이터들이 무관심 속에서 방치되고 버려지는 게

엄연한 현실이다. 그러다 보니 아무리 빅데이터를 이용해보려고 돌아봐도 실질적으로 빅데이

터라 할 만한 게 변변히 잡히지 않는다. 이런 상황에서 빅데이터 관리와 분석 경험을 통해 관

련 기술과 인력을 육성하는 일은 당연히 머나먼 이야기일 뿐이다.

더욱 심각한 문제는 설령 데이터를 보유하고 있다 해도 이를 빅데이터답게 모아서 활용하지

못한다는 점이다. 기업 현장을 방문해보면, 각 부서마다 산재한 업무용 컴퓨터 어느 구석엔가

는 눈이 크게 뜨일 만한 데이터들을 쌓아놓고 있는 경우가 많다. 하지만 해당 부서에만 꼭꼭

숨겨져 있을 뿐, 기업 내 다른 부서에서는 그런 데이터가 존재하는지조차 모른다.

각 담당 부서 또는 담당자의 업무 영역에 맞춰 분절적으로 데이터를 관리하다 보니, 그저 과

거의 패턴대로 한정된 목적에만 소모될 뿐이다. 빅데이터가 가치를 발휘할 수 있는 조건, 즉

충분한 크기와 다양성이 전혀 만들어지지 않는 것이다. 따라서 빅데이터 관리 및 분석 경험을

갖추고 있는 현장 실무자들은 공통적으로 이 문제의 해결이 매우 시급하다고 외치고 있다.

“구슬이 서 말이라도 꿰어야 보배이듯, 사내 데이터가 많아도 공유해야 빅데이터가 된다.”

“전사 차원의 단일 데이터 관리 시스템 없이는 빅데이터도 없다.”

이러한 지적들처럼 사내에 흩어져 있는 데이터들을 끄집어내어 전사 또는 사업부 단위의 데이

터 관리 시스템에서 활용할 수 있도록 하는 것이 빅데이터 역량을 확보하기 위한 최소한의 기

반이라 할 수 있다. 이는 말처럼 쉽게 이루어지는 일이 아니다. 많은 조직에서 관찰되는 부서

이기주의는 데이터 통합 작업에서도 극심하게 나타난다. 각 부서마다 헤게모니를 내세우는 중

요한 자산이 데이터이기 때문이다.

심지어 사내 최고정보책임자(CIO : Chief Information Officer) 수준에서 각 부서에 통합을 위

해 데이터를 내놓으라고 해도 좌초되기 쉽다. 이는 CEO 차원에서 적극적으로 개입하고 진두

Page 168: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

168

지휘 해야만 극복할 수 있는 문제이다. 아직껏 한국의 경영 현장에서 데이터 통합 관리를 제

대로 하지 못했던 것도 CEO가 이 문제를 그만큼 심각하게 보지 않았기 때문이다.

▶ 문제점 2. 역량 축적으로 이어지지 않는 소모적 데이터 활용

다음으로 꼽을 수 있는 문제점은 잘못된 데이터 활용 행태이다. 앞서도 지적했듯이 한국 경영

자들의 지적 호기심은 결코 적지 않다. 뿐만 아니라 데이터에 기반한 의사결정이 중요하다는

점도 잘 알고 있다.

실제로 인지 스타일 척도(CSI)의 국제 비교 연구에 의하면, 한국 경영자들은 인지 스타일 점

수가 평균 45.5점으로 세계 평균 41.8점을 상회했다. 점수가 높을수록 데이터에 근거한 분석

적 의사결정 성향이 강한 것을 의미하므로, 한국 경영자들이 감정적이라거나 직관을 중시한다

는 편견은 잘못된 것임을 알 수 있다. 한국도 점차 체계적인 경영 교육이 이루어지면서 데이

터 가치에 대한 기본적 인식 수준이 매우 높아졌기 때문이다.

하지만 이 연구에서는 또 다른 재미있는 결과도 제시하고 있다. 인간은 의사결정 과정에서 다

양한 심리적 오류를 범하기 마련이다. 여러 가지 편견과 본능적인 판단 습성이 작동해 합리적

으로 꼼꼼히 따지면 고르지 않을 선택지를 덜컥 고르는 것이다. 얼핏 생각하면 데이터를 중시

하고 의사결정에 많이 반영하는 습성을 지닌 사람일수록 이러한 심리적 오류가 줄어드는 게

정상일 것이다. 그러나 놀랍게도 한국의 경영자 집단은 분석적 성향이 강할수록 심리적 오류

를 더 자주 범하는 특성을 보였다.

통념과는 확연히 다른 이러한 결과는 무엇을 의미하는 것일까? 이는 의사결정 과정에서 데이

터가 현실의 문제점을 편견 없이 판정하는 데 이용되지 못했음을 보여준다. 미리 자신이 특정

한 방향으로 편향된 결론을 내려놓고, 그저 이를 합리화하는 수단으로 데이터를 이용한다는

것이다. 그러면 데이터는 오류의 교정 역할을 전혀 하지 못하고, 오히려 오류를 증폭시키는 도

구로 전락하게 된다.

실제로 많은 현장 인터뷰에서 이러한 문제점들이 고스란히 드러난다. 한국기업의 실무자들은

의사결정자들로부터 수많은 데이터를 요구 받고 이에 시달리고 있다. 특정한 상품의 시장점유

율이 얼마인지 그 현황을 조사하고 향후 전망치는 얼마인지 예측하는 갖가지 데이터를 수집,

정리하여 보고서로 올리는 일이 반복되곤 한다. 이 과정에서 의사결정자의 구미에 맞는 데이

터만 취사선택해 보기 좋게 가공하는 일이 반복된다. 그러고 나서 일단 의사결정이 이루어지

면 기존에 모아놓았던 데이터들은 다시 처박히기 일쑤이다. 한번 의사결정에 이용된 데이터를

다시 꺼내보는 일은 여간해서는 거의 없다. 그대로 일회성으로 소모되는 것이다.

하지만 선진 기업들은 이와는 다르게 데이터를 활용하고 있다. 그들은 업무를 처리하기 전에

어떤 대안을 모색하고 평가하는 것은 물론, 사후에도 주도 면밀하게 데이터를 활용한다. <토이

스토리> 등 걸작 애니메이션으로 잘 알려진 픽사(Pixar)에서 그러한 모습을 엿볼 수 있다. 픽

Page 169: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

169

사는 애니메이션 제작 과정 전반에서 생기는 막대한 데이터를 주도면밀하게 수집해 축적한다.

현실보다 더 생생한 3차원 애니메이션을 만들어야 하는 입장에서 이는 어찌 보면 당연한 일일

것이다.

놀라운 점은 애니메이션 제작을 끝내고 극장에서 개봉한 뒤의 행동이다. 흔히 특정 프로젝트

가 대박을 치면 너나없이 샴페인을 터뜨리며 그간의 고생을 덜어내는 것이 인간의 본성이다.

픽사의 직원들 또한 그 본성에서 자유로울 수는 없다. 그런데도 픽사는 개봉한 애니메이션이

흥행에 성공했든 실패했든 변함없이 회고와 정리 작업을 꼭 거친다고 한다.

이 과정에서 결정적인 역할을 담당하는 것이 제작 과정에서 수집해놓은 데이터들이다. 제작

과정 전반에서 이루어진 다양한 의사결정과 판단 근거들을 사후 정리하면서 당시의 판단이 옳

았는지, 더 나은 대안은 없었는지 다시 한 번 점검한다. 데이터에 따른 사후 검증이기 때문에

여기서는 훨씬 명확한 근거로 발전적인 토의를 할 수 있다. 그리고 이 과정에서 그냥 묻혀 지

나가기 쉬운 사소한 문제들을 발견하고 교훈을 도출하게 된다. 픽사의 애니메이션들이 꾸준히

평균 이상의 성공을 거두면서 관객을 잡아끄는 이면에는 이처럼 데이터를 한번 쓰고 버리는

대신, 연속적인 발전을 위해 계속 순환적으로 활용하는 습관이 있다.

결국 빅데이터 활용 능력도 사전적, 일회성 이용만 반복해서는 결코 향상될 수 없다. 매일매일

단편적인 새로운 요구에 허덕이며 깊이 없고 틀에 박힌 분석만 반복해서는 고차원적인 빅데이

터 역량은 절대 축적되지 않는다. 사후에 교훈을 이끌어낼 목적으로 깊이 있는 분석들을 시도

해볼 수 있는 기회가 담당자들에게 주어지지 못하는 점, 이것이 한국기업 현장에 만연해 있는

문제이다.

▶ 문제점 3. 빅데이터 관리와 분석에 필요한 지식 기반 취약

마지막으로 빠지지 않는 문제는 한국의 열악한 관련 지식 기반이다. 단적으로 말해, 한국의 소

프트웨어 산업 현실에서는 빅데이터를 가공하고 분석할 수 있는 충분한 기술력과 인력이 없다.

조금씩 개선되고는 있지만, 2012년 초까지만 해도 국내에서 실제로 빅데이터를 능숙하게 관

리할 수 있는 인력은 불과 100여 명 남짓한 수준으로 추산되었다. 이 정도 인력으로는 몇몇

IT 기업을 감당하기에도 벅찬 형편이다.

이러한 현실에 부딪힐 때마다 누누이 지적되어온 것이 한국의 취약한 소프트웨어 경쟁력이다.

2009년 말, 아이폰이 한국 시장에 도입되고 스마트폰 충격이 한국 사회를 휩쓸면서 IT 강국

이라는 소리가 쏙 들어갈 정도로 신랄한 비판이 이어졌다. 애플, 구글 등 강력한 소프트웨어

역량을 바탕으로 한 플랫폼 주도 기업들이 기업 생태계의 핵심 지배자로 등장하자 한국의 초

라한 현실이 너무도 극명히 드러난 것이다. 실제로 OECD 회원국 중 19개국을 대상으로 한

국제 비교 분석에서 한국의 소프트웨어 산업 경쟁력은 하위권인 14위에 그쳤다.

한국의 소프트웨어 산업은 개별 기업들도 영세하고 생산성이 뒤떨어지는 데다, 충분한 이익이

Page 170: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

170

나지 않다 보니 연구개발비로 재투자하는 비율도 매우 낮다. 이로 인해 현장에서는 노동 강도

에 비해 급여도 좀처럼 늘지 않고 있다. 대학마다 유능한 인력들이 소프트웨어 관련 학과를

기피하는 것도 당연한 현상이다.

인력 공급이 줄면서 한국 소프트웨어 업계의 주축을 이루는 인력도 점점 고령화되고 있으며,

그나마 남아 있는 인력마저 해외로 유출되는 실정이니 총체적 난국이 아닐 수 없다. 물론 스

마트폰 쇼크 이후 대기업들이 대거 인력을 수혈하면서 컴퓨터 관련 전공자들의 몸값이 다소

올라가는 등 일부 개선되기도 했지만, 여전히 근본적인 해결과는 거리가 먼 상태이다. 이러한

총체적 난국에서 빅데이터 관련 기술과 인력이 단번에 늘기를 기대하기란 현실적으로 매우 어

렵다.

그 이면에는 이러한 지식 기반의 난국을 초래한 한국기업 현장의 또 다른 문제점이 있음을 짚

고 넘어가지 않을 수 없다. 그것은 잠재력 있는 이공계 인력을 너무 협소한 기술 영역에서만

소모한다는 점이다.

사실 빅데이터 활용과 같은 난제들은 기존의 특정 영역에 매몰된 인력으로는 해결하기 버겁다.

앞에서 빅데이터를 활용하는 전문 인력으로 ‘데이터 과학자’ 같은 새로운 직군이 부상하고 있

음을 이야기했는데, 이는 빅데이터 활용이야말로 수리적 능력과 현장의 경영 감각을 겸비한

융합형 인재가 필요하기 때문이다.

하지만 가장 앞선 미국의 경우를 보더라도, 데이터 과학자들은 사전에 짜인 교육 과정에 의해

배출된 인력이 아니다. 데이터 과학과 관련된 과정들은 이제야 겨우 몇몇 학교에서 시범적으

로 만들어지는 단계이다. 그렇다면 이들은 어떻게 양성되었을까? 이런 독특한 전문직군을 만

들어낸 곳은 다름 아닌 기업 현장이다.

데이터 과학자들의 전공은 매우 다양하다. 일반적으로 생각할 수 있는 전산학, 수학, 통계학

등은 물론 물리학, 경제학, 경영학, 심리학 등 다양한 분야의 전공자들이 그 기반이 되었다.

새로운 꿈을 갖고 실리콘밸리의 유망 기업들에 유입된 이들이 기업 현장에서 빅데이터와 관련

된 난제를 부여 받아 새로운 지식을 학습하고 해결 경험을 축적하는 과정을 반복하면서 자연

스럽게 데이터 과학자로 키워진 것이다.

다시 말해, 한국도 기업 현장에서 빅데이터 전문 인력이 커갈 수 있는 토양이 갖춰져야만 빅

데이터 역량이 본격적으로 성장할 수 있다. 그러기 위해서는 기존처럼 대학 전공에 따라 처음

부터 쓰임새를 엄격히 나누어 경력을 쌓는 관행에 변화를 주어야 한다.

수리적 능력을 갖춘 이공계 인재들이 현장에서 단순 작업에 소모되지 않고 창의적 시각에서

경영 문제를 바라보며 접근할 수 있도록 기회를 주어야 한다. 반대로 경영 지식과 감각을 갖

춘 상경계 인재들도 다양한 수리적 분석법에 대해 더 깊이 이해하고 데이터 활용에 다가갈 수

있도록 기회를 마련해주어야 한다.

Page 171: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

171

물론 이렇게 다양한 인재를 뽑아 협업의 기회를 만들라는 말이 당장은 비효율을 조장하는 것

처럼 들릴 수도 있다. 그러나 이처럼 실무를 매개로 한 융합이 이루어지지 않는 기업 현장을

그대로 방치한다면 빅데이터 역량은 영원히 머나먼 이야기로 남을 것이다.

Page 172: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

172

1. 빅데이터의 도입에 의문을 던지는 다양한 이슈

월마트는 이마트, 홈플러스, 롯데마트 등 한국에서도 성업 중인 대형 할인매장의 원조이자 자

타가 공인하는 세계 최고의 유통기업이다. 미국 할인매장 업계에서 이런 월마트의 뒤를 쫓으

며 1,000개가 넘는 매장을 운영하는 2위 기업이 바로 타깃(Target)이다.

어느 날 미네소타에 위치한 타깃 매장에 한 남자가 매우 화가 난 채로 들어섰다. “여기 책임

자가 누구야? 책임자 나오라고 해!” 직원들이 그를 달래는 사이 점장이 달려왔다. 남자는 점

장에게 광고 메일을 인쇄한 종이를 들이밀며 따져 물었다. “우리 딸이 당신네들에게 이런 메

일을 받았다고! 그 아이는 이제 겨우 고등학생이야, 그런데 어떻게 아기 옷이랑 아기침대 할

인쿠폰 같은 걸 보낼 수가 있냐 말이야. 지금 우리 아이더러 임신하라는 거야 뭐야?” 점장은

마케팅 부서에서 실수를 한 것으로 생각했고, 연신 죄송하다며 간신히 달래서 남자를 돌려보

냈다.

며칠 뒤 점장은 다시 한 번 남자에게 사과하기 위해 전화를 걸었다. 그런데 웬일인지 전화 너

머의 태도는 180도 달라져 있었다. 남자는 차분한 목소리로 점장에게 하소연했다.

“그 일이 있고 나서 딸아이랑 이야기를 나눴지요. 아 그런데 우리 애가 일을 저질렀지 뭡니까.

전 그런 줄도 전혀 모르고…… 실은 8월이 출산 예정이랍니다. 점장님께는 정말 죄송해요.”

기막힌 사건이 아닐 수 없다. 그런데 여기서 더욱 놀라운 것은 가족조차 몰랐던 사실을 타깃

은 어떻게 알고 임신·육아용품 광고를 보낼 수 있었을까 하는 점이다. 사실 이 사건의 배후에

는 타깃이 개발하여 가동한 임신 예측 시스템이 있었다. 타깃은 수많은 고객들의 구매 이력에

관한 빅데이터를 분석해 임산부들이 보이는 특이 패턴을 찾아내는 예측 모형을 가동하고 있었

던 것이다.

경험적으로 알다시피 임신처럼 신변의 큰 변화를 맞게 되면 이전과는 다른 구매행동을 표출한

다. 태아에게 풍부한 영양을 공급하기 위해 먹지 않던 비타민, 엽산 등 각종 영양 보충제를 사

기 시작하고, 커피 같은 민감한 음료는 급격히 소비를 줄인다. 또 화장품도 그때까지는 기능에

치중했다면 이제는 태아와 산모의 안전을 최우시한 저자극성 제품으로 바꾼다. 거기에 힘든

임신의 보상심리가 작용해 평소보다 씀씀이도 아주 많이 늘어난다.

고등학생 신분으로 임신하여 야단맞을까 두려웠던 딸은 한 지붕 아래 같이 살던 아빠에게는

사실을 숨길 수 있었지만, 빅데이터 분석을 통해 이러한 특징을 꿰뚫고 있던 타깃의 그물망은

피해갈 수 없었던 것이다.

자, 이처럼 빅데이터로 파헤쳐지고 이용되는 우리의 일상은 먼 미래의 꿈같은 이야기가 아니

15차시 개인정보의 보호 vs. 데이터 활용의 자유

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

15차시 학습 교안

Page 173: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

173

다. 치열하게 진행되고 있는 현실이며 앞으로 더욱 심화될 트렌드이기도 하다. 앞에서 우리는

이러한 미래가 기업 경영과 고객의 편익 및 후생에 끼치는 긍정적인 측면을 집중적으로 살펴

보았다. 하지만 뒤집어 생각해보면, 현장의 기업 입장에서건 평범한 고객의 입장에서건 이것이

마냥 반갑고 희망적으로만 느낄 문제가 아님을 알게 된다.

이처럼 빅데이터의 미래가 항상 장밋빛으로만 점철된 것은 아니다. 많은 이들을 열광시키는

놀라운 잠재가치 이면에는 빅데이터의 원활한 도입에 의문을 던지는 다양한 이슈들도 도사리

고 있다. 이러한 이슈들을 얼마나 정확히 이해하고 선제적으로 대응하느냐에 따라 향후 빅데

이터는 유용한 경영 자산이 될 수도 있고, 반대로 끔찍한 골칫덩어리로 전락할 수도 있다. 여

기서는 이러한 문제들에 대해 간단히 점검하고 넘어가도록 하자.

1) 프라이버시 문제

빅데이터 문제에서 가장 불거지고 있는 이슈는 개인정보 보호 문제이다. 빅데이터에서 ‘빅 브

라더’를 떠올리는 이가 많듯이, 법조계에서는 ‘커다란 골칫거리(Big Concerns)’가 등장했다는

푸념도 나온다. 빅데이터 시대가 되면서 데이터의 이용 범위가 비약적으로 넓어지자, 과연 어

디까지 ‘개인정보’의 틀에 넣을 수 있으며 각각에 대해 얼마만큼의 권리를 보장해야 하는지 벌

써부터 법률적 공방이 치열하다.

특히 빅데이터로 보편화될 분야 중 하나는 세밀한 맞춤 서비스이다. 그 수준은 개별 고객에게

서 수집한 데이터로 얼마나 많은 고객 정보를 파악하느냐에 따라 결정된다. 다시 말해, 맞춤화

가 정교해질수록 프라이버시 문제는 더욱 커질 수밖에 없다. 아마존이나 애플의 아이튠즈는

자사 추천 시스템인 맞춤화 서비스를 개선하려고 외부 기업의 고객 데이터를 구매해 서비스를

향상시키겠지만, 한편으로 사람들은 ‘어떻게 나에 관해 이런 사실도 알고 있지!’라고 생각하는

등 사생활이 침해되었다고 느낄 수도 있다.

PC와 스마트 기기로 인터넷을 사용하는 사람들이 특히 걱정하고 있는 부분은 자신의 인터넷

행적이 모두 기록으로 남는다는 것이다. 이런 기록들은 거의 실시간으로 분석되어 자신이 무

엇을 했고, 무엇에 관심 있는지 등이 모두 타인에게 드러난다. 자신이 알려주고 싶은 것 이상

을 남이 아는 것도 빅데이터 시대의 프라이버시 문제이다.

2) 데이터 남용 문제

프라이버시 문제와 유사하지만 좀 더 다른 각도의 문제는 데이터의 남용이다. 데이터가 많아

질수록 이를 이용해 고객의 실제 모습을 조작하는 문제가 나타날 수 있다. 영화 <마이너리티

리포트>를 보면, 정부기관이 컴퓨터로 미래 범죄를 사전에 감지해 죄를 지을 사람을 체포한다.

여기서 문제는 빅데이터가 확률적 상황을 확실한 사실로 만듦으로써 정부기관이 단순한 추측

을 근거로 행동하게끔 한다는 것이다. 실제로 미국에서는 테러리스트의 공격을 예방한다는 명

Page 174: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

174

분으로 정부가 각종 개인정보들을 수집하고 있지만, 시민들이나 외국 방문객들이 느끼는 것은

치안의 향상이 아니라 더욱 까다롭고 불편해진 공항출입국 수속뿐이다.

마찬가지로 기업들도 고객에 대해 이전보다 더 많이 알고 있다고 생각하여 더욱 적극적으로

판촉 활동을 함으로써 고객들의 불편을 가중시킬 수 있다.

3) 데이터 수집 및 공유 문제

SNS나 인터넷에 공개된 글, 사진, 동영상, 그리고 공공기관이나 기업 사이트에 공개된 정보나

데이터를 사용하는 것은 아무런 문제가 없을까? 즉 웹에서 접근 가능한 공개 데이터를 복사해

개인적으로 소유하고 이용하는 것은 문제가 없을까? 예컨대, 이베이(eBay)는 자사 웹사이트의

데이터 소유권을 가지고 있으므로 누가 이를 재사용하고, 어떻게 재사용하는지 통제할 수 있

는가? 이처럼 공개된 데이터의 지적 재산권이 어디에 있느냐 하는 문제가 논란이 되고 있다.

이에 대한 법적 규제는 지역별로 조금 다른 양상을 보이는데, 일반적으로 공개된 데이터를 가

공 없이 그대로 사용하는 것은 위법으로 보고 있다. 반면 공개된 데이터를 가공해 완전히 새

로운 가치를 가진 정보(originality)로 바꾸는 경우는 합법으로 보는 경향이 높다. 그러나 어느

정도까지가 완전히 새로운 것인지 그 정의와 해석은 나라마다 다르고, 아직도 모호한 면이 있

다.

2. 데이터 활용에 대한 상반된 법 제도적 환경

이러한 민감한 이슈에 대한 법적 논의는 각국의 법 제도 환경에 따라 다른 방향으로 전개 중

이다. 우선 인권 보호 의식이 매우 높은 유럽에서는 다분히 보수적인 태도를 견지하고 있다.

대표적으로 ‘잊혀질 권리(Right to be forgotten)’에 대한 법제화를 강력하게 추진 중이다.

이미 2012년 1월, 유럽연합(EU)은 인터넷 사업자들이 합법적인 근거 없이 보유하고 있는 사

용자 정보를 삭제하도록 요구할 수 있는 권리를 보장한 데이터 보호법 개정안을 확정했다. 그

러나 너무나 복잡·다양하게 뻗어가고 있는 빅데이터에 대해 어떠한 방식으로 법 규정을 강제

할 수 있을지 난제가 수두룩하다. 따라서 구체적인 법률안 통과와 시행에 대해서는 좀 더 논

의를 지켜보는 수밖에 없다.

반대로 미국의 법체계는 표현과 정보 유통의 자유를 개인의 권리보다 우선시하고 있다. 즉 빅

데이터에 프라이버시 침해 소지가 있더라도 공공 의료보장 체계의 효율을 높이거나, 범죄 색

출 등 공익적 목적에 부합한다면 충분히 용인될 수 있다는 판결이 대세이다.

따라서 빅데이터 관련 사업자들은 적절한 동의 절차를 밟고 익명화 작업을 거친 뒤에는 비교

적 큰 제약 없이 데이터를 활용하고 있다. 현재 빅데이터 활용에서 미국이 앞서 나가고 있는

것도 법적인 문제에서 다른 나라에 비해 훨씬 자유롭기 때문이다.

Page 175: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

175

2011년 하반기 미국은 물론 전 세계를 달군 이슈로 ‘월 가를 점령하라(Occupy Wall Street)’

시위가 있었다. 이 시위는 금융자본주의를 앞세운 월 가의 금융회사가 소비자를 기만하고 경

제를 왜곡시켜가며 이익을 추구한 결과, 대규모 금융위기와 경기침체를 일으켰다는 분노의 표

출이었다.

이 과정에서 700여 명의 시위자들이 체포되었는데, 검찰은 시위 도중 법을 어겼는지 알아보

기 위해 이들의 트위터 기록을 조사했다. 그 가운데 한 명인 말콤 해리스(Malcom Harris)는

사법당국의 조사가 시작되기 전에 계정을 삭제하고 모든 트윗을 지운 상태였다.

이에 검찰은 2012년 1월, 트위터 측에 해리스의 트윗 내용과 관련 사용자 정보를 넘겨달라고

요청했다. 해리스는 이에 맞서 프라이버시를 침해하는 부당한 요청이 라며 법원에 이의 신청

을 했다.

하지만 뉴욕 형사지법은 2012년 4월, 검찰의 요청이 정당하다고 판결했다. 다시 트위터 사는

정보 제공이 곤란하다고 법원에 각하 요청을 했지만, 7월 1일에 이 또한 기각되고 검찰의 열

람권이 인정되었다. 미국 법원의 판단은 트윗은 개인정보가 아니며, “창문 밖에 대고 그 내용

을 소리치는 것”과 같다는 입장이었다. 소셜 미디어에 분출한 의견은 이미 대중에게 제공한

것이고, 이는 사회 안전 등 공익을 위해 이용할 수 있다는 뜻이다.

그리고 “소셜 미디어 기업의 임무는 길거리 범죄의 목격자”와 유사하다고 판시하여, 인터넷이

란 새로운 거리에서 소셜 미디어 기업이 CCTV와 같은 역할을 해야 한다고 지적했다. 이는 미

국이 빅데이터 이용에 있어 프라이버시를 제한하는 경향을 확인할 수 있는 생생한 사례이다.

한국의 실정은 이런 선진국들에 비해 매우 어정쩡하다. 물론 공익적 목적으로 데이터를 이용

하는 것은 어느 정도 용인하는 추세이다.

오진을 하고도 진료비를 돌려주지 않는 동물병원을 인터넷 애견카페에 공개한 사람이 명예 훼

손으로 고소당한 사건이 있었다.

최종적으로 대법원은 “동물병원에 대한 정보를 구하는 다수 인터넷 사용자들의 의사결정에 도

움이 되는 정보를 제공한 행위로, 공공의 이익을 위한 것이어서 부수적으로 다른 목적이나 동

기가 내포됐더라도 비방할 목적이 있었다고 보기는 어렵다.”라고 판시하여 무죄로 처리했다.

즉 한국은 공공의 이익을 위해 공개된 정보를 사용한다면 합법으로 보고 있다. 이는 얼핏 미

국과 유사해 보이지만, 좀 더 뜯어보면 기업의 공익광고와 같이 1차적으로 공익에 이용하나

부차적 혹은 간접적으로 사익이 발생하는 애매한 경우도 많다.

미국의 소셜 미디어를 둘러싼 법적 공방 사례에서 보듯이 어디까지를 공개된 데이터로 볼 것

인가도 여전히 논란거리이다. 이러한 수많은 사안들에 대해서는 향후 더욱 많은 사회적 토의

와 법원의 판례가 쌓여야만 명확한 갈피를 잡을 수 있을 것이다. 그때까지는 빅데이터의 수집

Page 176: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

176

과 활용에 조심스러울 수밖에 없다.

특히 기업의 개인정보 관리 소홀과 남용에 대한 국민들의 우려는 어느 나라 못지않게 높은 상

황이다. 이미 대형 쇼핑몰과 통신사의 해킹사건 등으로 수많은 가입자들의 정보가 유출되고

암암리에 거래되어 각종 사기에 악용되는 현실을 접하고 있기 때문이다.

이러한 우려가 고조되면서 국내에서도 개인정보 취급 방침을 변경한 구글에 정부가 개인정보

보호 법규를 준수하고 이용자의 선택권을 부여하라고 권고해 논란이 되기도 했다. 2012년 2

월, 방송통신위원회는 변경되는 구글의 개인정보 취급 방침이 ‘정보통신망 이용 촉진 및 정보

보호 등에 관한 법률’(이하 정보통신망법)의 개인정보 보호 규정을 준수하는 데 일부 미흡할

수 있다며 개선하도록 권고했다. ‘개인정보 이용 목적의 포괄적 기재 및 명시적 동의 절차 미

비’, ‘개인정보의 보유 및 이용 기간, 파기 절차 및 파기 방법’ 등 정보통신망법의 필수 명시

사항을 누락해 이용자의 권리가 일부 침해될 소지가 있다고 판단한 것이다.

이처럼 한국에서 빅데이터를 제대로 활용하려면 명확한 법적 가이드라인이 필요함은 물론, 국

민이 공감할 수 있는 사회적 합의점을 찾기 위해 반드시 공론에 부쳐야 한다. 아무리 제도적

으로 일관되게 빅데이터 활용에 대해 안전장치를 마련했다고 하더라도, 국민들에게 내재된 뿌

리 깊은 우려를 불식하지 않고서는 언제고 심각한 여론의 질타를 맞을 수 있기 때문이다.

이에 대해서는 앞으로 정부를 포함한 이해관계자들의 노력이 필요할 것이다. 막연히 빅데이터

시대가 되면 개인의 모든 정보가 낱낱이 노출될 것이라는 공포를 조장해서는 안 된다. 개인의

프라이버시는 충분히 보호하면서도, 빅데이터를 적절히 이용하면 우리 생활의 편익을 크게 증

진시킬 수 있다는 공감대를 널리 퍼뜨리는 지혜가 필요하다.

Page 177: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

177

1. 빅데이터 시대의 지속력

지금까지 기업이 적극적으로 빅데이터를 도입해야 하는 다양한 이유와 활용 방향, 그리고 한

국 현실의 문제점까지 살펴보았다. 그럼에도 마음 한구석 빅데이터 시대에 대한 의구심을 떨

치지 못하는 경영진도 여전히 많다. 이는 지난 20여 년 동안 기업 경영 현장에서 반복되어온

IT 혁신 유행의 경험 때문일 것이다. 그때마다 이러한 혁신 활동으로 기업 경영의 효율성이

획기적으로 높아질 것이라는 장밋빛 전망이 판을 쳤다.

비근한 예로 2000년대 초반에 국내 기업마다 고객관계 관리(CRM) 도입 열풍이 불어서 많은

기업들이 앞다퉈 고가의 IT 인프라와 솔루션을 도입했다. 하지만 이후 운영 단계에서 뚜렷한

체감 성과를 맛보지 못하고 이내 실망하고 말았다.

이로 인해 2000년대 후반 들어 일련의 IT 혁신 활동이 관련 솔루션 업체들의 단순한 상술에

지나지는 않는지 의구심이 확산되었다. 이러한 경험의 연장선상에서 빅데이터도 그저 겉포장

만 바뀐 그럴듯한 신상품이라는 의혹을 갖게 되는 것이다.

이러한 의구심은 기업 경영자들만 갖는 것이 아니다. 빅데이터와 관련된 여러 기반 기술을 담

당해온 현장의 엔지니어들도 빅데이터 유행에 대해서는 탐탁지 않게 생각하는 시선이 많다.

앞서도 살펴보았듯 빅데이터 기술 가운데에는 새롭게 등장한 것들도 많지만, 과거부터 지속되

어온 통계 분석, 데이터 마이닝, 인공지능 기술의 연장선상에 있는 것 또한 상당수이다. 이러

한 분석 기술들은 이미 기존의 데이터 관리 체계에서도 여러 분석 솔루션에 구현되어 있었다.

비교적 최근에 저변이 확대된 사회 연결망(Social Network) 분석이나 집단지성(Collective

Intelligence)과 관련된 분석 기술도 줄잡아 10년 전부터 상용화한 업체들이 활동해오고 있었

다. 이들 업계 관계자들은 나름의 독자적인 영역을 갖고 있던 기술들이 한꺼번에 ‘빅데이터 기

술’로 분류되어 갑자기 관심을 받는 게 매우 부담스럽다고 토로하고 있다.

이들은 빅데이터가 2~3년 유행하는 동안, 도전적인 일부 기업에서 관련 솔루션이라고 구입해

써보다가 별다른 효과를 보지 못하면 실망과 악평만 남긴 채 사그라져버릴지 모른다는 점을

공통적으로 우려한다. 각종 IT 혁신의 추진 경과를 아는 기업 내 간부들은 지금 섣불리 빅데

이터를 외쳤다가 책임을 추궁 당하지나 않을까 두려워한다. 관련 기술업체들도 빅데이터 기술

업체로 한꺼번에 엮였다가 유행의 퇴조와 함께 도매금으로 문전박대를 당하지나 않을까 두려

워하고 있다.

실제로 지난 십 수 년 동안 IT 혁신 현장에서는 의욕적으로 영입된 임원들이 자리를 내걸고

프로젝트를 추진하다가 실패하여 이내 물갈이된 사례가 제법 많다. 그때마다 거기에 편승했던

16차시 빅데이터 시대, 어떻게 맞이할 것인가?

빅데이터가 만드는 세상 : 경영의 새로운 패러다임

16차시 학습 교안

Page 178: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

178

기술업체들은 새벽닭이 울기 전에 예수를 모른다고 세 번이나 부정했다는 베드로마냥 그 흔적

을 지우기 위해 애쓰는 촌극도 벌어졌다. 이들 관계자들은 산이 높으면 골이 깊듯 기대가 크

면 그 뒤의 실망도 크다는 점을 누구보다 잘 알고 있는 만큼, 빅데이터를 대하는 태도도 조심

스러울 수밖에 없다.

이러한 우려가 전혀 근거 없는 기우에 불과한 것은 아니다. 실제로 IT 업계의 각종 기술은 이

러한 유행과 실망이 반복되는 패턴을 보여왔다. 이를 실증적으로 형상화한 것이 대표적 IT 시

장조사기관인 가트너의 유명한 ‘과장광고 곡선(Hype Curve)’이다.

이 곡선은 특정한 기술이 업계와 사회에 인지되기 시작한 이후, 세간에서 받는 주목도(또는

기대 수준)가 시간에 따라 어떻게 변화하는지 다음 5단계로 설명하고 있다.

Page 179: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

179

빅데이터 관련 기술도 다른 IT 기술과 마찬가지로 이러한 과장광고 곡선을 따라가리라고 보면

큰 무리가 없을 것이다. 그렇다면 빅데이터 관련 기술은 현재 곡선 위 어디쯤에 위치해 있을

까? 2011년 가트너가 제시한 과장광고 곡선을 보면, 빅데이터 관련 기술의 위치를 짐작할 수

있다(<그림 16-1> 참조).

Page 180: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

180

<그림 16-1> 가트너의 2011년 과장광고 곡선과 빅데이터 기술의 위치

<자료 : Gartner (2011).>

빅데이터 처리 및 관리 기술은 다소 뒤늦게 출발하고 이해도도 떨어지는 상황이지만, 분석 및

활용 기술은 이전부터 진행되어온 맥락이 있으므로 벌써 정점을 넘어선 것도 있다. 전반적으

로 빅데이터 관련 기술은 1단계에서 2단계로 빠르게 넘어가고 있다. 이 정도 속도라면 ‘빅데

이터’라는 큰 이슈가 시장에서 기대의 정점을 통과하기까지 2년 남짓한 기간이 걸릴 것으로

보인다. 그 뒤에는 다른 기술들이 그러했고 많은 현장 관계자들이 예측하듯, 실망의 골짜기로

빠져들 가능성도 농후하다.

Page 181: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

181

2. 유행 때문에 잊어서는 안 되는 빅데이터의 본질

그렇다고 해서 빅데이터 시대가 한낱 신기루에 그치리라는 비관론이 옳다는 것은 아니다. 그

것은 빅데이터 시대를 이슈의 유행이라는 표층에서만 바라본 결과라 할 수 있다. 앞에서 이미

빅데이터의 본질은 예전과 확연히 다른 ‘잠재가치’에 있다고 밝혔다. 문제는 이것이 어느 정도

이상 데이터를 충분히 축적해야 점차적으로 발현되는(emerging) 성질을 갖고 있다는 점이다.

이미 천문학적인 데이터가 쌓이고 있다지만, 빅데이터라는 새로운 기술적 관점에서 볼 때 아

직도 데이터 축적에는 부족한 측면이 많다. 더군다나 ‘빅 브라더’라는 사회적 의혹 속에서 합

리적인 수준의 데이터 활용에 대해 공감대를 형성하기까지는 아직도 멀기만 하다.

이러한 난제들을 먼저 해결해야 본격적인 빅데이터 시대가 활짝 열리는 것이지, 현재의 열풍

으로 단번에 모든 문제들이 해결되는 것은 아니다. 차근차근 고비를 넘어선 이후, 어느 순간

갑자기 빅데이터의 잠재가치가 터져 나와 산업의 경쟁 지형을 송두리째 바꿔놓을 수도 있다.

이미 우리는 그러한 현상을 최근의 스마트폰 열풍에서 목격했다. 사실 노키아나

RIM(Research In Motion) 등의 위세를 무너뜨리고 애플과 삼성을 휴대전화 업계의 강자로

부상하게 만든 스마트폰 열풍 밑바닥의 기술은 결코 새로운 것들이 아니다. 기기 면에서 아이

폰의 특징을 갖춘 다양한 휴대기기들은 빠르게는 1990년대 초부터 실험적으로 만들어졌으며,

1990년대 말부터 본격적으로 제품들이 출시되었다. 이는 노트북을 매우 작게 만드는 방향,

PDA라는 별도의 휴대 사무용 기기를 만드는 방향, 휴대전화 기능을 강화하는 방향 등으로 다

양하게 모색되었다.

결과적으로 2007년 아이폰 출시 이후 휴대전화의 운영체제(OS)와 하드웨어를 강화해 PDA

기능을 흡수해버린 스마트폰으로 완전히 물줄기가 잡혔지만 말이다. 또한 스마트폰이 주축이

되어 가시화되고 있는 스마트 환경의 비전은 이미 1990년대부터 ‘유비쿼터스’ 환경이라는 이

름으로 언론에 오르내렸다. 언제, 어디서나 도처에 내재된 컴퓨터 환경에 접속해 생활의 편익

을 누리자는 유비쿼터스 환경의 이상은 1990년대 기기에서부터 열심히 구현되어온 밑바탕이

었다.

돌이켜보면 오늘날의 빅데이터 유행 못지않게 1990년대 후반에서 2000년대 초반까지 유비

쿼터스 환경 및 관련 기술에 언론과 세간의 이목이 집중되었다. 하지만 이러한 관심과 투자에

도 불구하고 PDA 등 휴대기기들은 여전히 신기술에 열광하는 비교적 소수를 위한 기기에 불

과했고, 휴대전화도 피처폰 일색이었다. 당시에는 주류 PC나 피처폰에 비해 이들 기기의 체감

성능이 현격히 떨어졌고, 가격도 너무 높았으며, 무선통신 환경도 매우 열악해 유비쿼터스 이

상을 구현하기에는 현실과의 격차가 너무나 컸다.

결과적으로 2000년대 중반에 들어서면 유비쿼터스란 말도 시들해져 사람들의 뇌리에 그저 한

때의 유행으로 남았으며 블랙베리, 윈도우 모바일, 심비안(Symbian) 등의 잔존 운영체제를 중

Page 182: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

182

심으로 상대적으로 더딘 혁신의 길을 걷게 되었다.

이러한 분위기 속에서 방심하고 있던 업계에, 아무도 위협이 되리라 여기지 않았던 애플로부

터 iOS-아이폰 일격이 가해졌음은 모두가 잘 알고 있는 사실이다. 2007년 첫 모델이 출시된

이래, 2008년 3세대 통신망에 대응하는 3G, 2009년 3GS가 발매되고 한국에 상륙해 휴대전

화 강국이라는 자존심에 큰 상처를 입힌 기억은 많은 이들에게 아직도 생생할 것이다.

이제 ‘스마트폰’, ‘스마트 환경’은 상당히 많은 사람들에게도 직접적으로 다가오는 주류 기술 패

러다임으로 정착했고, 여기에 편승한 기업과 그렇지 못한 기업의 운명은 너무나도 극명하게

엇갈렸다.

빅데이터도 결국 이러한 변화의 경로를 밟아갈 공산이 크다. 단순히 ‘빅데이터’라는 용어 자체

는 ‘유비쿼터스’처럼 몇 년이 지나면 시들해질지도 모른다. 하지만 빅데이터의 유행 속에서 그

것의 중요성과 막대한 잠재가치를 깨닫고 차근차근 실질적인 데이터와 활용 역량을 축적해나

갈 기업들이 어디엔가는 있을 것이다. 그들은 빅데이터 관련 기술이 과장광고 곡선의 바닥을

지나 좀 더 성숙해질 때, 4단계에 만들어지는 성공 사례들의 주역으로 나설 것이다. 그리고 5

단계로 접어드는 시점에서 빅데이터는 전혀 다른 이름으로 우리 현실에 재등장하여 강한 충격

을 던질 것이다.

그 충격은 과연 어느 정도일까? 스마트폰 충격으로 쟁쟁한 기존의 강자들이 휩쓸려 나갔다지

만, 한국기업들은 특유의 기민한 추격 능력을 바탕으로 빠르게 안드로이드 진영에 편승해 산

업 재편의 이익을 톡톡히 향유할 수 있었다.

그러나 빅데이터 시대는 다르다. 빅데이터 및 그와 관련된 역량들은 앞서 이야기했듯 단기간

에 축적이 불가능하고, 일단 축적하면 후발자의 추격을 봉쇄할 수 있는 수단이 훨씬 다양하다.

한국기업들이 단기적 시각에 매몰되어 빅데이터 역량을 축적하는 노력을 등한시하거나 쉽게

포기해버린다면 훗날의 ‘빅데이터 충격’에는 아예 추격을 도모해보지도 못할 것이다. 단기적

비관론에도 불구하고 빅데이터 역량을 강화하기 위해 꾸준히 노력해야 할 이유가 바로 여기에

있다.

Page 183: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

183

3. 빅데이터 대응 수준의 현황

이처럼 빅데이터는 앞으로 미래 경쟁 환경 속에서 승리와 생존을 위해 매우 효과적인 핵심 자

산이 될 것이다. 이런 인식에 공감대가 형성되었다면, 다음으로는 현재 한국기업의 빅데이터

활용 역량 수준을 파악하고 단계적으로 이를 끌어올릴 수 있게 준비를 해야 한다.

EIU(Economist Intelligence Unit)는 빅데이터에 관한 백서 《빅데이터 : 게임의 법칙을 바꾸는

자산 활용법(Big Data : Harnessing a game-changing asset)》에서 빅데이터를 수용하기 위한

기업의 대응 역량을 다음 네 가지 수준으로 구분했다.

가장 낮은 수준인 ‘데이터 낭비자(Data Wasters)’ 유형의 기업들은 데이터 수집 자체를 하지

않거나, 수집해도 거의 활용하지 않는다(전자가 약 30%, 후자가 약 70%를 차지). 이러한 기

업들은 재무적인 성과도 낮으며 어느 산업에서나 쉽게 찾아볼 수 있다. 당연히 고위 경영진보

다는 중간 정도의 관리자가 데이터 전략을 담당한다. 이러한 기업들은 다음과 같은 특성을 갖

고 있다.

• 내부 운영 효율성 향상이나, 특히 경영 보고에 큰 관심을 기울이지 않는다.

• (보안 이외에는) 모든 데이터 관리 측면에서 문제점을 보인다.

• 데이터 관리에 대한 투자에서 다른 기업들에 비해 뒤처져 있다.

• 적절한 데이터 관리 기술을 유지하는 데에도 어려움을 겪고 있다.

두 번째는 ‘데이터 수집가(Data Collectors)’ 유형의 기업으로, 데이터의 중요성은 인식하고 있

으나 데이터 저장 이외에 다른 조치는 취하지 않는다. 따라서 표면적으로는 데이터가 넘쳐나

지만, 적절히 활용하기에는 막막한 상황이 대부분이다. 보통 의료 서비스나 전문 서비스 산업

과 관련된 기업들이 이 유형에 속하며, 흔히 나타나는 특성은 다음과 같다.

• 대부분 고위 IT 임원이 데이터 전략을 담당한다.

• 정보기술부서 사람들은 데이터의 중요성을 이해하지 못하고 사업부서 사람들도 별반 차이

가 없으며, 정보기술과 비즈니스 전략 간에 연계성이 매우 낮다.

• 데이터의 품질, 정확성, 일관성 등에서 문제를 보인다.

• 데이터 관리가 주로 규제에서 요구하는 사항에 맞춰 이루어진다.

• 데이터 관리의 모든 측면, 특히 기술에는 투자하지 못하고 있다.

• 데이터 거버넌스(조직 내에서 데이터 관리의 의사결정 권한과 책임 주체 명시)에 대한 공

식적 프로세스를 갖추고 있지 않다.

세 번째는 ‘적극적 데이터 관리자(Aspiring Data Managers)’ 유형으로, 빅데이터의 중요성은

어렴풋이나마 알고 있으며 전략적 의사결정에 활용과 투자를 감행할 준비도 되어 있으나 선두

그룹에 비해 수준이 못 미치는 기업들이다. 수적으로 보면 이 유형에 속한 기업들이 가장 많

으며, 정보통신이나 소매 산업의 기업들이 이 그룹에 속할 가능성이 높다. 이들 기업에서 나타

나는 특성은 다음과 같다.

Page 184: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

184

• CEO가 데이터 전략을 담당할 가능성은 매우 낮다.

• 현재 내부 비즈니스 운영 상황을 더 잘 파악하기 위해 데이터를 활용하고 있으나, 고객과

관련된 일(마케팅 및 영업)에도 데이터를 활용하길 바라고 있다.

• 전략적 데이터 관리자와 달리, 데이터의 품질이나 일관성을 완전히 통제하지 못하고 있다.

• 자신들이 보유한 데이터의 반 정도만 제대로 활용하고 있다.

• 데이터가 너무 많거나 필요한 자원이 충분하지 않다고 불평을 늘어놓을 가능성이 높다.

마지막은 ‘전략적 데이터 관리자(Strategic Data Manager)’ 유형으로, 빅데이터를 이용하는

기업들 중 가장 선두에 있으며 가장 앞선 역량을 보유하고 있다. 제조업체나 금융 서비스, 혹

은 기술 기업들이 이 그룹에 속해 있을 가능성이 높다. 전략적 데이터 관리자 유형의 기업들

은 가장 먼저 활용 가능한 데이터의 측정 방법과 범위를 신속히 파악하고, 이들을 기업의 전

략적 목표와 일치시키는 역량을 갖고 있다. 이외에도 다음과 같은 특성을 지니고 있다.

• 대충 만족할 만한 선택이 아닌 가장 적절한 선택으로 의사결정을 하며, 수집한 데이터의

상당 부분을 활용한다.

• C 레벨 고위 임원들(예를 들어 CFO, COO, CMO 등)이 각자 자기 분야의 데이터 운영을

책임진다.

• 데이터 관리의 모든 측면에 투자를 하며, 특히 데이터의 정확성, 완전성, 일관성에 중점을

둔다.

• 잠재가치를 확보하기 위해 새로 등장하는 데이터들을 탐색한다.

과연 우리 기업은 어느 수준에 도달해 있는가? 데이터를 낭비하거나 형식적으로 쌓아놓기만

하는지, 아니면 적극적인 활용 노력을 기울이고 최고 경영진 차원에서 지원이 이루어지는지

등등 냉철한 평가는 모든 역량 구축의 필수적인 출발점이다.

Page 185: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

185

4. 빅데이터 역량 구축을 위한 핵심 계명

이렇게 네 가지 유형의 기업에 나타나는 특성을 기준으로 정확한 파악이 이루어진 후에는, 단

계적으로 수준을 향상시킬 로드맵을 준비해야 한다. 이를 위해서는 각사의 실정에 맞게 <표

16-1>의 여섯 가지 요소에 대한 규정이 함께 이루어져야 한다.

<표 16-1> 빅데이터의 도입 및 활용을 위해 고려해야 할 주요 요소들

전략

전략적 일관성

핵심 성과지표(KPI), 목표

가치 정의

데이터 관리

경영 관리 프레임워크

범위와 영역

데이터의 접근 가능성

데이터 품질

거버넌스 소유권, 통제

감시 및 확인

조직 및 노하우 사업부서와 IT부서 간의 조정

내부 보고 체계

정보 전달 방법

수용 가능한 표준 및 프로세스

성과 데이터 분석

전략적 일관성 리포팅

프로세스 리포팅

피드백에 따른 데이터 품질 향상

기술 아키텍처와 인프라 기법/기술, 어플리케이션, 시스템

<자료 : Deloitte (2011).>

최우선으로 고려해야 할 포인트는 기업의 경영 전략과 부합하는 빅데이터의 활용이다. 단순히

기술을 보고 빅데이터를 도입하는 것이 아니라, 조직의 필요성을 먼저 파악한 후 빅데이터가

최선의 선택인지 결정해야 한다. 그리고 조직 내에서 활용할 수 있는지 기술과 조직, 인력 면

에서 판단한 다음, 조직 전체의 전략적 정보화 계획에 빅데이터 활용 계획을 포함해야 한다.

빅데이터가 하나의 동떨어진 프로젝트로 존재해서는 실패할 가능성이 높다. 기회주의적으로

빅데이터를 활용하면 그 가치를 빨리 보여줄지는 모르지만 조직 내 마찰과 혼란을 유발하기

때문에, 빅데이터는 반드시 전사적 정보 및 분석 계획 속에 포함되어야 한다.

전략적 선택 다음으로는 기본적인 데이터 관리와 관련 인프라의 준비가 필수적이다. 여기에

더해 쉽게 간과해서는 안 되는 문제가 빅데이터에 대한 거버넌스(Governance)이다. 이는 누

Page 186: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

186

가, 어떤 데이터의 소유와 관리에 대해, 무슨 권한과 책임이 있는지 명확히 명시하는 것을 의

미한다. 그리고 조직 내 빅데이터를 활용하는 과정에서 실질적 사용자인 사업부서와 지원자인

IT부서 간의 역할과 책임, 협력 방식에 대해서도 명확한 이해와 동의가 있어야 한다.

때로는 빅데이터를 도입하는 과정에서 조직의 기존 데이터 관리 환경과 크게 충돌할 수도 있

음을 항상 유념해야 한다. 기존 기업들이 사용하고 있는 정보 시스템과 새로운 표준 및 포맷

이 서로 호환되지 않는 경우가 빈번해진다. 이로 인해 데이터 통합이나 첨단 분석 기술을 적

용하는 일이 불가능해지기도 한다.

1970년대부터 컴퓨터 시스템을 도입해 사용해온 국내 모 정부기관의 경우, 지금은 거의 찾아

볼 수 없는 컴퓨터 언어 ‘코볼(COBOL)’로 작성된 프로그램을 핵심 시스템에 아직도 사용하고

있어 최근의 빅데이터 분석 기법을 도입하는 데 커다란 걸림돌이 되고 있다.

이제 <표 16-1>과 같이 빅데이터를 도입, 활용하기 위해 고려해야 할 주요 요소들을 반영하

여 빅데이터 활용 원칙을 네 가지로 정리해보면 다음과 같다.

1) CEO가 적극적인 후원자가 되어 빅데이터의 문화를 구축하라.

빅데이터의 활용은 일종의 기업 문화다. 문화가 없으면 빅데이터를 사용하는 것 자체에 거부

감과 반발이 생겨난다. 따라서 기본적으로 조직 내에서 빅데이터를 활용하기 위해서는 그 필

요성과 가치에 대해 공감대가 형성되어야 한다. 즉 조직의 전략적 자산으로 빅데이터를 활용

하고, 경영진이 적극적인 지원을 아끼지 않으며, 빅데이터로부터 나오는 지식에 전사적으로 접

근할 수 있어야 빅데이터가 기업의 주축 문화가 된다. 이들 중 먼저 경영진의 지원에 대해 살

펴보자.

새로운 경영 혁신을 이야기할 때마다 항상 나오는 말이지만, CEO가 관심이 없으면 경영 혁신

은 추진되기 어렵다. 특히 빅데이터는 경영자의 의사결정 스타일과도 깊은 관련이 있는데, 복

잡한 환경 속에서 직관적인 빠른 판단을 중시하는 경영자는 빅데이터적인 정보에 근거해 판단

을 내리는 데 별로 매력을 느끼지 못한다. 다른 기업에서 어떻게 했는지 궁금해하는 수준으로

빅데이터를 시작하는 것은 바람직하지 않다.

CEO가 분석적인 방법에 흥미를 느끼지 못하는 경우, 기술적 문제가 아닌 적은 규모의 상업적

인 비즈니스 문제에 대해 먼저 빅데이터를 적용하여 성과를 냄으로써 효용이 있음을 보여주어

경영자의 지원을 이끌어낼 수도 있다. 기업 내에서 각종 분석이나 의사결정에 데이터웨어하우

스나 데이터마트를 이용하고 있는 경우, 이들에 대한 경영자나 사업부서의 인식 수준은 빅데

이터의 도입에도 큰 영향을 미친다. 경영자가 기존의 분석 시스템들을 돈만 들어가는 골치 아

픈 대상으로 보면서 큰 기대를 하지 않는다면 이와 같은 기존 시각부터 바꿔야 한다. 즉 경영

자 및 사업부서의 시각에서 데이터를 도입 및 활용하도록 설득해야 한다.

Page 187: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

187

빅데이터의 응용 분야 중 하나인 마케팅 분야의 CRM 시스템에서도 이와 같이 사업부서와 IT

부서 간의 협력 부재 및 시각 차이로 인해 시스템 도입이 실패로 끝나는 경우가 많다. 연구에

따르면, 미국에서는 2000년에서 2005년 사이 기업들이 2,200억 달러를 CRM 솔루션에 투

자해 CRM 시장이 연간 500억 달러씩 성장했다. 이러한 엄청난 투자에도 불구하고 공개된

데이터들에 의하면 CRM을 도입한 전체 기업의 55~75%가 실패를 경험했다(CRM 투자에 비

해 기대 수익 미달). 결국 이 기간 동안 CRM에 총 1,500만 달러를 낭비했다는 이야기이다.

문제는 기업들이 콜센터, 데이터베이스, 소프트웨어 및 웹사이트 등 새로운 첨단 CRM 솔루션

들을 도입했지만 운영 방식은 과거 그대로였으며, 단순히 고객들이 자신들이 투자한 가치를

인정해줄 것으로 믿었다는 점이다.

2) 정보 관리를 실현하고 적절한 사람을 확보, 배치하라.

빅데이터를 활용하는 기업들은 기본적으로 정보를 관리할 줄 아는 곳이다. 여러 방법을 통해

정보 관리 역량을 확보하고 있는 것 자체가 경쟁력이 된다. 이는 먼저 데이터를 신뢰할 수 있

어야 한다는 뜻이다.

즉 데이터 품질을 관리해야 한다. 그리고 여러 부서와 기능들 간에 정보를 공유할 수 있는 통

합적인 단일 데이터 플랫폼이 있어야 한다. 믿을 수 있는 유용한 데이터가 존재하고, 필요한

데이터가 어디에나 있으며, 그 데이터를 다른 부서나 팀과 쉽게 공유할 수 있는 시스템은 기

본적인 정보 관리의 출발점이 된다.

대부분의 기업들을 보면 일반적으로 각 부서나 팀이 생성, 보유하고 있는 데이터들을 사내 영

향력의 원천이라 생각해 잘 공유하지 않는다. 그러나 빅데이터를 실현하는 기업들은 이러한

데이터를 기꺼이 공유하며, 상호간에 도움을 주는 문화와 동기 부여도 체계적으로 자리를 잡

고 있다.

특정 기업들의 사례를 보면 빅데이터 분석 전문가들을 확보한 후 매우 큰 성과를 거둔 경우도

있다. 의료용품 도매업체 매케슨(McKesson)은 주문에서부터 배송을 위한 선적까지 가치사슬

의 모든 단계에 데이터와 분석 기법을 활용해 효율성을 높이고 있다. 이곳은 일상적인 보고서

개발에서부터 복잡한 데이터 분석까지 고도의 분석 기법을 활용해 자동화하는 것이 일상화되

었다. 또한 기업의 거의 절반이 콜센터 고객과의 상호작용이나 재고 관리 등의 활동을 최적화

하기 위해 빅데이터를 알고리즘으로 분석하고 있다.

빅데이터를 위해서는 적절한 인재 확보도 필수적이다. 대량의 분산된 데이터와 이에 필요한

하드웨어를 관리하는 사람들이 필요하다. 이와 같은 데이터를 비즈니스 상황에 맞게 그 의미

를 찾도록 분석할 수 있는 인력도 있어야 한다. 일부 앞서가는 국내 기업들이 사내 IT 역량을

강화하기 위해 단순히 프로그래머나 엔지니어를 채용하는 것이 아니라, 데이터를 분석할 수

있는 인력을 확보하고자 애쓰는 이유도 여기에 있다.

Page 188: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

188

앞으로 필요한 인력은 분석된 정보를 비즈니스적인 의미로 해석할 수 있는 사람들이다. 기술

은 물론 비즈니스에 대해서도 깊이 이해하고 있어 기업에서 필요한 정보와 지식이 무엇이며,

이를 빅데이터로부터 어떻게 얻을 수 있을지 제시할 수 있어야 한다.

3) 적절한 과제를 선택해 실행 경험을 축적하라.

빅데이터의 활용을 가장 큰 기회에 먼저 집중하는 것이 필요하다. 앞서 언급한 바와 같이, 이

때 기업의 전략 내에서 고려해야 한다. 가치를 확인할 수 있고 행동에 옮길 수 있는, 크고 중

요한 문제 하나에 집중하는 편이 좋다. 데이터를 보고 무슨 일에 활용할까 생각하기보다 해결

해야 할 문제를 먼저 생각하고 데이터를 찾는 편이 올바른 선택이다. 통찰력을 제공하는 데이

터에 대해 작업하기 전에, 해결해야 할 문제와 인식에 대해 먼저 이해해야 한다.

또한 빅데이터를 활용하는 것에서 그치는 것이 아니라 결과로부터 피드백을 반영할 수 있는

순환 사이클을 구축하고, 빅데이터로부터 나온 지식은 책꽂이의 책이 아닌 현장의 행동이 되

도록 해야 한다. 즉 생산된 지식을 활용하고, 활용 사례를 홍보해야 한다. 비전문가도 이해하

고 행동에 옮길 수 있는, 데이터에 기반을 둔 통찰력을 실제 경영 행위나 의사결정에 반영해

야 한다.

경험의 축적은 당연하지만 기존 역량을 보존하면서 새로운 역량을 추가하는 방향으로 이루어

져야 한다. 중앙 집중화된 분석 기법으로부터 나오는 지식이 증가하더라도 분산되어 있는 활

용 현장에서의 역량 또한 보존해야 한다.

4) 기술도 중요하지만 시작이 더욱 중요하다.

빅데이터에 대해 좀 더 심각하게 접근하기 위해서는 물론 빅데이터만의 차별적인 기술들을 고

려해야 한다. 이들은 당연히 기존 기술들과는 다르다. 예를 들어 기존에는 데이터베이스를 읽

어내는 프로그램인 SQL을 작성할 수 있는 프로그래머들이 필요했다면, 이제는 복잡한 분석

기법을 이해하고 적용할 수 있는 소위 데이터 과학자들이 필요하다. 따라서 앞으로 이런 인력

을 어떻게 양성해야 하는가도 사회적 과제이다.

또한 외부로부터 도입하는 기술들은 오픈소스 기술들이 대세가 되고 있다. 본격적으로 빅데이

터를 도입하려는 기업에는 클라우드 컴퓨팅이 신속한 인프라 구축과 역량 확보에 큰 도움을

주기도 한다. 자사의 웹 페이지로부터 생성되는 데이터보다 핵심 고객들이 좋아하는 사이트나

스마트폰 앱으로부터 나오는 데이터를 확보하기 위해 다른 기업과도 공동으로 노력해야 한다.

앞서 소개한 것처럼 빅데이터 분석으로 생산된 정보나 지식은 복잡한 그래프나 표보다는 다양

한 시각화를 통해 더욱 유용해질 수 있다.

빅데이터도 시작이 중요하다. 아직 기존에 보유한, 접근 가능한 데이터들의 분석마저도 본격적

으로 시작하지 않은 기업들이 많은 현실에서, 이처럼 최신 기술과 기법을 도입하는 것만이 빅

Page 189: 1. - SMARTCUBEsbox.smart-cube.co.kr/data/file/smart_notice/... · 2  빅데이터의 인기: 국내외 인터넷 검색 빈 ਸ 2010년 각 분기ߺ۾

189

데이터라고 생각하면 오산이다. 기존 데이터를 분석적으로 활용하는 것도 빅데이터의 시작이

다. 웹 애널리틱스나 OLAP 등의 비즈니스 인텔리전스 기법들을 활용하는 일은 큰 기술과 지

식 없이도 외부의 도움으로 시작할 수 있다. <표 16-1>에서와 같이 기술적인 부분은 빅데이터

를 성공시키기 위한 여러 요소들 중 하나일 뿐임을 명심해야 한다.

또한 빅데이터라고 해서 데이터 규모에 너무 매몰되어서는 안 된다. 실제 연구 결과, 기업들이

빅데이터 활용에서 부딪히는 문제는 데이터의 부족보다는 오류나 누락처럼 데이터 품질과 관

계된 문제들이며, 누구에게 관리 책임과 권한이 있는지 불분명한 데이터 거버넌스 문제가 더

큰 걱정거리로 나타났다. 따라서 보유한 데이터가 얼마 되지 않는다고, 기술적 장벽이 너무 크

게 느껴진다고 오르지 못할 산으로 치부해버려서는 안 된다.

빅데이터 역량을 획득하고 이를 토대로 소기의 성과를 거두기 위해서는 적지 않은 기다림의

과정이 필요하다. 하위 유형에서 출발하여 거의 ‘전략적 데이터 관리자’ 유형까지 올라와 성과

를 내고 있는 기업들의 사례를 조사해보면, 이들이 데이터 분석을 시스템화하고 조직에 완전

히 정착시켜 성과를 끌어내기까지 무려 평균 8년이라는 시간이 걸렸다고 한다.

물론 기업마다 현재 갖고 있는 기반 역량에 차이가 있기 때문에 그 시간은 훨씬 더 줄어들 가

능성도 있다. 그렇다 해도 빅데이터라는 또 다른 이용 환경에 걸맞은 인력과 시스템이 2~3년

안에 갖춰질 것을 기대하기란 매우 어려운 노릇이다. 더욱이 앞으로 어떻게 전개될지 모르는

기술의 변화 및 시장과 사회의 수용 흐름까지 감안한다면 꼬박 10년을 내다보는 안목과 인내

가 매우 절실하다.

분명 빅데이터 역량을 얻고 원활히 활용하기까지의 여정은 길고 고단할 것이다. 그러나 담대

한 시작 없이는 기쁨도 없다. 한국기업 모두가 이제 그 첫발을 내딛고, 언젠가 그 기쁨을 누릴

수 있기를 바란다.