데이터 시각화하기

9
Representing Data Graphically http://www.uwlax.edu/faculty/brooks/bus230/handouts/designing%20graphs.pdf By Taggert J.Brooks 데이터 시각화 데이터를 그래프로 나타내기 데이터 시각화는 정보 시각화라고도 불린다. 이것은 컴퓨터 공학, 통계 그리고 디자인을 총 집 합한 것으로써 좌뇌와 우뇌의 결합, 다시 말해 과학과 예술의 결합이라고 할 수 있다. 데이터를 흥미롭고 심미적으로도 보기 좋게, 그리고 유익하게 표현하는 것이 데이터 시각화의 목적이다. 데 이터 시각화는 원활하게 소통하고 싶어하는 통계학자에게는 하나의 수단이 되고, 디자이너들에게 는 데이터를 더 잘 이해하기 위한 길이 된다. 이 논문은 데이터 시각화 테크닉을 위한 지침서이며 필자는 그 실제적인 방법들을 제공한다. 하 지만 모든 것을 제공하진 않으므로 그 공백은 구글과 인터넷에서 해결하길 바란다. 방대한 데이터 인터넷은 우리가 생성한 방대한 양의 데이터 안에서 발전되어 왔는데, 이것들은 저장도 되며 쉽 게 접근 가능하다. 하지만 현재, 우리는 쓸모 없는 데이터 속에서 쓸모 있는 데이터를 걸러내어 그것을 사업상의 의사 결정이나 연구에 어떻게 쓸지를 결정해야 하는 문제에 직면해 있다. 당신은 프레젠테이션을 위해 어떤 타입의 미디어를 사용할 것인가? 글로 쓰여진 보고서를 쓸 것 인가, 파워 포인트를 쓸 것인가? 달리 말하면, 통계적으로 시각화할 것인가 역동적으로 시각화 할 것인가의 문제이다. 이러한 의문들은 당신이 시각화 방법을 선택할 때 제일 처음으로 답해야 할 문제들이다. 적합한 그래프 선택

Transcript of 데이터 시각화하기

Page 1: 데이터 시각화하기

Representing Data Graphically

http://www.uwlax.edu/faculty/brooks/bus230/handouts/designing%20graphs.pdf

By Taggert J.Brooks

데이터 시각화

데이터를 그래프로 나타내기

데이터 시각화는 정보 시각화라고도 불린다. 이것은 컴퓨터 공학, 통계 그리고 디자인을 총 집

합한 것으로써 좌뇌와 우뇌의 결합, 다시 말해 과학과 예술의 결합이라고 할 수 있다. 데이터를

흥미롭고 심미적으로도 보기 좋게, 그리고 유익하게 표현하는 것이 데이터 시각화의 목적이다. 데

이터 시각화는 원활하게 소통하고 싶어하는 통계학자에게는 하나의 수단이 되고, 디자이너들에게

는 데이터를 더 잘 이해하기 위한 길이 된다.

이 논문은 데이터 시각화 테크닉을 위한 지침서이며 필자는 그 실제적인 방법들을 제공한다. 하

지만 모든 것을 제공하진 않으므로 그 공백은 구글과 인터넷에서 해결하길 바란다.

방대한 데이터

인터넷은 우리가 생성한 방대한 양의 데이터 안에서 발전되어 왔는데, 이것들은 저장도 되며 쉽

게 접근 가능하다. 하지만 현재, 우리는 쓸모 없는 데이터 속에서 쓸모 있는 데이터를 걸러내어

그것을 사업상의 의사 결정이나 연구에 어떻게 쓸지를 결정해야 하는 문제에 직면해 있다.

당신은 프레젠테이션을 위해 어떤 타입의 미디어를 사용할 것인가? 글로 쓰여진 보고서를 쓸 것

인가, 파워 포인트를 쓸 것인가? 달리 말하면, 통계적으로 시각화할 것인가 역동적으로 시각화 할

것인가의 문제이다. 이러한 의문들은 당신이 시각화 방법을 선택할 때 제일 처음으로 답해야 할

문제들이다.

적합한 그래프 선택

Page 2: 데이터 시각화하기

적합한 그래프를 선택하는 것은 어려울 수 있다. 당신의 데이터와 통계, 그리고 디자인 요소들

을 모두 포함해야 하기 때문이다.

쓸모 없는 그래프

우리가 흔하거나 흔하지 않은 시각화를 살펴보기 전에 쓸모 없는 차트들에 관한 링크들을 먼저

보는 것이 좋다고 생각한다. Stephen Few는 쓸모 없는 차트들에 관한 훌륭한 샘플들을 제공한다.

그리고 문제들을 고치는데 필요한 조언들을 해준다. (http://www.perceptualedge.com/examples.php

참고)

그래프 종류

마이크로소프트 엑셀은 그래픽 자료를 만드는데 흔히 쓰이는 도구이다. 하지만, 쓸모 없는 디자

인도 있다. 그리고 이런 디자인들은 절대 사용되지도 않는다.

마이크로소프트 엑셀 2007의 전통적인 데이터 그래픽 도구에는 이런 것들이 있다.

Pie chart

파이 차트는 여러 카테고리들의 비율을 비교하는 것을 보여주는데 유용하다. 하지만, 많은 카테

고리들이 보여질수록, 더 많은 ‘조각’들이 나오게 되고 그럴수록 차트를 읽는데 어려움이 커진다.

Bar and Column Charts

Page 3: 데이터 시각화하기

막대 차트들은 분류 별 데이터 분석을 할 때 좋다. 당신은 각각의 카테고리에서 답변들의 빈

도를 나타낼 수 있다.

아래에 필자가 강조하곤 했던 미국의 GDP비율에 따른 부채 비율 막대 차트가 있다. 하나의 막

대가 빨간색으로 표시되어 다른 OECD국가들과 비교한 미국의 지표를 보여주며 시선을 사로잡는

다. 필자가 만약 각 나라별로 각각 다른 색깔을 넣었다면 얼마나 혼란스러웠을까? 아니면, 모든

나라들에게 똑 같은 색깔을 넣었다면 어땠을까? 명백하게도 막대 차트는 색깔로 구분된다. 그런

데 흑백으로 인쇄되는 상황에서는 과연 유용할까?

Tables

우리는 차트를 만들기 위해서 항상 바쁠 필요는 없다. 가끔은 숫자들을 표로 만들어서 보여주는

것이 충분히 핵심을 짚을 수 있기 때문이다. 두 가지를 섞으면 어떨까? 아래의 두 예시는 엑셀

2007에 있는 포맷이다. 차트의 그래픽 디자인과 표에 있는 데이터 양식을 합친 양식인 것이다.

Page 4: 데이터 시각화하기

데이터를 이러한 형식으로 보여주면 큰 것부터 작은 것까지 순위를 나타내는데 유용하다.

Choropleth Maps (Color Maps)

등치 지역도는 2차원적 물체 인식을 하는 세부적 유형의 적외선 열지도이다. 이 지도는 기본적

변수들이 강조되는 것에 따라 색깔이 칠해진다. 보통 어두운 색깔은 큰 지표를 나타낼 때 사용한

다. 이것은 지리적으로 다양한 데이터를 시각적으로 보여주는데 훌륭한 방법이다.

이런 종류의 지도에도 문제점은 존재한다. 지리적 지역이 “위험한 상태의 지역”과 관계가 없는

데도 불구하고 보는 사람들로 하여금 잘못 인식하게 할 수도 있기 때문이다.

Page 5: 데이터 시각화하기

Cartograms (Distorted Maps)

색깔을 사용하는 지도의 다른 예는 아래에 제시된, 어떤 기본적인 변수에 바탕이 된 왜곡된 지

도이다. 아래의 경우는 알코올의 소비에 관한 지도이다. 색깔은 다른 나라들의 경계를 표시하는

데에만 쓰이고 있다.

Word Clouds

워드 클라우드는 주관식 답변을 보여주는데 유용하다.

Page 6: 데이터 시각화하기

그런데 이것에도 문제가 있다.

10명의 사람이 'good times'라 말하고, 또 다른 10명의 사람이 'bad times'라 말했다고 가정해

보자. 'times'라는 단어가 동일하게 나오면서 이 단어를 가장 많이 대답(20번 나왔으므로)한 것으

로 간주하어 워드 클라우드에 가장 크게 표현이 된다. 그런데 이 단어는 원래 답변들이 갖고 있

는 감정에 대한 것이 아니다

이 문제는 한 대답에 있는 모든 단어들을 물결 기호(~)를 이용하여 묶어줌으로써 해결된다. 단어

들을 ~이렇게 묶는 것인데, Wordle에서 워드 클라우드를 만들어준다. 이것은 5개 이상의 질문에

대한 답변들을 시각화하는데 가장 좋은 방법이다.

Data Visualizaton in Seminars/Talks/Presentations

청중이 집에 있는 컴퓨터 앞에 앉아있지 않고 당신 바로 앞에 있다면, 당신은 그들 주의를 집

중시킬 필요가 있다.

여기에 세미나 / 간담회 / 프레젠테이션에서 데이터를 간소화시키는 원리를 보여주는 예가 있다.

아래의 차트는 세가지 지표들을 갖고 있는데, 물이 몸, 뇌 그리고 피에서 차지하는 비율을 보여주

는 것이다. 당신이 청중이라면 이 차트가 흥미로운가, 아니면 지루한가?

Page 7: 데이터 시각화하기

만약 이 똑 같은 지표들을 파워포인트 슬라이드를 이용하여 다르게 표현한다면 어떨까?

Page 8: 데이터 시각화하기

우리는 막대 그래프로 데이터를 표현할 수도 있다. 간단하고, 쉽게 이해할 수 있기 때문이다. 하

지만, 시각적으로 자극이 되지 않는다. 너무 “데이터에 치중”해 있기 때문이다. 그래서 당신은 위

3개의 파워포인트 슬라이드가 프레젠테이션에서 훨씬 더 큰 영향력을 발휘한다는 것에 동의할 것

이다.

훌륭한 프레젠테이션은 괜찮은 프레젠테이션 슬라이드를 만드는 것 외에도 생각해야 할 것들이

있다. 좋은 전달자가 되고 좋은 이야기를 전달해야 한다는 것이다. 당신은 어떻게 이것을 학습하

고 있는가? 몇 개의 훌륭한 프레젠테이션들을 보아라. 그들이 어떻게 청중들과 소통하고, 자신의

생각들을 표출하는지에 주목해야 한다.

Some Dos and don’ts

Don’t Do

엑셀의 3D 그래픽을 사용하지 말아라

마이크로 소프트사의 클립 아트를 사용하지 말

아라

사진을 사용하라

파워포인트 디자인을 사용하지 말라 당신의 디자인을 반복하여 사용하라

당신의 프레젠테이션을 읽어보지 말라 프레젠테이션을 연습 / 리허설 하라.

중요 항목들을 표시하는 기호를 사용하지 말라 각각의 슬라이드에 하나의 항목들만 표시하라

References and Endnotes

아래에 데이터 시각화와 그 세계를 주도하는 사상가들에 대한 몇 개의 쓸만한 링크들을 첨부한

다.

http://junkcharts.typepad.com/

http://www.visualcomplexity.com/vc/

http://www.edwardtufte.com/tufte/

http://www.perceptualedge.com/

http://infoclarity.blogspot.com/

http://eagereyes.org/

http://charts.jorgecamoes.com/

http://visualizeit.wordpress.com/

Page 9: 데이터 시각화하기

http://www.visualizingeconomics.com

http://www.juiceanalytics.com/writing/