[북리뷰] 데이터포인트 4장

31
네이선 야우의 데이터 포인트 데이터 시각화 + 인포그래픽을 깨우치다 B o o k R e v I e w 박소영, 이주원 http:// newsjel.ly /

description

네이선 야우의 데이터 포인트 북 리뷰. 데이터가 무엇인가부터 데이터를 시각화하고 인포그래픽으로 나타내는 과정까지를 설명했습니다. 4. 데이터의 시각적 탐색 1) 작업과정 2) 범주형 데이터의 시각화 3) 시계열 데이터의 시각화 4) 공간 데이터의 시각화 5) 다중 변인 6) 분포 데이터 저널리즘의 새 바람, 뉴스젤리(Newsjelly) http://newsjel.ly

Transcript of [북리뷰] 데이터포인트 4장

Page 1: [북리뷰] 데이터포인트 4장

네이선 야우의

데이터 포인트 데이터 시각화 + 인포그래픽을 깨우치다

B o o k R e v I e w 박소영, 이주원

http://newsjel.ly/

Page 2: [북리뷰] 데이터포인트 4장

네이선 야우의

데이터 포인트 데이터 시각화 + 인포그래픽을 깨우치다

Ch. 4 데이터의 시각적 탐색 작업 과정 / 범주형 데이터의 시각화 / 시계열 데이터의 시각화 / 공간 데이터의 시각화 / 다중 변인 / 분포

http://newsjel.ly/

Page 3: [북리뷰] 데이터포인트 4장

작업 과정 ü  어떤 데이터를 가지고 있는가?

ü  데이터에서 무엇을 알고자 하는가? ü  어떤 시각화 기법을 사용해야 하는가?

ü  무엇을 보여주고 있고 그 결과가 적절한가?

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 4: [북리뷰] 데이터포인트 4장

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

ü  어떤 데이터를 가지고 있는가?

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터를 먼저 취하고 구성한 뒤 시각화 작업을 데이터에 맞게 수행해야 하며, 탐색하고 싶은 데이터가 있을 때 수치들이 표현하는 대상이 무엇인지, 어디서 획득되었는지,

어떤 변수들이 측정되었는지 등을 고려해야 한다.

Page 5: [북리뷰] 데이터포인트 4장

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

ü 데이터에서 무엇을 알고자 하는가?

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

처음 시작할 때 데이터에 대해 알고 싶은 것이 무엇인지 자신에게 물어보고, 조사를 진행하면서도 더 많은 질문을 하면서 파고들어야 한다.

Page 6: [북리뷰] 데이터포인트 4장

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

ü 어떤 시각화 기법을 사용해야 하는가?

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

다양한 차트들을 만들어보고 여러 변수들을 비교하면서 흥미로운 가치를 찾아보는 단계로, 다양한 시각적 형태들을 가지고 실험해 보면서 가치가 있는 그래픽을 발견한다.

심플하게만 보여주려 하지말자. 복잡한 데이터는 복잡한 시각화가 필요할 때가 있다.

Page 7: [북리뷰] 데이터포인트 4장

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

ü 무엇을 보여주고 있고 그 결과가 적절한가?

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

흥미로운 점들을 찾아낸 후에는 다음과 같이 되묻는 것이 중요하다. ‘ 결과가 이치에 맞는가? ’, ‘ 왜 이치에 맞는가? ’

Page 8: [북리뷰] 데이터포인트 4장

범주형 데이터의 시각화

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

범주들 / 전체를 이루는 부분들 / 하위 범주들

Page 9: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

0   2   4   6  

D  

C  

B  

A  

A B C

막대 그래프 직관적인 비교 가능

기호 그래프 작은 차이를 구별하기어려운 면이 있음

범주들: 데이터가 간단하면 읽기도 만들기도 쉽다

Page 10: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

전체를 이루는 부분들: 범주별 구분이 흥미롭거나 필수는 아니지만 전체 그룹을 같이 제시하고 싶을 경우

파이 차트 전체가 100%, 가독성을 위해

반시계 방향으로 정렬

축적 막대 그래프 여론조사 결과를 보여줄 때 사용,

원본 수치 표시하기 위함

0%   50%   100%  

D  

C  

B  

A  

Page 11: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

하위 범주들: 위계 구조를 가진 데이터는 데이터 해석이 중요하므로 다른 시점에서 볼 수 있도록 해야 한다

트리맵 좁은 공간에 나타내고

면적 + 색상 단서로 나타냄

모자이크 그래프 한 시점에서 여러 개의 범주 간 비교 가능

A  

B  

C  

D  

E  

A

B

C D E

Page 12: [북리뷰] 데이터포인트 4장

http://visual.ly/mobile-usage-around-world

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 13: [북리뷰] 데이터포인트 4장

시계열 데이터의 시각화

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

시계열 / 주기

Page 14: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

시계열: 시간 변화에 따른 패턴을 보여주기 위해 길이, 방향, 위치 등을 이용

막대 그래프 시간에 따른 데이터의 개별적인 수치 확인

선 그래프 경향 파악

4  

0  

1  

2  

3  

1995   2000   2005   2010  

4  

0  

1  

2  

3  

1995   2000   2005   2010  

Page 15: [북리뷰] 데이터포인트 4장

4  

0  

1  

2  

3  

1995   2000   2005   2010  

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

시계열: 시간 변화에 따른 패턴을 보여주기 위해 길이, 방향, 위치 등을 이용

점 그래프 (산포도) 개별 데이터를 점으로 표현하고

데이터가 맞지 않을 경우 경향을 보여 줌

점-막대 그래프 종단 지점에 더 집중

4  

0  

1  

2  

3  

1995   2000   2005   2010  

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 16: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

주기: 시간 단위로 분절된 부분을 정렬하기에 좋음

방사형 그래프 한 바퀴 회전하면서 연결됨

캘린더 주별 요일로 나타나는 패턴을

쉽게 제시할 수 있음

12a  

3a  

6a  

9a  

12p  

3p  

6p  

9p  

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

2011년 1월

Page 17: [북리뷰] 데이터포인트 4장

http://visual.ly/permanent-residents-philippines-canada

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 18: [북리뷰] 데이터포인트 4장

공간데이터의 시각화 위치. 지역. 카토그램(통계지도)

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 19: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

위치 위도와 경도 정보를 직접적으로 적용하는 방법으로 직접적이고 직관적이다.

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 20: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

지역 개별 포인트를 표시해 중복되게 하지 않고 지역별 밀도로 표시한다.

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 21: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

카토그램(통계지도) 데이터를 기반으로 지역의 크기를 보여주고 물리적 면적은 무시한다.

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 22: [북리뷰] 데이터포인트 4장

다중 변인 몇개의 변인, 다수의 변인, 다중 뷰 사용하기

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 23: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

상관 이란? 변인들 간의 통계적 관련성

강한 상관관계 약한 상관관계

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 24: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트"

http://newsjel.ly/"

크기와 색상을 사용하여 한 시각화 결과물에 세가지 이상의 변인을 포함시킬 수 있다

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 25: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트"

http://newsjel.ly/"

평행좌표 그래프란? 수평방향으로 변인들을 배치하고, 수직축에 수치를 표현하는 방법이다.

여러 변인들의 상관관계를 한화면에서 볼 수 있다. 그러나 복잡해져서 보기 어려운 경우가 많이 생긴다.

양의 상관관계 선들이 평행하다.

음의 상관관계 선들이 일관성 있게 교차된다.

약한 상관관계 방향이 불명확하다.

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 26: [북리뷰] 데이터포인트 4장

분포 몇개의 변인, 다수의 변인, 다중 뷰 사용하기

[출처] 네이선 야우, 데이터 포인트

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 27: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트 "

http://newsjel.ly/"

박스그래프 범위와, 중간값, 4분위값을 나타냄

바이올린 그래프 박스 그래프와 밀도 그래프의 조합 형태

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

분포 요약 : 구체적 분포보다는 핵심적인 수치를 보여줌

Page 28: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트"

http://newsjel.ly/"

히스토그램 수평축은 계급 구간축이고 수직축

은 밀도를 나타냄

밀도 그래프 히스토그램과 비슷한 개념이지만 계급 대신 연속적 변화를 나타냄

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

단일 변인의 분포 : 데이터가 군집되어 있는 형태와 특이점을 발견할 수 있다

Page 29: [북리뷰] 데이터포인트 4장

[출처] 네이선 야우, 데이터 포인트"

http://newsjel.ly/"

히트맵 2차원 평면에 밀도를 색상으로 표시

서피스 그래프 히트맵과 비슷한 패턴을 보이지만 색상 대신 높이를 시각적 단서로 사용

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

다중 변인의 분포 : 동시에 표시되어야 의미 있게 제시 될 수 있는 수치들도 있다

Page 30: [북리뷰] 데이터포인트 4장

정리하기 데이터를 이해하기위한 중요한 열쇠는

데이터를 보면서 어떤 의문을 가져야 하는지를 아는 것!

To be Continued..

http://newsjel.ly/

데이터의 시각적 탐색 – 작업과정 / 범주형데이터의 시각화 / 시계열데이터의 시각화 / 공간데이터의 시각화 / 다중변인 / 분포

Page 31: [북리뷰] 데이터포인트 4장

Enjoy Data news, Like Jelly 뉴스젤리는 빅데이터 분석을 기반으로 인포그래픽, 차트, 그리고 새콤달콤한 스토리를 통해 누구나

흥미로워 할 수 있는 뉴스를 제공하는 서비스입니다. [email protected]

박소영, 이주원 데이터의 의미와 가치를 Data Visualization을 통해 많은 사람들에게 의미있고 아릅답게 전달하는 것을

목표로 하고 있습니다.