Bloter 넥스트 저널리즘 스쿨 강의자료

Post on 21-Apr-2017

1.543 views 5 download

Transcript of Bloter 넥스트 저널리즘 스쿨 강의자료

https://goo.gl/Ri2qSK

“Be a journalist first. Don’t use the computer to shut out the world”

-Philip Meyer-

저널리즘 정신으로 질문하고 송곳같은 기획 물론 중요 데이터저널리즘 관점에서 조금 더 현실적으로 보자 데이터? 예전처럼 기자에게 잘 정리해서 주지 않는다 어머어마한 스프레드시트의 데이터 속에서 인사이트 찾아야 함

• Intro to D3 • Intro to JavaScript • Intro to the DOM and jQuery • Building Maps with Leaflet • Github • OpenRefine • Data wrangling with Python • Regular expressions • Getting started with SQL • What's the Story with Algorithms?

NICAR2016 expected sessions

https://goo.gl/6MhJkn

오늘 함께 배울 R은 대략 이렇습니다

2015 한국온리인저널리즘 어워드 데이터저널리즘 부분 최우수상

한국언론진흥재단 빅데이터 저널리즘 프로젝트 회의

실제 정제한 데이터 예시

1. 노벨상 공식사이트에서 스크래핑 2. 이름, 국가, 년도 그리고 value 3. 국가명에서 수작업 정제

1. 옛 국가명 -> 현재 국가명 2. 인코딩 (UTF-8)

4. Mapping visualization

http://goo.gl/YowHzA

데이터 저널리즘 멋지게 보이나요?

실제 정제한 데이터 예시 1. 해양사고 데이터 수집 2. 타입과 위치, 사고 이유 등을 활용하기 위해 정제 진행

1. 정확한 주소는 정확한 위경도값을 반환 3. 결국 사용하지 못함 4. 잘못된 위경도 값 (국내 공공데이터의 품질 문제)

데이터 저널리즘 멋지게 보이나요?

실제 정제한 데이터 예시 1. 해양사고 데이터 수집 2. 타입과 위치, 사고 이유 등을 활용하기 위해 정제 진행

1. 정확한 주소는 정확한 위경도값을 반환 2. 정제 후에 활용하지 못해 허탈한 경우

3. 결국 사용하지 못함 4. 잘못된 위경도 값 (국내 공공데이터의 품질 문제) 5. https://goo.gl/24niN7

데이터 저널리즘 멋지게 보이나요?

실제 정제한 데이터 예시 1. 정확한 데이터를 위해 데이터셋 제작 2. ggmap package를 활용하여 위경도값 전체 변환 3. Daum API 활용 4. html, css, javascript로 디자인 5. 맛집지도 탄생 6. 좋은 재료로 멋진 음식을 만듬

http://goo.gl/XMqJU7

데이터 저널리즘 멋지게 보이나요?

데이터저널리스트를 위한 교육 필요

• 커뮤니케이션 전공의 커리큘럼 변화 필요

• 커뮤니케이션을 매개하는 채널의 다변화 ➝ 다양한 채널에

대한 기술적인 이해가 필요 (예: 채널의 기술적 특성, 정보

의 기본구조, 서비스의 구성요소 등)

• 데이터를 다루고 처리할 수 있는 능력 필요

• 해외: 컴퓨테이셔널 저널리즘(Computational

Journalism), 데이터 저널리즘(Data Journalism) 등의 교

육 커리큘럼 개발 중

해외 사례

컴퓨테이셔널 저널리즘 커리큘럼

• 현재 미국과 유럽에서 활발하게 연구와 교육이 진행

• 관련 학과에서 저널리즘 커리큘럼으로 채택

• Data-Driven Journalism ➝ Data Journalism

• New York Times, The Guardian 등의 언론사에서 데이터 저널

리즘 전담 팀 만들어 활동 ➝ 데이터 저널리스트 전문 인력 수요

증가

• Columbia Journalism School 과 Stanford Communication

School ➝ 데이터 리터러시를 높이고 데이터를 쉽게 수집, 분석,

시각화할 수 있는 능력을 갖춘 인재 양성 프로그램 제공

2013년 언론 방송 매체학 관련 학과 취업률

학과전공 구분 재적생(명) 졸업생(명) 취업자(명) 취업률(%)

언론 방송 전문대학 3,147 1,047 354 37

언론 방송 매체학 대학 15,261 3,295 1,504 47

자료 : 한국교육개발원 교육통계 DB (2013년 6월)

Columbia University Journalism School

• The LEDE Program

• An Introduction to Data Practices

• 데이터 저널리즘과 센서 저널리즘과 같은 data-driven 커리큘럼

제공

• 섬머스쿨: 프로그래밍과 같은 기본적인 컴퓨터 교육 실시

• 학기 중: 데이터 구조, 분석, 비주얼라이제이션 등의 수업 제공

➝ 데이터 저널리즘에 필요한 기술과 방법론 교육

Stanford Communication School

• Journalism Program

• 스탠포드 커뮤니케이션 스쿨은 최근 저널리즘 프로그램을 통해 ‘데

이터 기반 저널리즘’ 커리큘럼 제공

• 전통적인 저널리스트를 양성하는 것이 아니라, 데이터, 멀티미디

어와 컴퓨테이션에 기반한 새로운 시대의 저널리스트의 양성을

교육의 목표로 삼고 있음

꿈꾸는 데이터 저널리스트 (예정)

• Data Journalism Program (비영리교육)

• 데이터저널리스트를 꿈꾸는 대학생 대상

• 데이터를 수집, 정제, 분석, 가공하는 과정에 대한 교육

• 데이터저널리즘 뿐만 아니라 간접적 활용 기술 교육

• 기술 교육 뿐만 아니라 프로젝트 수행 (팀프로젝트)

R for data journalism

• 데이터 분석, 정제, 시각화가 아닌 좋은 데이터를 먼저 찾자

• 툴에 너무 직찹하지 말자. 한가지만 특화시키자

WHAT IS R ?

what is r

• 오픈소스 • SPSS와 같은 유료 프로그램의 훌륭한 대안 • 통계처리 및 그래픽 작업을 위한 컴퓨터 언어 환경 • 특히 통계와 시각화에 강점을 가짐 • 초보자도 충분히 활용 가능 • 패키지를 통한 다양한 기능 확장 • 데이터저널리즘에 유용한 언어

| R이란?

데이터저널리즘에서 R을 배워야 하는 7가지 이유

1. R에서 모든 데이터저널리즘을 수행 2. R은 무료이자 오픈소스란 매력 요소를 가짐 3. 쉽게 배울 수 있으며 준비 과정이 간편하다 4. 특히 dplyr, ggplot2, ggmap이란 강력한 패키지 5. R은 툴이 아니기 때문에 당신이 원하는 곳까지 데려다 줌 6. 모든 정제과정을 투명하게 공유할 수 있음 (스크립트) 7. 커뮤니티가 많이 형성되어 있음 (R-bloggers)

what is r

R spreadsheet

Data manipulation Data calculation

any data type xls, xlsx, csv

faster heavy software

support larger dataset limited dataset

Many packages X

Free license

WHAT IS RSTUDIO ?

what is r

• R을 활용하기 유용한 통합 개발 환경(IDE) • 5분이면 설치 및 세팅 완료

what is r

https://www.rstudio.com 메인페이지 Download Studio 클릭

R을 활용한 사례

Data journalism Media

Amanda Cox (NYT)

“The best journalism is probably not mad libs. Generic solution are pretty rarely awesome.”

-Amanda Cox-

Step1 : Sketch

Step2 : Analyzing Pattern with R

Step3 : Making Storytelling

Step4 : Data Visualization

SRF Data (Swiss)

At SRF Data – the data journalism unit of Swiss public broadcast, the place where I work – almost all of our larger

projects in 2015 used R in some form or another. On election day, for example, we published countless fast infographics and charts on Twitter that found great acclaim. With R, we were able to prepare the charts in advance and just had to fetch new results from our SRF-wide API as soon as they

were available. Even tweeting the charts directly from within R would have been possible (we’ll do that during the next

elections in 2019).

http://jplusplus.se/covering-election-night-with-r/

FiveThirtyEight

http://goo.gl/fshT5i

http://fivethirtyeight.com/datalab/is-baseball-moving-beyond-old-guys-in-the-dugout/

간단한 패키지 실습 사례

COMPUTATIONAL INFORMATION DESIGN

1.Acq

uire

2.Parse 3. Filter

4. mine

Comp

uter S

cience

Mathematics, Statistics & Data Mining

7. Interact

InfoVis & HCI

Interaction Design

6. refine

5. R

epres

ent

Graphic Design

데이터정제 REFINEMENT

데이터수집 CRAWLING

데이터분석 ANALYSIS

데이터시각화 VISUALIZATION

데이터수집 CRAWLING

R - rvest packageSTEP 1 • Hadley Wickham 제작

• 파이프 (%>%) 기능 사용 가능 • Table, List 형태의 웹데이터 스크래핑 • Google importHTML 기능과 동일 • 직접 웹에서 데이터를 스크래핑 하는 것을 배워보고 실습 예정

Google Spreadsheet• 가벼운 테이블과 리스트는 구글스프레드 시트에서 스크래핑 가능 • R을 실행시킬 필요 없이 바로 구글 스프레드에서 엑셀로 import • csv, excel 등 다양한 포맷으로 export

데이터수집 CRAWLING

서울시 공공데이터 API 활용STEP 2

• 서울시 열린데이터 광장 API 활용 방법 설명 • API 데이터를 획득하는 방법과 명세 보는 방법 교육 • 실제로 API를 활용하여 공공데이터 가져오는 방법 교육 및 실습 • 팀프로젝트에서 활용하여 열린데이터광장 활용사례 등록 추천

Twitter 소설 데이터 • 트위터 소셜 데이터 크롤링 방법 교육 • 특정 키워드, 기간을 설정하여 관심있는 주제로 크롤링 실습 • R과 Twitter를 함께 활용

R - dplyr packageSTEP 3

• Hadley Wickham 제작 • Data Wrangling에 특화된 패키지로 데이터 정제에 용이 • select, groupby 등 다양한 매소드를 활용하여 쉽고 빠르게 데이터 정제

• 해외에서는 데이터 정제에 활발히 활용

Google Refine• 구글에서 제작한 오픈소스 데이터 정제 툴 • 웬만한 데이터는 R에서 데이터 정제 하는 것보다 훨씬 효율적 • 정규표현식을 활용한 데이터 정제 가능

데이터정제 REFINEMENT

STEP 4

데이터분석 ANALYSIS

Social Network

k-means & Clustering

Correlation & Regression Analysis

D3.jsSTEP 5

• Mike Bostock이 라이브러리 제작 • JavaScript 기반의 라이브러리로 전세계적으로 많이 시각화로 활용하고 있는 시각화 라이브러리

• Bar, Pie, Line Chart와 같이 차트별 라이브러리 교육 진행 예정 • Cartography (Mapping) 로 서울시 지도 시각화

Infogr.am• 간단하고 빠르게 시각화 할 수 있는 Infogr.am • div 공유 링크를 통해 확장성 큼 • 데이터와 다양한 멀티미디어의 결합을 통한 스토리텔링 데이터 콘텐츠 제작

데이터시각화 VISUALIZATION

STEP 5

데이터시각화 VISUALIZATION

Data Visualization

• 뉴욕타임즈 데이터 저널리즘 ‘The Upshot’의 2014-2015년 포트폴리오

• DAVID LEONHARDT 중심의 데이터 시각화(저널리즘)로 특화

http://www.nytimes.com/interactive/2015/04/22/upshot/happy-birthday-upshot.html?rref=upshot

ggplot2

STEP 5 • R에서 시각화가 가능한 ggplot2 교육 • 정제, 분석된 데이터를 활용해 실습

ggmap• 위경도 값을 활용하여 맵핑 시각화 • 샘플 데이터와 실제 데이터를 수집하여 맵핑해보기

데이터시각화 VISUALIZATION

R script는 GitHub에서 다운로드 하실 수 있습니다https://github.com/sangjaebae/next_journalism

Data Scraping | rvesthttps://goo.gl/jNNRVl

Google Spreadsheet로 간단한 수집 가능

=importXML 함수를 활용한 NewYorkTimes 메인화면 기사 헤드를 긁어옴

=IMPORTXML("http://www.nytimes.com", "//h2[@class='story-heading']")

규칙성 있는 데이터스크래핑은 사실상 정제할 것이 거의 없음

Data Wrangling | dplyrhttps://goo.gl/jNNRVl

Data visualization | ggplot2https://goo.gl/oAHieW

R은 왜곡된 데이터시각화 XKBS사례

• 데이터를 악용하는 사례, 2014 KBS 6월 지방선거 • 데이터 시각화에 왜곡 • 시각화를 데이터에 기반하지 않은 차트 제작으로 많은 비판을 받음

Data visualization | ggmaphttps://goo.gl/O1kEJ0

Twitter Data | twitteRhttps://goo.gl/jmy6MC

데이터를 직접 수집, 정제, 분석 후 시각화까지 프로그래밍 하는데이터 저널리스트, 데이터 디자이너들은 해외에서 증가하고 있는 추세.

계속 증가하는해외 데이터 디자이너, 저널리스트

amanda cox(NYT) scott murray(prof of USF)

“데이터저널리즘 좋은건 안다…. 누가?” “좋은 데이터저널리스트 추천해주세요. 근데 기자로는 채용이 힘들…” “데이터저널리즘? 그거 저널리즘이라기 보단 기술아닌가요?”

국내 현실은….

하지만 천천히.. 국내에서도데이터저널리즘에 대한 관심 증가

SBS, KBS, YTN, 뉴스타파, JTBC, 한국경제신문 등많은 언론에서 데이터 관련 채용 문의 (추천식 채용)

이젠 외국의 이야기가 아닌 우리들의 이야기 그리고 직접 실천하는 사람들의 이야기

한국에선 서서히 시작됐던 데이터 시각화. 그러나 관심있는 사람의 모임만 있을 뿐 열악한 환경

꿈꾸는 데이터 디자이너를 발판으로 성장한 이들 새로운 커뮤니티와 흐름의 탄생

• 데이터리터러시는 데이터 시대에 기자가 가져야할 필수 능력 • R은 데이터저널리즘을 수행하는데 있어서 큰 역할 • Data Driven Article 중요

• 배우고자 하는 분들끼리 스터디 (학교에서 가르쳐주지 않는 것들) • 배우고자 한다면 기술은 결국 정복되는 것 • 기술이 바탕이 됐다면, 멋진 기획을 해보자

datalism.org

2년 넘게 데이터저널리즘을 공부

전 늦게 공부를 시작했지만 여러분들은 일찍할 수 있다

나누고 싶었고 그래서 스터디 했고 꿈데디 했다

데이터저널리즘 넘어야할 벽들이 많다

함께 했으면 좋겠다

“Be a good journalist with data”

R references

WEBSITE

https://www.datacamp.com/

http://lumiamitie.github.io/

http://rddj.info/

http://spreadsheetjournalism.com/

http://www.r-bloggers.com/

BOOK

BOOK ABOUT DDJ

2014 - 2015 데이터 저널리즘 관련 도서

1. 데이터 저널리즘 / 알렌산더 벤자민 하워드 2. 데이터 분석과 저널리즘 / 함형건 3. 데이터 저널리즘 / 임종섭 4. THE DATA JOURNALISM HANDBOOK 5. 데이터 저널리즘 / 조너선 그레이

• 2014년부터 데이터 저널리즘 관련 책들이 나오기 시작 • 함형건 앵커의 데이터 분석과 저널리즘을 제외하고는 이론적 방향성만 제시하는 수준에 그침 • 언론정보 학생들이 데이터 저널리즘에 관심은 많지만 하는 방법을 몰라서 못하는 경우가 많음

Articles

지금은 저널리즘 대변환기 <상> 지역신문의 생존 전략-美 텍사스트리뷴 성공 비결 http://www.kookje.co.kr/news2011/asp/newsbody.asp?code=0300&key=20150504.22018191105

저널리즘의 또 다른 희망 '데이터 분석’ http://www.zdnet.co.kr/column/column_view.asp?artice_id=20150308182227&type=det&re=

왜 ‘데이터 저널리즘’인가? http://news.kbs.co.kr/news/NewsView.do?SEARCH_NEWS_CODE=3028270&ref=A

“포털 야구 중계, 로봇 저널리즘이 대체 가능해“ http://www.bloter.net/archives/227030

“빅데이터로 저널리즘 위기 극복 가능하다” http://www.newshankuk.com/news/content.asp?fs=1&ss=3&news_idx=201503202235491103

데이터 저널리즘, 생각을 바꿔라 http://www.mt.co.kr/view/mtview.php?type=1&no=2014061914280578959&outlink=1

“데이터 시각화는 더 나은 소통을 위한 방법” http://www.jobnjoy.com/portal/jobnews/plan_explan_view.jsp?nidx=74864&depth1=1&depth2=1&depth3=1

저널리즘 새 대안으로 부상한 데이터저널리즘 http://www.yonhapnews.co.kr/bulletin/2015/03/13/0200000000AKR20150313133800005.HTML?input=1195m

ABOUT ARTICLES

Yeowoon Bae

전공

활용

경력

신문방송학

유럽데이터저널리즘 강의Infogr.am Korean Ambassador중앙일보 데이터 저널리즘 강의중앙SUNDAY 컨설턴트한국경제신문 데이터저널리즘 프로젝트 Director블로터 넥스트저널리즘 & 데이터과학 오딧세이 컨퍼런스꿈꾸는 데이터 디자이너 디렉터뉴스빅데이터 보도물 제작 연구사업 Director

D3.jsOpenrefineAdobe Muse/ Edge Animate/ IllustratorRCartoDB, Google Map, MAPBOX

woons.2016@gmail.com메일