News Big Data Analytics with 'Big Kinds'

78
News Big Data Analytics Methodology 한국언론진흥재단 미디어연구센터 선임연구위원 1

Transcript of News Big Data Analytics with 'Big Kinds'

Page 1: News Big Data Analytics with 'Big Kinds'

News Big Data Analytics Methodology

박 대 민

한국언론진흥재단 미디어연구센터

선임연구위원

1

Page 2: News Big Data Analytics with 'Big Kinds'

뉴스 빅데이터 개념

빅카인즈 데이터

목차

분석절차

뉴스 빅데이터 분석 방법론

뉴스 의미연결망 분석

뉴스 의미연결망 분석 유형

2

Page 3: News Big Data Analytics with 'Big Kinds'

뉴스 빅데이터 개념

3

Page 4: News Big Data Analytics with 'Big Kinds'

VS

Data Journalism vs. News Big Data

4

Page 5: News Big Data Analytics with 'Big Kinds'

빅데이터=무구정광대다라니경?

5

https://namu.wiki/w/무구정광대다라니경

=

Page 6: News Big Data Analytics with 'Big Kinds'

빅데이터는 살아있다

6

http://www.imdb.com/title/tt0477347/mediaindex?ref_=tt_pv_mi_sm

Page 7: News Big Data Analytics with 'Big Kinds'

Dynamic

7

Page 8: News Big Data Analytics with 'Big Kinds'

Data Driven

8

http://www.agencypja.com/blog/the-rise-of-the-marketing-machines-controlling-the-data-driven-future/

Page 9: News Big Data Analytics with 'Big Kinds'

Quantization

9

Page 10: News Big Data Analytics with 'Big Kinds'

Centrality

A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph.

10

https://en.wikipedia.org/wiki/Centrality

Page 11: News Big Data Analytics with 'Big Kinds'

Small, Scale Free, Fat-tailed

11

γ<0: Poisson distribution 0<γ<2: fat tailed

2<γ<3: scale free, ultra small world 3<γ: scale free & small world

news source network: γ≃1.6

Page 12: News Big Data Analytics with 'Big Kinds'

Burst

12

Barabasi, A. L. (2005). The origin of bursts and heavy tails in human dynamics. Nature, 435(7039), 207-211.

Page 13: News Big Data Analytics with 'Big Kinds'

Three Degrees of Influence Rule

13

http://www.slideshare.net/jbradfo4/topic-4-social-networks

Page 14: News Big Data Analytics with 'Big Kinds'

Opinion Dynamics

14

Castellano, C., Fortunato, S., & Loreto, V. (2009). Statistical physics of social dynamics. Reviews of modern physics, 81(2), 591.

Page 15: News Big Data Analytics with 'Big Kinds'

Visibility & Value

15

http://www.slideshare.net/AndersQuitzauIbm/big-data-analyticsin-energy-utilities

Page 16: News Big Data Analytics with 'Big Kinds'

분석 절차

16

Page 17: News Big Data Analytics with 'Big Kinds'

- 형태소분석, NER - 구문분석, 의미분석 - data cleansing - 프로그램 기획 개발

- Visualization - 정보원 분석 - 인용문 분석 - 담론분석

- 구조 파악 - Transpose, Diagonal, Dichotomize - centrality

01

02

03

04

Crawling NLP, Data cleansing Semantic Network Analysis

Discourse Analysis

17

- 데이터 모델링 - 수작업, Crawler, 계약 - 자료는 충분히 많아야 함

Procedure of News Big Data Analytics

빅카인즈

Page 18: News Big Data Analytics with 'Big Kinds'

Data Modeling

18

Meta data

NLP data

Network data

Page 19: News Big Data Analytics with 'Big Kinds'

결점(node)

개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합 1 mode/2 mode/N-mode

연결선(edge) 관련도(relevance): 공동출현(기사, 문장, 속성), 유사도 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의

절대적 연결정도 중앙성 (degree centrality) - CD(v)=deg(v), 공동인용된 정보원/기관 수, 또는 함께 거론된 주제 수, - 논쟁성, 의제중심성

결점

연결선

순위화

19

Data Modeling

Page 20: News Big Data Analytics with 'Big Kinds'

20

Data Modeling

Page 21: News Big Data Analytics with 'Big Kinds'

NLP Data

21

Page 22: News Big Data Analytics with 'Big Kinds'

Edge list

22

Semantic Network Data

Linked list Matrix

Page 23: News Big Data Analytics with 'Big Kinds'

Semantic Network Data

박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.

23

Page 24: News Big Data Analytics with 'Big Kinds'

Visualization

Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences..

39 Barack Obama 22 Jay Carney 15 Ban Kimoon 13 John Kerry 12 Victoria Nuland 10 Kim Hyunwook 10 Susan Rice

24

Page 25: News Big Data Analytics with 'Big Kinds'

RANKING

25

Page 26: News Big Data Analytics with 'Big Kinds'

빅카인즈 데이터

26

Page 27: News Big Data Analytics with 'Big Kinds'

27

빅카인즈 프로(http://tools.kinds.or.kr/adam/login.do)

Page 28: News Big Data Analytics with 'Big Kinds'

시스템 기획안

박대민 등(2015). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.

28

Page 29: News Big Data Analytics with 'Big Kinds'

뉴스 NLP

토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화

문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식

대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)

분류, 군집, 중복, 요약, 가중치, 순위화, 토픽 모델링, 이슈 트래킹, 평판분석, 감성분석, 복합논증분석,

형태소분석

구문분석

의미분석

담론분석

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

29

Page 30: News Big Data Analytics with 'Big Kinds'

LEA(Language Engineering & Analysis)

모든 형태소(44개) 지원, F1 기준 98% SSVM

주요 개체명: PS(F1 기준 85.51%), LC(93.82%), OG(88.96%), OC(82.62%) SSVM

graph based dependency parsing

데이터 수집 → 주관성 탐지 → 극성 탐지 document/sentence/feature level - document/sentence level: dictionary/corpus based - feature level: LSSVM

형태소분석

개체명인식

구문분석

감성분석

솔트룩스(2015.3.). LEA 기술백서

30

Page 31: News Big Data Analytics with 'Big Kinds'

빅카인즈 DB: Cassandra + RDB

31

솔트룩스(2015.8.). 테이블사양서(인프라)_V1.6

Page 32: News Big Data Analytics with 'Big Kinds'

빅카인즈 데이터: article_news

32

article_news_01100101_20150101_20151231(1)

Page 33: News Big Data Analytics with 'Big Kinds'

빅카인즈 데이터: reference_news

33

reference_news_경향신문_정치_20150101_20151231

Page 34: News Big Data Analytics with 'Big Kinds'

NLP 성능: 개체명 인식

34

솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5

Page 35: News Big Data Analytics with 'Big Kinds'

NLP 성능: 지면 분류

35

솔트룩스(2015.10.). 자동분류 정확도 평가결과_1008

Page 36: News Big Data Analytics with 'Big Kinds'

NLP 성능: 인용구 추출

36

솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5

Page 37: News Big Data Analytics with 'Big Kinds'

NLP 성능: 사건 사고 분류

37

솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5

Page 38: News Big Data Analytics with 'Big Kinds'

NLP 성능: 감성인식

38

솔트룩스(2015.7.). 언어자원 구축 지침서_V1.5

Page 39: News Big Data Analytics with 'Big Kinds'

NLP 성능: Tag 추출

39

Berlocher, I., Lee, K. I., & Kim, K. (2008, July). TopicRank: bringing insight to users. In Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval (pp. 703-704). ACM. ISO 690

TopicRank Algorithm: a Word Clustering based approach that automatically and dynamically generates an interactive Tag Cloud related to the user query where the layout of presented keywords relies on a semantic closeness metric. The result of a survey of 100 users asking for the usability, usefulness of the interface and the quality of extracted words, reports that more than 80% of them were very satisfied.

Page 40: News Big Data Analytics with 'Big Kinds'

뉴스 의미연결망 분석

40

Page 41: News Big Data Analytics with 'Big Kinds'

Network Types: Nodes & Edges

41

Network

Social Network

Semantic Network

Actor Network

Sensor Network

Page 42: News Big Data Analytics with 'Big Kinds'

Network Types: Modes

42

Network

1 mode network

2 mode network

N-mode network

Page 43: News Big Data Analytics with 'Big Kinds'

News Source Network

박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.

2

1

1

2 3

1

4 5

2 3

1

4 5

43

- 같은 기사에 두 정보원이 직접인용문으로 함께 인용됐을 경우 이 정보원들 간에 서로 의미론적인 관계가 있는 것으로 보고 간접적으로 만드는 준연결망(quasi network) - 기사공동출현에 의한 관계로 관계 방향이 양방향 내지 무방향인 연결망(undirected graph)

Page 44: News Big Data Analytics with 'Big Kinds'

프로그램

44

Page 45: News Big Data Analytics with 'Big Kinds'

프로그램 활용 절차

45

빅카인즈: 데이터 수집 뉴스젤리: 파일럿 -형태소분석 - 워드클라우드

넷마이너: 정보원연결망 matrix 변환 - file > import - transform > 2 mode - comembership-correlation-inner product - transform > value > diagnal - analyze > neighbor > degree UCINET: 파일 포맷 변환 - data > data editor > DL editor - data format > matirix > save

Page 46: News Big Data Analytics with 'Big Kinds'

프로그램 활용 절차

46

NETDRAW: 정보원연결망 시각화 - file > open > ucinet dl text file > network (1-mode) - analysis > centrality measures > set node sizes by: degree - properties > nodes > label > size - properties > lines > size > tie strength - properties > lines > arrow heads > arrow heads off, apply to all - layout > graphic theoretic layout

NETDRAW: 중심어 연결망 - layout > ego network - geodesic distance from ego: 1 or 2

Page 47: News Big Data Analytics with 'Big Kinds'

Bursts in Topics & Media

연결정도(x축)에 따른 연결정도지수(y축)의 추이

박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324.

연결정도(x축)에 따른 연결정도지수(y축)의 추이

47

Page 48: News Big Data Analytics with 'Big Kinds'

Dimension Reduction

Nouns Net News Sources Net

48

Page 49: News Big Data Analytics with 'Big Kinds'

mature

49

Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences..

Page 50: News Big Data Analytics with 'Big Kinds'

의미연결망 분석 모듈

50

Degree analyzer Edge_list converter

Statistics & Rank Media system fragmentation index

Degree exponent Media uniqueness index

Page 51: News Big Data Analytics with 'Big Kinds'

뉴스 의미연결망 분석 유형

51

Page 52: News Big Data Analytics with 'Big Kinds'

News Semantic Networks

박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.

52

Page 53: News Big Data Analytics with 'Big Kinds'

Word Cloud: 청년담론

형태소 단위의 단어클라우드 개념 단위의 단어클라우드

53

Page 54: News Big Data Analytics with 'Big Kinds'

News Source Network: 4대강

한겨레 동아

박대민(2015). 사실기사의 직접인용에 대한 이중의 타당성 문제의 검토: 동아일보와 한겨레신문의 4대강 추진 논란 기사에 대한 뉴스 정보원 연결망 및 인용문 분석. <한국언론학보>, 59권 5호, 121-151.

54

Page 55: News Big Data Analytics with 'Big Kinds'

Keyword-centric Network: 청년실업

박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.

55

Page 56: News Big Data Analytics with 'Big Kinds'

Source-Topic Network: 망언

박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단.

56

Page 57: News Big Data Analytics with 'Big Kinds'

57

Organization-Topic Network: 청년담론

박대민, 김선호(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.

Page 58: News Big Data Analytics with 'Big Kinds'

News Sentence Network: 분단

박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.

58

검색어: ‘분단’ 분석매체: 경향, 국민, 문화, 서울, 세계, 한겨레, 한국, 동아 분석기간: 2011년 1년치 인용문 수: 인용문 949개(중복 포함, 기사 405건)

main component

Page 59: News Big Data Analytics with 'Big Kinds'

News Media Network: 4대강

Media Uniqueness = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)

59

박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서울.

검색어: 4대강 매체: 국민, 경향, 동아, 문화, 서울, 세계, 한겨레, 한국(<KINDS> 수록 8대 중앙지)

분석기간: 2008.11.28.-12.31., 2009.6.2.-7.30., 2009.11.13.-12.31. 자연어처리: <뉴스소스 베타>

Page 60: News Big Data Analytics with 'Big Kinds'

Time-series Content Analysis

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

60

Page 61: News Big Data Analytics with 'Big Kinds'

Time-series Content Analysis

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

61

Page 62: News Big Data Analytics with 'Big Kinds'

Synchronization & Fragmentation

62

Page 63: News Big Data Analytics with 'Big Kinds'

Discourse Analysis (Governmentality Studies)

박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문.

63

Page 64: News Big Data Analytics with 'Big Kinds'

Q & A

64

Page 65: News Big Data Analytics with 'Big Kinds'

Appendix: Rule Based NLP

65

Page 66: News Big Data Analytics with 'Big Kinds'

Word Sense Disambiguation

같은 날짜에 이명동인, 즉 이름 소속 직함이 같은 서로 다른 두 사람은 존재할 수 없다. 다른 날짜에 인명이 다른 경우 이름을 바꾸는 드문 경우가 아닌 한 동일인이 아니기 때문에 이름이 다르면 근사적으로 다른 인물이다.

인명은 같지만 기관과 직함이 다르면서도 실제로 동일인일 경우에도 조작적으로 다른 정보원으로 정의한다. . 예) ‘홍길동 XX그룹 회장’과 ‘OO당 국회의원 홍길동’은 설사 동일 인물일지라도 다른 소속이기 때문에 다른 출입기자가 담당을 맡아 서로 다른 주제로 인용하는 기능적으로 다른 정보원이다.

인명, 기관, 직함이 같은 정보원은 근사적으로 동일 인물로 볼 수 있다. - 단기적으로 다른 매체 다른 기사에 등장했어도 동일인 - 장기적으로도 동명이인 드묾

동명동인, 동명이인 이명이인 이명동인

01

02

03 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를

중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

66

Page 67: News Big Data Analytics with 'Big Kinds'

Similarity

기사/문장에 대해 전체 기사에 출현하는 n개의 단어(명사, 수치, 동사)로 이루어진 n차원 벡터 공간을 가정한 뒤 각 기사/문장를 해당 단어가 출현하는지 여부에 따라 값을 부여한 단어벡터로 나타낸다.

비교 대상인 두 기사의 단어벡터 간 각도를 θ라고 할 때, 이 각도에 대한 코사인 값을 계산하여 유사도를 계산한다. 임계값을 정하여 이 값을 넘으면 유사한 것으로, 그렇지 않으면 유사하지 않은 것으로 판정한다.

비교 대상 기사 전체에 등장하는 횟수(IDF)에 비해 특정 기사에 등장하는 빈도(TF)가 높다면 그 단어는 다른 단어에 비해 그 문서를 더 많이 대표하므로 더 높은 가중치를 부여 받는다.

전체 기사 각각에 어떤 주요 단어, 즉 색인어가 있는지를 나타내는 색인 작업과, 각 색인어가 어느 기사에 있는지, 즉 역색인 작업을 함께 수행한다.

01

02

03

04

Inverted Indexing VSM TD-IDF Cosine Similarity

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션

이론>, 12권 1호, 4-52.

67

Page 68: News Big Data Analytics with 'Big Kinds'

Classification & Clustering

15개 카인즈 지면 분류를 정치/경제/사회(종합)/문화/국제로 사상 기계학습(단순 베이지안), 75% 정확도

단어 유사도에 따라 기사 군집화

개인 실명 정보원을 노드로 하고, 공기 여부에 따라 엣지를 부여한 뉴스 정보원 연결망

개체명 분류에 따른 문장 분류 - 대분류: 인용문, 수치문, 기타문 - 인용문 다중 분류: 개인실명/집단/익명

01

02

03

04

문장분류 기사분류 정보원연결망분석 기사 군집화

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

68

Page 69: News Big Data Analytics with 'Big Kinds'

Ranking Algorithm

규칙 - 정보원 순위에 따른 문장 순위 - 같은 소속 분류 정보원은 순위 하락

뉴스 기사 연결망 분석 -공동 정보원을 중심으로 연결망 그린 뒤 연결정도 중앙성 계산 (유사 문장 기준으로 수정 필요)

규칙과 NSNA - 개인실명>집단>익명 - NSNA: 개인실명정보원 내에서는 연결정도 중앙성에 따른 순위

정보원 순위화 문장 순위화 기사 순위화

01

02

03

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

69

Page 70: News Big Data Analytics with 'Big Kinds'

Appendix: Why necessary?

70

Page 71: News Big Data Analytics with 'Big Kinds'

News Media as Internet Corporations

71

Page 72: News Big Data Analytics with 'Big Kinds'

The End of Paper Platforms

허브

언론사

독자 광고주

플랫폼 기능 흡수

콘텐츠 공급자 분화 콘텐츠 사업자

UGC

네이티브 광고

박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단. 금준경(2016.4.26.). 네이버-매경 합작법인, 중앙·한겨레와는 공동사업. <미디어오늘>.

72

Page 73: News Big Data Analytics with 'Big Kinds'

사용자의 생산, 유통 참여

취재

편집

유통

판매

광고

부가사업

편집국

광고 사업국

CP 취재

플랫폼

판매

유통

광고

부가사업

편집

독자 사용자

박대민, 양정애, 김선호(2014). <스마트 미디어 뉴스 생태계의 혁신 전략>. 서울: 한국언론진흥재단.

73

Page 74: News Big Data Analytics with 'Big Kinds'

공적 소통 영역의 확장

공적 커뮤니케이션 영역

공적 커뮤니케이션 영역

언론사

독자

뉴스

블로그

SNS, 챗

언론사

독자

뉴스

사적 대화

사적 대화

과거 현재

74

Page 75: News Big Data Analytics with 'Big Kinds'

언론사가 중시하는 뉴스

내가 선호하는 뉴스

친구가 선호하는 뉴스

대중이 선호하는 뉴스

뉴스 개념의 확장

75

Page 76: News Big Data Analytics with 'Big Kinds'

Appendix: Future

76

Page 77: News Big Data Analytics with 'Big Kinds'

뉴스 빅데이터 분석의 수직적 확장

77

박대민, 백영민, 김선호(2015). <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.

Page 78: News Big Data Analytics with 'Big Kinds'

뉴스 빅데이터 분석의 수평적 확장

78

텍스트

음성

동영상

다국어분석

자연어처리

음성인식

영상처리

딥러닝

보고서 논문 소설

가요

사진 영화

드라마

토론기계

신문

라디오

TV