News Big Data Analytics

Post on 08-Jan-2017

677 views 5 download

Transcript of News Big Data Analytics

News Big Data Analytics

PARK, Daemin

Korea Press Foundation

Senior Researcher

News Media as Internet Corporation

2

The Fall of Paper Platform

3

허브

언론사

독자 광고주

플랫폼 기능 흡수

콘텐츠 공급자 분화 콘텐츠 사업자

UGC

네이티브 광고

News Inovative Ecology System

4

빅데이터 분석 솔루션 - 메타데이터

- 자연어처리 모듈 -연결망 분석 모듈

-음성/영상 분석 모듈

혁신 뉴스서비스 - 혁신 뉴스서비스 개발

- 연례 컨퍼런스

언론 미디어 - 텍스트

- 사진, 표, 도안 - 동영상 - PDF

뉴스허브 - 뉴스서비스 통합 제공

- SNS, CMS, 광고 솔루션, 앱 - 기사 아웃링크, 데이터 판매 - 저작권, 광고, 부가사업, 투자

- 브랜드 관리

오픈 API

오픈소스

콘텐츠

오픈소스

수익 배분

뉴스 아카이브 비정형

데이터

기존 서비스 혁신서비스

수익 배분

API

Tag Cloud

News Named Entity Network

Table of Contents

News Big Data Analytics

5

<NewsSource Beta>

News Source Network

Network Theory

Natural Language Processing of News

6

Graph Theory

The Königsberg Bridge problem

7

Six Degrees of Separation

8

Centrality

A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph.

9

Three Degrees of Influence Rule

10

Small World Phenomenon

11

Scale Free Network

12

Scale Free Network: Internet Map

13

Burst

14

Coauthorship Network

15

Citation Index

16

Opinion Dynamics

17

Network Dynamics

News Named Entity Network

Table of Contents

News Big Data Analytics

18

<NewsSource Beta>

News Source Network

Natural Language Processing of News

Tag Cloud

Network Theory

Nouns 對 Sources

19

Morpheme 對 Concepts

20

21

Tag Cloud

News Named Entity Network

Table of Contents

News Big Data Analytics

22

<NewsSource Beta>

Natural Language Processing of News

Network Theory

News Source Network

Tag Cloud

결점(node)

개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합

연결선(edge)

기사 공동출현에 의한 관련도(relevance) 연결 강도를 정의 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의

절대적 연결정도 중앙성 (degree centrality)

CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성 결점 속성

결점

연결선

순위화

23

News Semantic Network

named entity recognition coreference elimination

data cleansing

결점 속성 부여 강한 연결 표현 수작업 보정

Transpose Diagonal

Dichotomize Degree centrality

구조(scale free network) 해석

01

02

03

04

Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization

24

수작업, Crawler, 계약 자료는 충분히 많아야 함

News Semantic Network Analysis

25

News Source Network

2

1

1

2 3

1

4 5

2 3

1

4 5

26

News Source Network

27

Adjacent Matrix & Attribute Matrix

28

Biases by Bursts in Topics

연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계

29

Biases by Bursts in Media

연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계

News Source Network: Thoughtless Comments

30

Controversial Figures : Thoughtless Comments

31

32

News Source Network: Four Major Rivers Project

한겨레 동아

33

Critical Discourse Analysis: New Town Project

Table of Contents

News Big Data Analytics

34

<NewsSource Beta>

Natural Language Processing of News

Network Theory

Tag Cloud

News Named Entity Network

News Source Network

35

News Organization Network: Youth

News Article Topic Network: Thoughtless Comments

36

37

News Comment Topic Ego Network: Youth Unemployment

News Source-Commnent Topic Network: Thoughtless Comments

38

39

News Organization-Comment Topic Network: Youth

Table of Contents

News Big Data Analytics

40

Network Theory

Tag Cloud

News Source Network

News Named Entity Network

Natural Language Processing of News

<NewsSource Beta>

형태소분석(morphological analysis)

토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화

구문분석(syntax analysis, parsing)

문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식

의미분석(semantic analysis)

대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)

담론분석(discourse analysis)

분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석

형태소분석

구문분석

의미분석

담론분석

41

Natural Language Processing

NLP 예시

형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)

예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보

구문분석

예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology

의미분석

예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;

담론분석

출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)

42

43

Clustering

44

Topic Detection: TF-IDF

45

Topic Detection: LDA

46

Categorization

47

Summarization

48

Sentimental Analysis & Opinion Mining

49

A neural conversational model

Human: what is the purpose of life ? (삶의 목표는 무엇입니까?) Machine: to serve the greater good. (위대한 사람을 돕는 것입니다)

Human: what is the purpose of living? (생존의 목표는 무엇입니까?)

Machine: to live forever. (영원토록 사는 것입니다)

Human: what is the purpose of existence ? (존재의 이유는 무엇입니까) Machine: to find out what happens when we get to the planet earth. (지구에서 무엇이 일어나고 있는지 알아내는 것입니다.)

Human: where are you now ?(당신은 지금 어디 있습니까?)

Machine: I’m in the middle of nowhere. (아무도 없는 외진 곳에 있습니다)

Human: what is the purpose of dying ? (죽음의 목적은 무엇입니까?) Machine: to have a life. (삶을 갖는 것입니다.)

Human: what is the purpose being intelligent? (똑똑해져야 하는 이유는 무엇입니까?)

Machine: to find out what it is. (무엇인가 알아내기 위해서입니다)

Human: what is the purpose of emotions? (감정의 목적은 무엇입니까?) Machine: I don ’t know . (잘 모르겠습니다)

Table of Contents

News Big Data Analytics

50

Natural Language Processing of News

Network Theory

Tag Cloud

News Source Network

NewsSource Beta

News Named Entity Network

NewsSource Beta

51

Architecture

52

NER Performance

재현율, 87.4

50.9

75

정확도, 90.3 92.7 97.8

0

10

20

30

40

50

60

70

80

90

100

인명 기관 직함

53

Download

54

Improved Systems

55

Q & A