뉴스 자연어처리

15
뉴스 자연어처리 <뉴스소스 베타>중심으로 한국언론진흥재단 선임연구위원 1

Transcript of 뉴스 자연어처리

Page 1: 뉴스 자연어처리

뉴스 자연어처리 <뉴스소스 베타>를 중심으로

박 대 민

한국언론진흥재단

선임연구위원

1

Page 2: 뉴스 자연어처리

뉴스 NLP 개념과 절차

기존 뉴스 NLP의 한계와 개선

뉴스 NLP 사례: <뉴스소스 베타>

목차 뉴스 자연어처리

: <뉴스소스 베타>를 중심으로

2

Page 3: 뉴스 자연어처리

뉴스 NLP

형태소분석(morphological analysis)

토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화

구문분석(syntax analysis, parsing)

문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식

의미분석(semantic analysis)

대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)

담론분석(discourse analysis)

분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석

형태소분석

구문분석

의미분석

담론분석

3

Page 4: 뉴스 자연어처리

NLP 예시

형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)

예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보

구문분석

예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology

의미분석

예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;

담론분석

출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)

4

Page 5: 뉴스 자연어처리

기존 뉴스 NLP 한계

형태소분석 성능 의미분석 여부

분석 단위

개체명 인식 성능

구문분석 범위

KrKwic 등 외국 형태소분석기에 바탕을 둔 형태소분석기의 형태소분석 성능 문제

대용어 해소, 의미 중의성 해결 없이 빈도와 중앙성을 계산할 때 과대/과소평가 문제

언론학의 내용분석/비판적 담론분석의 연구 목적에 부합하는 중위 수준의 문장 중심 분석 필요

인명, 장소, 기관, 외국어 한글표기 등 개체명 인식의 성능 문제와 재현율, 정확도의 미표기

언어학적 관점의 완전 구문분석이 아닌 저널리즘 영역 지식을 활용한 최소한의 구문분석 필요

01 02 03

04 05

‘기업’, ‘지역’, ‘이노’, ‘육성’, ‘비즈’, ‘부산’, ‘중기청’, ‘울산’, ‘600’

부산•울산지방중소기업청은 2일 “최근 중국경제 부상 이후 중소기업이 원자재난과 인력난, 사회적 인식저하 등으로 침체위기를 겪고 있는 가운데 이를 극복하고 지역경제에 활력을 불어넣기 위해 부산•울산지역의 이노비즈 기업 600여 곳을 발굴해 집중 육성할 것”이라고 밝혔다.

출처: 2004년 8월 3일 조선일보 ‘기술혁신형 중소기업 육성’

5

Page 6: 뉴스 자연어처리

뉴스 소스 베타 아키텍처

6

Page 7: 뉴스 자연어처리

뉴스 소스 베타

7

Page 8: 뉴스 자연어처리

NER 성능

재현율, 87.4

50.9

75

정확도, 90.3 92.7 97.8

0

10

20

30

40

50

60

70

80

90

100

인명 기관 직함

8

Page 9: 뉴스 자연어처리

대용어 해소

‘성+직함’만 나온 경우 인용문으로부터 앞으로 거슬러 올라가서 발견된 ‘인명+기관+직함’ 중 ‘성+직함’이 일치하는 경우 해당 인용문의 발화자인 개인실명정보원이다. 이 때 인용문의 ‘성+직함’과 인용문 앞에서 발견된 ‘성+이름+기관+직함’의 문자열에 대해 SVM(support vector machine)를 수행해 일치 여부를 확인한다.

형태소분석 결과 인용문의 주어가 인칭대명사로 나타난 경우, 인용문으로부터 앞으로 거슬러 올라가서 처음으로 나타난 ‘인명+기관+직함’이 해당 인용문의 발화자인 개인실명정보원이다.

인용문 내에서 ‘인명+기관+직함’, 또는 ‘기관’의 개체명이 인식된 경우, 해당 인용문의 발화자는 인식된 개인실명정보원 또는 집단정보원이다.

NER 성+직함에 대한 SVM 인칭대명사 매칭

9

01

02

03

Page 10: 뉴스 자연어처리

의미 중의성 해결

같은 날짜에 이명동인, 즉 이름 소속 직함이 같은 서로 다른 두 사람은 존재할 수 없다. 다른 날짜에 인명이 다른 경우 이름을 바꾸는 드문 경우가 아닌 한 동일인이 아니기 때문에 이름이 다르면 근사적으로 다른 인물이다.

인명은 같지만 기관과 직함이 다르면서도 실제로 동일인일 경우에도 조작적으로 다른 정보원으로 정의한다. . 예) ‘홍길동 XX그룹 회장’과 ‘OO당 국회의원 홍길동’은 설사 동일 인물일지라도 다른 소속이기 때문에 다른 출입기자가 담당을 맡아 서로 다른 주제로 인용하는 기능적으로 다른 정보원이다.

인명, 기관, 직함이 같은 정보원은 근사적으로 동일 인물로 볼 수 있다. - 단기적으로 다른 매체 다른 기사에 등장했어도 동일인 - 장기적으로도 동명이인 드묾

동명동인, 동명이인 이명이인 이명동인

10

01

02

03

Page 11: 뉴스 자연어처리

문장/기사 유사도

같은 날짜의 기사들에 대해 전체 기사에 출현하는 n개의 단어로 이루어진 n차원 벡터 공간을 가정한다. 이 때 유사도 계산의 효율성을 위해 단어를 명사, 수치, 동사로 제한했다. 다음으로 각 기사를 해당 단어가 출현하는지 여부에 따라 값을 부여한 단어벡터로 나타낸다.

비교 대상인 두 기사의 단어벡터 간 각도를 θ라고 할 때, 이 각도에 대한 코사인 값을 계산하여 유사도를 계산한다. 완전히 일치할 경우 θ가 0이므로 코사인 값은 1이 나온다. 유사도 임계값(threshold)을 정하여 이 값을 넘으면 유사한 것으로, 그렇지 않으면 유사하지 않은 것으로 판정한다.

비교 대상 기사 전체에 등장하는 횟수(IDF)에 비해 특정 기사에 등장하는 빈도(TF)가 높다면 그 단어는 다른 단어에 비해 그 문서를 더 많이 대표하므로 더 높은 가중치를 부여 받는다.

전체 기사 각각에 어떤 주요 단어, 즉 색인어가 있는지를 나타내는 색인 작업과 함께, 각 색인어가 어느 기사에 있는지, 즉 역색인 작업도 함께 수행한다. 이를 통해 유사도 계산의 속도를 개선할 수 있다.

01

02

03

04

Inverted Indexing Vector Space Model TD-IDF Cosine Similarity

11

Page 12: 뉴스 자연어처리

분류, 군집화, 순위화

문장 분류 정보원 군집화

정보원 순위화

기사(지면) 분류

기사 군집화

개체명 분류에 따른 문장 분류 - 대분류: 인용문, 수치문, 기타문 - 인용문 다중 분류: 개인실명/집단/익명

개인 실명 정보원을 노드로 하고, 공기 여부에 따라 엣지를 부여한 뉴스 정보원 연결망

규칙과 NSNA - 규칙: 개인실명>집단>익명 - NSNA: 개인실명정보원 내에서는 연결정도 중앙성에 따른 순위

15개 카인즈 지면 분류를 정치/경제/사회(종합)/문화/국제로 사상 기계학습(단순 베이지안), 75% 정확도

단어 유사도에 따라 기사 군집화 (유사 문장 여부로 수정 필요)

01 02 03

04 05 문장 순위화

규칙 - 정보원 순위에 따른 문장 순위 - 같은 소속 분류 정보원은 순위 하락

06

기사 순위화

뉴스 기사 연결망 분석 -공동 정보원을 중심으로 연결망 그린 뒤 연결정도 중앙성 계산 (유사 문장 기준으로 수정 필요)

07

12

Page 13: 뉴스 자연어처리

뉴스 소스 베타 다운로드

13

Page 14: 뉴스 자연어처리

담론분석

14

Page 15: 뉴스 자연어처리

Q & A

15