[패스트캠퍼스]...

데이터 사이언스 SCHOOL

Abstract

Goal(Project 목표)- 기존 포털 뉴스(네이버 뉴스)의 기사 내용을 학습하여, 새로운 기사의 분야를 분류 예측하는 자동

분류기

- 기사의 내용(content)을 입력(input) ⇒ 뉴스 카테고리 분류 예측(정치, 사회, 경제, 국제, IT/과학, 문화)

프로젝트 개요

Why ? (프로젝트를 하게 된 계기)

- 1. 사람이 뉴스 기사를 보고 분류를 하듯이 기계도 내용을 보고 분류를 나눌 수 있을까?- 2. 업무 상황 가정 :타팀(마케팅, 전략기획)에서 뉴스 분야 키워드 추출 요청 상황 ⇒ 하지만 우리 회사 DB에는 뉴스 기사 내용(content)밖에 없다! ⇒ 뉴스 내용을 학습시켜 뉴스 기사 자동 분류기를 만들면 시간절약, 효율성 향상, +@(머신러닝 습득) ⇒ 이후 지속적으로 모델을 수정 및 upgrade 정확도 향상 → 데이터 과학적 업무 접근 능력 향상

How? (데이터 수집 및 분석 방법론) - 데이터 수집 - Naver New Crawling ⇒ 크롤링 하여 mysql DB에 저장(link, 제목, 내용, label(y)) 및 학습데이터로 사용 - 뉴스 기사의 분류는 순수하게 키워드 중심으로, 뉴스 기사의 내용을 X-feature로 사용 - Naver News의 섹션대로의 뉴스 기사 분류 (y)- 방법론 - Supervised learning : 기사 내용 TF-idf Vectorizer ⇒ Support Vector Machine Classifier(‘Linear SVM’) - 기사 내용에 대해 전처리 과정인 Scikit-Learn의 TF-idf Vectorizer로 기사 내용 벡터화 - 각각 기사에 해당하는 y값 분류(category) LableEncoder로 처리 - 10831개의 naver 뉴스 분류를 학습 ⇒ 분류되지 않은 Daum 뉴스로 분류 모델 성능 평가 진행

1

네이버 및 다음 뉴스 분류 예측

개인 project / 2016.11 ~ 2016.12

그림 2 Data Set sample그림 1 원본 데이터(raw data) sample

데이터 사이언스 SCHOOL

2

프로젝트 결과

Results

- 1. Naver News(10831개) 분류로 성능 평가 진행 - 전처리 TF-idf, 모델 SVC 사용 - 성능 평가 점수 평균 91%로 모델 선택

- 2. Daum News(90개)로 최종 분류 예측 - 6개 분류 별로 15개 뉴스로 최종 Final Test 진행

Conclusion

- 분석 내용 - 크롤링 기간 11월 말 ~ 12월 중순까지로, 특정기간에 이슈화된 주제의 키워드가 대표 키워드화 - ex) 정치 : 최순실, 대통령, 탄핵, 새누리당, 박근혜 ⇒ 최순실 게이트 국정 농단 및 탄핵이 주된 내용 경제 : 삼성, 회장, 기업, 금리, 금융 ⇒ 최순실 게이트에 맞물린 삼성, 기업 총수들 관련 키워드 사회 : 대통령, 퇴진, 집회, 교과서, 촛불집회 ⇒ 촛불집회 관련 키워드 중심 국제 : 트럼프, 미국, 중국, 러시아, 대만 ⇒ 트럼프의 미국 대통령 당선 관련 키워드 문화 : 서울, 기온 ⇒ 문화안의 날씨 뉴스로 제일 빈번한 키워드는 날씨 관련 키워드 IT/기술 : 삼성, 애플, 스마트폰, 구글, 아이폰, 갤럭시 ⇒ 스마트폰 관련 키워드

- 문제점 - 현재 Issue가 되는 키워드 외의 다른 시기의 다른 키워드는 제대로 분류하지 못함 Ex) 16년 1월 ‘사드' 내용의 정치 기사 ⇒ 국제 뉴스로 예측 - 사회 분야의 분류 예측 성능 50% ⇒ 학습시 문화의 특징적인 키워드 추출이 적어 예측 점수 낮음 - 분류 별로 특정 기간에 특정 키워드가 존재하므로 이를 대표할 수 있는 양의 데이터가 학습 데이터로 필요

- 향후 진행 및 보완 방향 - 16년 전체 Data를 가지고 학습하여 뉴스 분류 예측 진행 - 뉴스간 유사도 측정(cosine similarity)으로 뉴스 분류 예측 진행 - Python genism의 topic modeling 사용 - LDA(Latent Dirichlet Allocation) model 사용으로 주제 추출 및 이를 바탕으로한 분류 예측 성능평가

네이버 및 다음 뉴스 분류 예측

개인 project / 2016.12.7 ~ 2016.12.21

그림 3 네이버 뉴스 기반 모델 성능 평가

그림 5 경제 주제 뉴스 단어 빈도 시각화

그림 4 다음 뉴스로 Final Test 결과

[패스트캠퍼스]...

Data & Analytics

Transcript of [패스트캠퍼스]...