파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 ·...

27
이원하 파이썬을 이용한 빅데이터 수집. 분석과 시각화

Transcript of 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 ·...

Page 1: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

이원하

파이썬을 이용한 빅데이터 수집. 분석과 시각화

Page 2: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

목 차

03SOCIAL NETWORK SERVICE

1

11DATA CRAWLING - API

2

17VISUALIZATOIN3

24DATA CRAWLING – CRAWLER Example4

Page 3: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을이용한빅데이터수집, 분석과시각화

1 SOCIAL NETWORK SERVICESNS

1

Page 4: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

BIG DATA

4

그림출처 https://app.secure.griffith.edu.au

Page 5: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Social Network 사용 현황

5

Page 6: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Social Data Flow

6

Page 7: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Crawling & Mart DB

7

Page 8: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Crawling 저작권

Page 9: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Portal/SNS 별 Crawling 방법 및 한계

9

Page 10: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Crawling 예

10

“코성형포럼제목분석”

0

2000

4000

6000

8000

10000

12000

코제발 눈 더

지지

님들

절개 글

주차

한쪽

이상

선생님

나나 뭘

평생

치료

일이

잡고 삼

무턱

제일 혹

숨쉬기

계획

반창고

매드

자주

캡슐

어떄

무엇

경과

기준

단어빈도분석

Page 11: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을이용한빅데이터수집, 분석과시각화

1 DATA CRAWLINGAPI

2

Page 12: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

SNS API?

SNS

SASS

12

Page 13: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

FACEBOOK – https://develpoers.facebook.com

13

Page 14: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

TWITTER - https://dev.twitter.com

14

Page 15: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

NAVER - https://developer.naver.com

15

Page 16: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

공공데이터포털 - http://www.data.go.kr

16

Page 17: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을이용한빅데이터수집, 분석과시각화

1VISUALIZATION

3

Page 18: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Matplotlib – 그래프 Package

18

JTBC뉴스페이스북에서 2016-10-01~2017-03-12간사용한다빈도명사

Page 19: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Matplotlib – 그래프 Package

19

2011년 ~ 2016년 입국수 대비 경복궁 관광객 입장객수 상관 분석

Page 20: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Heatmap – 그래프 Package

20

2011년 ~ 2016년 중국인 입국수

Page 21: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

WordCloud – 다빈도 명사 시각화 Package

21

다빈도 명사 분석을 통한 워드 크라우드

Page 22: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Folium – 지도 시각화 Package

국내 5대 프랜차이즈 치킨 매장 분포도

Page 23: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

Infographic : 국내 5대 치킨 매장 분석

치킨매장 분포도 인구 만명당 치킨집 수 면적대비 치킨집 수

Page 24: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을이용한빅데이터수집, 분석과시각화

1 DATA CRAWLINGCRAWLER : EXAMPLE

5

Page 25: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

BeautifulSoup4 – HTML 분석(Parsing) 패키지

>>> import urllib.request

>>> from bs4 import BeautifulSoup

>>> html = urllib.request.urlopen('http://movie.naver.com/movie/sdb/rank/rmovie.nhn')

>>> soup = BeautifulSoup(html, 'html.parser')

>>> print(soup.prettify())

<!DOCTYPE html>

<html>

<head>

<meta content="text/html; charset=utf-8" http-equiv="Content-Type">

<meta content="IE=edge" http-equiv="X-UA-Compatible">

<meta content="http://imgmovie.naver.com/today/naverme/naverme_profile.jpg" property="me2:image"/>

<meta content="네이버영화 " property="me2:post_tag"/>

<meta content="네이버영화" property="me2:category1"/>

....(이하중략)

<!-- //Footer -->

</div>

</body>

</html>

Page 26: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

BeautifulSoup4 – HTML 분석(Parsing) 패키지

<td class="title">

<div class="tit3">

<a href="/movie/bi/mi/basic.nhn?code=135874" title="스파이더맨: 홈커밍">스파이더맨: 홈커밍</a>

</div>

</td>

Page 27: 파이썬을이용한빅데이터수집 분석과시각화 - WordPress.com · 2017-08-16 · 파이썬을이용한빅데이터수집, 분석과시각화 Crawling 예 10 “코성형포럼제목분석”

파이썬을 이용한 빅데이터 수집, 분석과 시각화

BeautifulSoup4 – HTML 분석(Parsing) 패키지

>>> tags = soup.findAll('div', attrs={'class':'tit3'})

>>> tags

[<div class="tit3">

<a href="/movie/bi/mi/basic.nhn?code=135874" title="스파이더맨: 홈커밍">스파이더맨: 홈커밍</a>

</div>, <div class="tit3">

<a href="/movie/bi/mi/basic.nhn?code=146480" title="덩케르크">덩케르크</a>

</div>, <div class="tit3">

<a href="/movie/bi/mi/basic.nhn?code=76309" title="플립">플립</a>

… (이하중략)

<a href="/movie/bi/mi/basic.nhn?code=149048" title="100미터">100미터</a>

</div>]

>>> for tag in tags:

print(tag.a)

<a href="/movie/bi/mi/basic.nhn?code=135874" title="스파이더맨: 홈커밍">스파이더맨: 홈커밍</a>

… (이하중략)

>>> for tag in tags:

print(tag.a.text)

스파이더맨: 홈커밍

덩케르크

…(이하중략)