バイラルメディアの可視化
-
Upload
satoru-mikami -
Category
Technology
-
view
609 -
download
1
description
Transcript of バイラルメディアの可視化
バイラルメディアの可視化
PyConJP 2014 三上 悟
1
Who am I
• 株式会社イノーバ
• 三上 悟(Mikami Satoru)
• 分析基盤を作ってます
• Python歴は1年くらい
• 趣味:テキストマイニング・可視化
2
バイラルメディアとは?
http://matome.naver.jp/odai/2139012994512952101/2140401540237604603
4
話題性のある動画や画像を中心とした記事に、短期間で爆発的なトラフィックを集めることを目的としたブログメディア
http://news.mynavi.jp/news/2014/08/01/051/
流行ってる?
6
7
8
知りたいこと
9
• FacebookとTwitterでどんな記事が最も多くシェアされているか?=> バイラルした記事はなにか
• 他にもいろいろあるけど続きはどこかで
10
調べてみた
11
バイラルメディア3
35
12
ツール
• スクレイピング:Scrapy
• 前処理・分析 :Pandas
• 可視化 :Matplotlib
14
スクレイピング
15
Scrapy
• スクレイピングフレームワーク
• 早くて、簡単に、ウェブサイトのクローラーを作れる
16
$ pip install scrapy
17
$ scrapy startproject viral_media_spider
18
20
21
sitemap.xmlを使ってクロールする
22
$ scrapy crawl example_spider
23
可視化
24
Pandas
• データ分析をするためのライブラリ
• PyConJP 2014で、Pandasのデモ画面をたくさん見たと思うので説明は飛ばします。
25
26
FacebookとTwitterでどんな記事が 最も多くシェアされているか?
27
28
29
初めての育児に不安だらけだった1年。1歳児検診の帰りにパパがママに贈った感謝のサプライズ http://spotlight-media.jp/article/45124077560088198
30
32
33
観覧車から見下ろした景色に思わず涙。家族・友人勢揃いで仕掛けた感動サプライズhttp://spotlight-media.jp/article/35520619585542170
34
36
続きは?• 他にも、、
• 炎上した記事は?数字が含まれているタイトルの比率は?タイトルの最小・最大は?
• ご興味のある方は、こちらまで => http://twitter.com/saicologic
37