20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)

Post on 27-Jun-2015

4.889 views 2 download

description

第3回東京Webスクラッパーのライトニングトークで発表した資料。 スクレイピングの実演した時のサイトとJavascriptコードは下記を参照 https://www.facebook.com/note.php?note_id=767355399997255

Transcript of 20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)

リサーチ向け ブラウザだけでスクレイピング

第3回Webスクレイピング勉強会@東京 2014.10.26

浅野弘輔 (あさの ひろすけ)

http://twitter.com/hirosuke_asano

自己紹介

浅野 弘輔とは(自己紹介)

• 株式会社ホットリンク所属。

• ネット上のクチコミを大量に集めて分析するシステムの開発や、ソーシャルデータの活用の企画・研究をしています。

http://twitter.com/hirosuke_asano

http://www.hottolink.co.jp/

趣味:イラスト描き

自作のアイコン→

リサーチでよくある風景

「AKB総選挙ってやっているけど、 ちょっとメンバーの口コミ調べてみてくれる?」

「了解っス」

「まずはメンバーのリスト作らないと・・・」

「多いな・・・」

公式サイトから

「せっせ、せっせ・・・」

カチ

カチ

コピペ

そんな作業を救うのが Webスクレイピング

そんな作業を救うのが Webスクレイピング

なのだが・・・

開発環境のインストールしなきゃ・・・

モジュールの依存性が・・・

サイト構造解析が・・・

文字コードが・・・

開発環境のインストールしなきゃ・・・

モジュールの依存性が・・・

サイト構造解析が・・・

文字コードが・・・

日常的にプログラミングしてない 人にはかなり敷居が高い・・・

ブラウザがあれば なんとかなる

用意するもの

FireQuery

テキストエディタ

Add-ons

実演

一回やればいい アドホックなリスト作成に

最適

その他の利点

Ajaxで要素が 読み込まれるページ

HTMLをwgetしてテキスト解析・・・ができない

認証があるページ

APIでも用意されてないと自動するのが難しい

実演

Webスクレイピングの 民主化を

勉強する必要のある知識

• Javascriptの基本的なプログラミング

• CSSのセレクタでのHTML要素指定

• みんな大好きjQuery

勉強する必要のある知識

• Javascriptの基本的なプログラミング

• CSSのセレクタでのHTML要素指定

• みんな大好きjQuery

おせじにも簡単とは言えないけど、 アプリやシステム作るのに比べたら楽 「Excelでマクロ組めますよ」くらいのノリで

Webスクレイピングを 一番必要としている人に

届けたい

ありがとうございました