spider 20160430 contex · • OAuth1.0(linkedin,twitter,vimeo)，OAuth2.0(facebook,GitHub,google)...

网络数据采集与爬虫

陈华珊(中国社科院社会发展战略研究院)

2017--03--02 网络数据采集与爬虫 - @陈华珊 2

网络数据获取方式

• 模拟鼠标点击

− 按键精灵− sikulix

• 调用浏览器进行自动操作

− IE：Document Object Model (DOM)− Chrome, Firefox

⋆ rdom⋆ RSelenium⋆ headless

• HTTP采集

2017--03--02 网络数据采集与爬虫 - @陈华珊 3

HTML基础知识1 <html>2 <meta>title, description, keywords</meta>3 <body>4 <div>...</div>5 <p> 正文 <a href='http://www.google.com'>Google</a> </p>6 <table>表格</table>7 </body>8 </html>

2017--03--02 网络数据采集与爬虫 - @陈华珊 4

HTTP基础知识

HTTP protocal (超文本传输协议)

• 计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则，超文本传输协议(HTTP)是一种通信协议，它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器。

• 目前我们使用的是HTTP/1.1版本

• HTTP/2 is coming

2017--03--02 网络数据采集与爬虫 - @陈华珊 5

Web服务器，浏览器，代理服务器

2017--03--02 网络数据采集与爬虫 - @陈华珊 6

2017--03--02 网络数据采集与爬虫 - @陈华珊 7

URLURL(Uniform Resource Locator)地址用于描述一个网络上的资源，基本格式如下

1 schema://host[:port#]/path/.../[;url-params][?query-string][#anchor]

Name Desc.

scheme 指定低层使用的协议(例如：http, https, ftp)host HTTP服务器的IP地址或者域名port# HTTP服务器的默认端口是80，这种情况下端口号可以省略。如果使用了别的端口，

必须指明，例如 http://www.cnblogs.com:8080/path 访问资源的路径

url-paramsquery-string 发送给http服务器的数据anchor- 锚

2017--03--02 网络数据采集与爬虫 - @陈华珊 8

URL的一个例子

1 http://www.mywebsite.com/sj/test;id=8079?name=sviergn&x=true#stuff23 Schema: http45 host: www.mywebsite.com67 path: /sj/test89 URL params: id=80791011 Query String: name=sviergn&x=true1213 Anchor: stuff

2017--03--02 网络数据采集与爬虫 - @陈华珊 9

HTTP消息的结构

• Request

− 请求行− http header− body

2017--03--02 网络数据采集与爬虫 - @陈华珊 10

2017--03--02 网络数据采集与爬虫 - @陈华珊 11

• Response

− 请求行− request header− body

2017--03--02 网络数据采集与爬虫 - @陈华珊 12

Method与服务器交互的方法，最基本的有4种，分别是GET,POST,PUT,DELETE；

• GET vs. POST

− GET提交的数据会放在URL之后，以? 分割URL和传输数据，参数之间以 &相连，如

EditPosts.aspx?name=test1&id=123456

− POST方法是把提交的数据放在HTTP包的Body中；

− GET提交的数据大小有限制（因为浏览器对URL的长度有限制）；POST方法提交的数据没有限制；

2017--03--02 网络数据采集与爬虫 - @陈华珊 13

状态码（Status）Response消息中的第一行叫做状态行，由HTTP协议版本号，状态码，状态消息三部分组成。

HTTP/1.1中定义了5类状态码，状态码由三位数字组成，第一个数字定义了响应的类别

1 + 1XX 提示信息 - 表示请求已被成功接收，继续处理23 + 2XX 成功 - 表示请求已被成功接收，理解，接受45 + 3XX 重定向 - 要完成请求必须进行更进一步的处理67 + 4XX 客户端错误 - 请求有语法错误或请求无法实现89 + 5XX 服务器端错误 - 服务器未能实现合法的请求

2017--03--02 网络数据采集与爬虫 - @陈华珊 14

2017--03--02 网络数据采集与爬虫 - @陈华珊 15

2017--03--02 网络数据采集与爬虫 - @陈华珊 16

连接Web服务

• WDI, wbstats: World Bank Data

• Rfacebook

• Rflickr

• Rlinkedin

• tumblR

• twitteR

• Google Trends: GTrendsR

• Google Analytics: RGoogleAnalytics, ganalytics, GAR, RGA

2017--03--02 网络数据采集与爬虫 - @陈华珊 17

一个完整的数据采集流程

• 下载• 网页解析• 检索与存储

− mysql,sqlite− nosql: mango− hadoop, spark

• 动态脚本交互

下载

2017--03--02 网络数据采集与爬虫 - @陈华珊 18

R包处理 http请求（GET, POST, PUT, HEAD, DELETE, etc.）及登录校验。

• download.file(), downloader::download() for SSL• source_Dropbox() ,source_XlsxData()• RCurl• httr• request• rvest + magrittr• scrapeit.core

登录验证

• 简单的用户名密码参数提交可用：

− api key: http://api.foo.org/?key=yourkey;− user/pass: http://username:password@api.foo.org

• OAuth 1.0(linkedin, twitter, vimeo)，OAuth 2.0 (facebook, GitHub, google)

2017--03--02 网络数据采集与爬虫 - @陈华珊 19

− httr, ROAuth, googleAuthR

2017--03--02 网络数据采集与爬虫 - @陈华珊 20

URL编码解码

• urltools• httr::parse_url()• utils::URLdecode(), URLencode()• 域名提取 tldextract

2017--03--02 网络数据采集与爬虫 - @陈华珊 21

参数校验

• Referer:

• User-Agent:

• Request-type: GET, POST, …

• 其它动态生成的参数

• Cookie伪装

• 代理调度

结构化的网页解析

• HTML/XHTML, XML/XML2, JSON, YAML

• XML/HTML: XPath查询

XML, xml2, selectr

2017--03--02 网络数据采集与爬虫 - @陈华珊 22

• JSON: jsonlite, rsjon, RJSONIO

• YAML: yaml

示例

1 library(xml2)23 html = read_html('http://to.xml')4 html56 x = xml_find_all(html, xpath = '//*[(@id = "something")]')7 xml_attrs(x)

2017--03--02 网络数据采集与爬虫 - @陈华珊 23

如何选择网页元素？

1 <div id="NodeValueDiv3" class="TimeHide">2 <ul>3 <li><a id="NodeValueDiv3ReferType1Link" title="反映本文研究工4 作的背景和依据">参考文献</a>5 <span id="NodeValueDiv3ReferType1Level1"></span></li>6 <li><a id="NodeValueDiv3ReferType2Link" title="本文参考文献的7 参考文献。进一步反映本文研究工作的8 背景和依据">二级参考文献</a>9 <span id="NodeValueDiv3ReferType2Level2"></span></li>10 <li><a id="NodeValueDiv3ReferType4Link" title="引用本文的文11 献。本文研究工作的继续、应用、发展或评价">12 引证文献</a><span id="NodeValueDiv3ReferType4Level1"></span></li>13 <li><a id="NodeValueDiv3ReferType16Link" title="本文引证文献的14 引证文献。更进一步反映本文研究工作15 的继续、发展或评价">二级引证文献</a>16 <span id="NodeValueDiv3ReferType16Level2"></span></li>17 </ul>

2017--03--02 网络数据采集与爬虫 - @陈华珊 24

18 </div>

2017--03--02 网络数据采集与爬虫 - @陈华珊 25

• by id ( “NodeValueDiv3” )• by tag name• by css class ( “TimeHide” )• by attribute ( “title” )

2017--03--02 网络数据采集与爬虫 - @陈华珊 26

CSS selector vs. XPath

CSS selector比 XPath更易读

• #: 选择 id，例如 #xyz• mytagname: 选择 tag，例如 a• “.” : 选择 class，例如.xyz• [target]：选择属性，例如 [alt]

http://www.w3schools.com/cssref/css_selectors.asp

1 library(selectr)2 css_to_xpath('#hpKKK')3 css_to_xpath('a')4 css_to_xpath('.xxx')5 css_to_xpath('[src]')

http://selectorgadget.com/

2017--03--02 网络数据采集与爬虫 - @陈华珊 27

rvest解析网页

• html_nodes: 基于 css或 xpath选择节点• html_attrs: 获取全部属性• html_attr: 获取指定节点的某个属性• html_name: 获取节点的 tag• html_text: 获取节点的内容• html_children: 获取子节点

2017--03--02 网络数据采集与爬虫 - @陈华珊 28

非结构化的网页解析

• 网页正文提取 boilerpipeR

• 文本查询和匹配

2017--03--02 网络数据采集与爬虫 - @陈华珊 29

检索与存储

• 一般关系型数据库：mysql, sqlite,sql server, oracle• NoSQL: Mongo DB, Cassandra, HBase• Hadoop, spark• Key-Value: Redis, memcached

2017--03--02 网络数据采集与爬虫 - @陈华珊 30

动态脚本交互

• RSelenium• V8• SpiderMonkey

2017--03--02 网络数据采集与爬虫 - @陈华珊 31

R调用HTTP解析

2017--03--02 网络数据采集与爬虫 - @陈华珊 32

包的加载及调用

1 library(httr)23 r <- GET("http://www.baidu.com")4 ## Error in curl: :curl_fetch_memory(url, handle = handle) :5 Couldn't resolve host name

2017--03--02 网络数据采集与爬虫 - @陈华珊 33

查看 response对象，有用的信息包括：真实的URL（URL跳转）、HTTP状态码、内容类型、大小、etc.

1 r2 ## Error in eval(expr, envir, enclos): object 'r' not found

2017--03--02 网络数据采集与爬虫 - @陈华珊 34

继续挖掘

1 status_code(r)2 ## Error in status_code(r): object 'r' not found3 headers(r)4 ## Error in headers(r): object 'r' not found5 str(content(r))6 ## Error in inherits(x, "response"): object 'r' not found

• 文本内容

1 content(r, 'text')2 content(r, "text", encoding = "ISO-8859-1")

• 非文本内容

1 content(r, "raw")

2017--03--02 网络数据采集与爬虫 - @陈华珊 35

2 writeBin(r, 'aaa.jpg')

• 数据

JSON automatically parsed into named list

1 content(r, "parsed")

2017--03--02 网络数据采集与爬虫 - @陈华珊 36

Cookie1 r$cookies2 ## Error in eval(expr, envir, enclos): object 'r' not found

传输 cookie

1 r <- GET("http://httpbin.org/cookies/set", query = list(a = 1))2 cookies(r)

2017--03--02 网络数据采集与爬虫 - @陈华珊 37

传递参数1 r <- GET("http://httpbin.org/get",2 query = list(key1 = "value1", key2 = "value2")3 )4 content(r)$args56 r <- POST("http://httpbin.org/post", body = list(a = 1, b = 2, c7 = 3))89 # 上传文件10 POST(url, body = upload_file("mypath.txt"))

2017--03--02 网络数据采集与爬虫 - @陈华珊 38

抓包与解析

• 浏览器调试− 查看网页源代码− Firefox：firebug− Chrome: debug模式 F12

• 网络嗅探、HTTP抓包工具− sniffer− httpfox− fiddler

2017--03--02 网络数据采集与爬虫 - @陈华珊 39

爬虫实践

spider 20160430 contex · • OAuth1.0(linkedin,twitter,vimeo)，OAuth2.0(facebook,GitHub,google)...

Documents

Transcript of spider 20160430 contex · • OAuth1.0(linkedin,twitter,vimeo)，OAuth2.0(facebook,GitHub,google)...

JAEA-Technology 2012-010JAEA-Technology 2012-010 - 1 - 1. はじめに HTTR（高温工学試験研究炉：High Temperature Engineering Test Reactor）は、高温 ガス炉技術基盤の確立と高度化を目的として、日本原子力研究開発機構大洗研究開発センターに

20160430 DM

sns 3parR - Shodhgangashodhganga.inflibnet.ac.in/bitstream/10603/58349/10/10_chapter 6.pdf267 TT^ mX FTTfVfq viTg-fmiRT %. mf HTTr-frra=fT ^ wfm ^Tr% gr «^ ^ffr Twr^jf^r^ cpf^ qr

JAEA-Technology 2012-032...JAEA-Technology 日本原子力研究開発機構 November 2012 Japan Atomic Energy Agency JAEA-Technology 2012-032 高温工学試験研究炉（HTTR）の

SANS TSF INFO - data.over-blog-kiwi.comdata.over-blog-kiwi.com/1/50/81/96/20160430/ob... · Tourisme sans Frontières : une approche du « tourisme pro-pauvres » qui donne des résultats

HTTR非常用発電機の保守管理と - JAEA...JAEA-Technology JAEA-Technology 2009-048 Maintenance of the Emergency Power Generators and Overhaul of the Gas Turbine Engines in

OKO M E ASO 19 - ssb.no · l d r brvt dtt hftt, l v rn fr bbln l dn r . nvbr 80 nnhld rdr r bltt llr blr bbd nr. Bbl l rn d tttbbln r blr, ndtr, frrtnnr, ffntl bnnr, drttnl .l. Httr

03 セラミック[11 19]3. ワイブル理論の適用例 3.1 概要 JAEAは1997年から高温ガス炉（HTTR）の熱（約 1000 ）と化学反応を利用した大規模水素製造法

static.trust-one.comstatic.trust-one.com/img/news_content/20160430/146199654600200343… · !"#$01/23#%4561)!"#$%"&%!’(( !"# %&’()*+!,-./0!"#$%&’(%)*!+,-./012345678.9:;?@ABCDEF

CAHIER DE TEXTE 2DE 10 inversédata.over-blog-kiwi.com/1/85/26/92/20160430/ob_9ec232_cahier-de... · Travail sur la dissertation. la comédie de Tartuffe a-t-elle pour seul objectif

JAEAjolissrch-inter.tokai-sc.jaea.go.jp/pdfdata/JAEA... · Hiroshi OHUCHI and Masayuki SHINOZAKI Department of HTTR Oarai Research and Development Center Japan Atomic Energy Agency

20160430 Mafie Seregno PC v2 - Il Caffè Geopolitico

4. Tafel A1 Polyeder 20160430 - Imaginary · 2016. 6. 11. · Symmetrische Polyeder müssen nicht zwangsläufig von regelmäßigen Vielecken begrenzt werden. In Keplers Holzschnitt

SANS TSF INFO - data.over-blog-kiwi.comdata.over-blog-kiwi.com/1/50/81/96/20160430/ob_9b65a4_tsf-info... · Un touriste acteur de son déplacement et ... Un touriste respectueux de

HTTRの起動用中性子源の交換時期の推定...感度等の諸元を決定している。WRM の基本仕様を表2.2 に示す5)。 「WRM 計数率低」の警報の設定範囲は

アプリケーション開発ガイド（概要） · 用可能（OAuth1.0からの改善） 多くのサービスで採用されている実績のある認証・認可方式 データ利活用基盤サービスの各APIは、OAuth2.0で取得した

20160430 DA

感動を・ともに・創る - projectphone.lekumo.bizprojectphone.lekumo.biz/pdf/YamahaNetworkAppliance-20160430.pdfヤマハネットワーク機器 製品年表 1996.10 rtx3000

20160430 kintone Café 沖縄女子会 Vol.1 kintoneデモ環境紹介

› _media › techinfo › opensso › ... OAuth入門Copyright © 2012 Open Source Solution Technology, Corp. 12 OAuth1.0 の課題 Eran Hammer氏の「Introducing OAuth 2.0」より

JAEA-Technology 2012-010JAEA-Technology 2012-010 - 1 - 1. はじめに HTTR（高温工学試験研究炉：High Temperature Engineering Test Reactor）は、高温ガス炉技術基盤の確立と高度化を目的として、日本原子力研究開発機構大洗研究開発センターに

static.trust-one.comstatic.trust-one.com/img/news_content/20160430/146199654600200343… · !"#$01/23#%4561)!"#$%"&%!’(( !"# %&’()+!,-./0!"#$%&’(%)!+,-./012345678.9:;?@ABCDEF

HTTRの起動用中性子源の交換時期の推定...感度等の諸元を決定している。WRM の基本仕様を表2.2 に示す5)。「WRM 計数率低」の警報の設定範囲は

アプリケーション開発ガイド（概要） · 用可能（OAuth1.0からの改善）多くのサービスで採用されている実績のある認証・認可方式データ利活用基盤サービスの各APIは、OAuth2.0で取得した

感動を・ともに・創る - projectphone.lekumo.bizprojectphone.lekumo.biz/pdf/YamahaNetworkAppliance-20160430.pdfヤマハネットワーク機器製品年表 1996.10 rtx3000