Download - 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Transcript

Page 1: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

=>

Half hour of code:

Joe @ Taichun.py 2016.01.09

Page 2: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

• PyConTW HoC

•

•

• …

Page 3: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

•

• HTTP / HTML / CSS / JS python

•

• DEMO

•

Page 4: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Crawler

Page 5: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

CRAWLER

Page 6: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Crawler •

• JS

•

• JS

•

• JS

•

• JS

•

• BUG

•

•

HoC

Page 7: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Crawler •

• JS

•

• JS

•

• JS

•

• JS

•

• BUG

•

•

Page 8: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Crawler •

• JS

•

• JS

•

• JS

•

• JS

•

• BUG

•

•

Page 9: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

C 299

# # …

Page 10: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

=>

@

Page 11: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 1: • 1.1

• whois

•

• Python whois module

• online service

• cmd tools

Page 12: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 1: • 1.2

• robot.txt sitemap.xml

• ….

•

• HTTP GET

• Python robotparser module parse

•

Page 13: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 1: • 1.3

•

•

• Python builtwith module

• Browser

Page 14: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 1:

• 1.4 (optional)

•

•

• google: Kali Linux

https://speakerdeck.com/achudars/28-web-crawlers

Page 15: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 2: • 2.0

• XD

• HoC

•

• Python requests module

• curl … httpie

• API

https://www.youtube.com/channel/UCHLnNgRnfGYDzPCCH8qGbQw

Page 16: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 3: •

•

• pattern …

• regular expression

• Python re module regex101

•

•

http://regex101.com/

Page 17: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Page 18: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 3: •

•

• BeautifulSoup lxml parse

• HoC

• BeautifulSoup parser : html.parser / lxml / lxml-xml / html5lib

•

• parser

http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser

Page 19: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Page 20: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 3:

•

• BJ4

• http -b www.google.com | hxnormalize -x | hxselect -c 'title'

Page 21: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Page 22: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 3: •

•

• scrapely “train / learn”

• scrapy =>

• scapy =>

•

•

Page 23: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

… train http lib

Page 24: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

•

• HTTP

• parse

Page 25: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

=>

@

Page 26: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 1:

•

•

• View Source Code vs Element View (chrome)

Page 27: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 2: • python

pyquery

Page 28: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

– JS render

Page 29: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 2 : •

•

• javascript implement

•

• JS render

• WebView

•

• headless

Page 30: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

STEP 2 : • JS render

• WebView

• Python Binding

• PyQt or PySide … ( )

•

• Selenium Python

• headless

• Phantomjs( Casperjs) Slimerjs …

Page 31: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

•

•

•

…

• solution

Page 32: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

CAPTCHA =>

@

Page 33: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

•

• img alt

• OCR

• pytesseract or pytesser

• xx learning + ….

• XD captcha

•

Page 34: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

IP =>

@

Page 35: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

• proxy

• Python

Page 36: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

DER =>

@

Page 37: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

• python threading /multiprocessing coroutine module

• browser automation

• cookies handoff

Page 38: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

BLOCK @

@IE ONLY

@

SPIDER TRAP@

HEADLESS MODE JS EVENT

Page 39: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

• crawler

•

• scrapy

Page 40: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

XD

<=

Page 41: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

=>

@

Page 42: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

Page 43: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

1/24 14:00 GLIACLOUD DAVID

X

Page 44: 從蟒蛇到神龍 - 從 1 接關繼續打造爬蟲程式

•

• K-12

• /

• /

• /

•

• GAE (python)

• backbone.js / react.js

• AWS

• SCRUM

Top Related

從開放資料到開放政府 / 從 Web 2.0 到 Gov 2.0

從開放資料到開放政府 / 從 Web 2.0 到 Gov 2.0

[爬过草地的乌龟小老板创业大策划]

[爬过草地的乌龟小老板创业大策划]

天主教聖谷東區中文週訊天主教聖谷東區華語主日彌撒...2014/05/11 · 羊棧，而從別處爬進去的，就是賊，是強盜。從門進去的，纔

天主教聖谷東區中文週訊天主教聖谷東區華語主日彌撒...2014/05/11 · 羊棧，而從別處爬進去的，就是賊，是強盜。從門進去的，纔

從 REPL 到 IDE

從零開始的爬蟲之旅 Crawler from zero

從零開始的爬蟲之旅 Crawler from zero

從心合一 SATB+Piano¾ž心合一 SATB... · 從心合一 SATB+Piano

從心合一 SATB+Piano¾ž心合一 SATB... · 從心合一 SATB+Piano

26 那片绿绿的爬山虎

記憶裡 - GOOD TV-首頁 · 等待，等著喀喀喀的聲音漸漸消失，等著蛋糕的香氣從門縫悄悄爬進來，等著媽媽開口大喊著：「出來吃蛋糕吧！」

記憶裡 - GOOD TV-首頁 · 等待，等著喀喀喀的聲音漸漸消失，等著蛋糕的香氣從門縫悄悄爬進來，等著媽媽開口大喊著：「出來吃蛋糕吧！」

Languages

Pages

Legal

Copyright © 2022 FDOCUMENT