Desbravando o mundo dos webcrawlers
-
Upload
joao-gabriel-lima -
Category
Technology
-
view
513 -
download
1
Transcript of Desbravando o mundo dos webcrawlers
Desbravando o mundo dos webcrawlersCurso Full-stack mobile Developer :: Ionic Framework
João Gabriel Lima
@jgabriel_limawww.jgabriellima.com
Sobre o autor
http://github.com/jgabriellima
IT Hacker - software e hardware, Arquiteto de soluções, Instrutor em
treinamentos e Co-fundador da Huddle3
Mestre em Computação Aplicada com ênfase em Inteligência
Artificial, Mineração de Dados e BigData.
O que é?
O que é um webcrawler?
Web crawler, em português rastreador web, é um programa de computador que navega pela World Wide Web de uma forma metódica e automatizada. Outros termos para Web crawlers são indexadores automáticos, bots, web spiders, Web robot, ou Web scutter.
Exemplos
Exemplos
● DataparkSearch● Wget● HTTrack● JSpider● Methabot● Pavuk● WebSPHINX● YaCy● Crawljax● Yahoo! Slurp é o nome do crawler do Yahoo!.● Msnbot é o nome do crawler do Bing - Microsoft.● Googlebot é o nome do crawler do Google.● Methabot é um crawler com suporte a scripting escrito em C.● arachnode.net é um Web crawler open-source usando a plataforma .NET e escrito em C#● Goutte[3] é um Web Scraper para criar um crawler desenvolvido em PHP por Fabien Potencier
usando o Symfony.● DuckDuckBot é o web crawler do DuckDuckGo.● Patent2net é um crawler especializado em encontrar, organizar e disponibilizar patentes
depositadas na Espacenet.● OpenWebSpider - http://www.openwebspider.org
Outras soluções
github.com/jgabriellimaDiversos projetos, incluindo webcrawler’s para os mais diversos fins
https://github.com/jgabriellima/venom-telelista
https://github.com/jgabriellima/webcrowler-allitbooks
https://github.com/jgabriellima/node-web-scraper
https://github.com/jgabriellima/palcomp3webcrowler
https://github.com/jgabriellima/wsmarine
https://github.com/jgabriellima/paniconamaws
Por onde começar?
Entendendo a arquitetura de um webcrawler
Escolhendo a tecnologia...
http://zombie.js.org/
https://github.com/cheeriojs/cheerio
https://github.com/request/request
http://phantomjs.org/
{ "name": "Webcrowler :: Curso 'Full-stack mobile developer' Ionic Framework", "private": true, "version": "0.0.1", "description": "webcrowler for get any", "keywords": [], "dependencies": {
"zombie": "4.0.8","cheerio": "*","nedb": "*","request": "*","simple-ssh": "*","ssh2": "*","request":"*"
}, "repository": {
"type": "","url": ""
}, "author": "jgabriellima", "license": "MIT", "devDependencies": {
"electron-packager": "^5.0.1" }}
package.json
Dependências para o projeto do webcrawler
Desbravando o mundo dos webcrawlersCurso Full-stack mobile Developer :: Ionic Framework
João Gabriel Lima
@jgabriel_limawww.jgabriellima.com