Crawl budget (Vladimír Saur)
-
Upload
medio-interactive-sro -
Category
Data & Analytics
-
view
5.625 -
download
0
Transcript of Crawl budget (Vladimír Saur)
JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
JAKÝ JE CRAWL BUDGET VAŠEHO WEBU?
JE TO MOC?
CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?
CO OVLIVŇUJE PŘIDĚLENÝ CRAWL BUDGET?
• Počet stránek webu
• Rank/popularita
• Častost aktualizace
• Rychlost webu/odezvy serveru
SEZNAM VS. GOOGLE
SEZNAMBOT
robots.txt 552xhomepage 10xsitemap 16x
URL GETVše 20 700 27 600HTML 11 400 15 200Obrázky 9 300 11 700
<lastmod>
Stahuje se i se starším datem
GOOGLEBOT
URL GET POST OPTIONSVše 85 700 304 700 14 400 130HTML 52 500 103 100 14 400 130Obrázky 32 700 79 900Fonty 5 32 000CSS 1 2 000Javascript 15 86 700
<lastmod>
Stahuje jen poslední datum (aktuální den), starší ne
robots.txt 68xhomepage 196xsitemap 11x
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
Velký počet URL s nízkou hodnotou
• Duplicity• Podobnosti• Soft errors
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
Další linkované soubory
• Javascripty• CSS• Fonty
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
Technické nedostatky
• Redirect chains• URL bez obsahu
JAK SI CRAWL BUDGET CO NEJLÉPE VYPLÁCAT?
SPA(Single-PageApplications)
Indexace pomocí hashbang:1. www.example.com/#!klic1=hod
nota1&klic2=hodnota22. <meta name="fragment"
content="!">3. www.example.com/?
_escaped_fragment_=klic1=hodnota1%26klic2=hodnota2
ŘÍZENÍ CRAWLINGU – CO (TÉMĚŘ) NEFUNGUJE?
• Meta robots
• X-Robots-Tag• Javascriptové odkazy
• Kanonizace
ŘÍZENÍ CRAWLINGU – CO MŮŽE FUNGOVAT?
• Sitemaps
• Google Search Console – parametry
• Robots.txt
• If-Modified-Since v HTTP hlavičce
SITEMAPS<?xml version="1.0" encoding="UTF-8"?><urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url><loc>http://www.example.com/</loc><lastmod>2005-01-01</lastmod><changefreq>monthly</changefreq><priority>0.8</priority>
</url></urlset>
GOOGLE SEARCH CONSOLE– PARAMETRY
ROBOTS.TXTUser-agent: * Disallow: /
User-agent: SeznamBotDisallow:
User-agent: googlebotDisallow: /cat*.phpDisallow: /cat*.php3$
ROBOTS.TXT 2.0
User-agent: *Robot-version: 2.0Disallow: /test*Disallow: /ko??Disallow: /file\?Disallow: /[0-9][^0-9]*