Crawler (webový robot, spider) je program, který automaticky prochází webové stránky, sleduje odkazy a shromažďuje data
pro následnou indexaci ve vyhledávačích. Je klíčový pro to, aby se vaše stránky objevily v SERP.
Co znamená „Crawler“
Crawler je software, který stahuje stránky přes HTTP/HTTPS, extrahuje z nich odkazy a frontuje je k dalšímu procházení.
Nasbíraná data předává indexačnímu systému, který je vyhodnotí a uloží pro vyhledávání.
Příkladem je Googlebot (Google), Bingbot (Bing) nebo specializované crawlery SEO nástrojů.
Jak crawler funguje (zjednodušeně)
Krok
Popis
Seed URL
Začíná na známých adresách (domovská stránka, odkazy z dřívějška, sitemapy).
Stažení
Stáhne HTML přes HTTP/HTTPS s ohledem na limity serveru.
Extrahování
Najde odkazy, obrázky, kanonické tagy, pokyny pro indexaci.
Plánování
Rozhodne, co a kdy navštíví příště (frekvence změn, autorita, limity).
Předání indexaci
Obsah putuje do indexu, kde se zpracuje pro SERP.
Crawl budget (rozpočet procházení)
Crawl budget je množství stránek, které crawler na vašem webu prochází v určitém období.
Vliv mají: technický stav webu, rychlost serveru, počet chyb a důležitost stránek.
Rychlý a stabilní web (optimalizace výkonu, CDN, správné HTTP kódy).
Kanonikalizace URL a rozumné použití parametrů.
Čistá interní navigace, žádné slepé uličky.
Aktualizovaná Sitemap a správné robots pokyny.
Odstraňte duplicity, pracujte s indexací stránek nízké hodnoty.
FAQ – často kladené otázky
Proč crawler některé stránky neprochází?
Mohou být blokované v robots.txt, skryté bez interních odkazů, nebo je vyčerpán crawl budget.
Jak zjistím, co crawler dělá na mém webu?
Kontrolujte serverové logy a stavové kódy HTTP/HTTPS; sledujte také reporty indexace.
Mám blokovat parametrové URL?
Pokud generují duplicity nebo nekonečné kombinace, zvažte blokaci v robots.txt nebo kanonikalizaci.
Příklad použití (mini‑case)
Web s filtrováním produktů měl miliony kombinací URL. Po zavedení kanonických URL, omezení indexace parametrů a aktualizaci sitemap
se rychleji dostaly do indexu důležité stránky a organická návštěvnost vzrostla.