Crawler

Crawler (webový robot, spider) je program, který automaticky prochází webové stránky, sleduje odkazy a shromažďuje data pro následnou indexaci ve vyhledávačích. Je klíčový pro to, aby se vaše stránky objevily v SERP.

Co znamená „Crawler“

Crawler je software, který stahuje stránky přes HTTP/HTTPS, extrahuje z nich odkazy a frontuje je k dalšímu procházení. Nasbíraná data předává indexačnímu systému, který je vyhodnotí a uloží pro vyhledávání.

Příkladem je Googlebot (Google), Bingbot (Bing) nebo specializované crawlery SEO nástrojů.

Jak crawler funguje (zjednodušeně)

KrokPopis
Seed URLZačíná na známých adresách (domovská stránka, odkazy z dřívějška, sitemapy).
StaženíStáhne HTML přes HTTP/HTTPS s ohledem na limity serveru.
ExtrahováníNajde odkazy, obrázky, kanonické tagy, pokyny pro indexaci.
PlánováníRozhodne, co a kdy navštíví příště (frekvence změn, autorita, limity).
Předání indexaciObsah putuje do indexu, kde se zpracuje pro SERP.

Crawl budget (rozpočet procházení)

Crawl budget je množství stránek, které crawler na vašem webu prochází v určitém období. Vliv mají: technický stav webu, rychlost serveru, počet chyb a důležitost stránek.

  • Minimalizujte 404/500 a přesměrovací řetězce.
  • Zabraňte nekonečným kombinacím URL (filtrování, parametry, kalendáře).
  • Udržujte interní odkazy čisté a hierarchii přehlednou.
  • Prioritizujte důležitý obsah (odkazy z navigace, ze sitemap).

robots.txt & meta robots

robots.txt dává crawlerům pokyny, co nemají stahovat. Meta robots řídí indexaci na úrovni stránky.

# /robots.txt (příklad)
User-agent: *
Disallow: /admin/
Allow: /assets/
Sitemap: https://www.example.cz/sitemap.xml
<!-- Meta robots v HTML -->
<meta name="robots" content="noindex, nofollow">

Blokace v robots.txt neznamená „noindex“. Stránka se může zobrazit v SERP bez náhledu. Pro vyloučení z indexu použijte noindex.

Sitemap (XML sitemap)

Sitemap pomáhá crawlerům objevit důležité URL a porozumět struktuře webu. Uvádějte jen kanonické a indexovatelné adresy.

<url>
  <loc>https://www.example.cz/kategorie/produkt-x</loc>
  <lastmod>2025-08-01</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.8</priority>
</url>

Best practices pro lepší procházení a indexaci

  • Rychlý a stabilní web (optimalizace výkonu, CDN, správné HTTP kódy).
  • Kanonikalizace URL a rozumné použití parametrů.
  • Čistá interní navigace, žádné slepé uličky.
  • Aktualizovaná Sitemap a správné robots pokyny.
  • Odstraňte duplicity, pracujte s indexací stránek nízké hodnoty.

FAQ – často kladené otázky

Proč crawler některé stránky neprochází?
Mohou být blokované v robots.txt, skryté bez interních odkazů, nebo je vyčerpán crawl budget.
Jak zjistím, co crawler dělá na mém webu?
Kontrolujte serverové logy a stavové kódy HTTP/HTTPS; sledujte také reporty indexace.
Mám blokovat parametrové URL?
Pokud generují duplicity nebo nekonečné kombinace, zvažte blokaci v robots.txt nebo kanonikalizaci.

Příklad použití (mini‑case)

Web s filtrováním produktů měl miliony kombinací URL. Po zavedení kanonických URL, omezení indexace parametrů a aktualizaci sitemap se rychleji dostaly do indexu důležité stránky a organická návštěvnost vzrostla.