Crawler

Co znamená „Crawler“

Crawler je software, který stahuje stránky přes HTTP/HTTPS, extrahuje z nich odkazy a frontuje je k dalšímu procházení. Nasbíraná data předává indexačnímu systému, který je vyhodnotí a uloží pro vyhledávání.

Příkladem je Googlebot (Google), Bingbot (Bing) nebo specializované crawlery SEO nástrojů.

Jak crawler funguje (zjednodušeně)

Krok	Popis
Seed URL	Začíná na známých adresách (domovská stránka, odkazy z dřívějška, sitemapy).
Stažení	Stáhne HTML přes HTTP/HTTPS s ohledem na limity serveru.
Extrahování	Najde odkazy, obrázky, kanonické tagy, pokyny pro indexaci.
Plánování	Rozhodne, co a kdy navštíví příště (frekvence změn, autorita, limity).
Předání indexaci	Obsah putuje do indexu, kde se zpracuje pro SERP.

Crawl budget (rozpočet procházení)

Crawl budget je množství stránek, které crawler na vašem webu prochází v určitém období. Vliv mají: technický stav webu, rychlost serveru, počet chyb a důležitost stránek.

Minimalizujte 404/500 a přesměrovací řetězce.
Zabraňte nekonečným kombinacím URL (filtrování, parametry, kalendáře).
Udržujte interní odkazy čisté a hierarchii přehlednou.
Prioritizujte důležitý obsah (odkazy z navigace, ze sitemap).

robots.txt & meta robots

robots.txt dává crawlerům pokyny, co nemají stahovat. Meta robots řídí indexaci na úrovni stránky.

# /robots.txt (příklad)
User-agent: *
Disallow: /admin/
Allow: /assets/
Sitemap: https://www.example.cz/sitemap.xml

<!-- Meta robots v HTML -->
<meta name="robots" content="noindex, nofollow">

Blokace v robots.txt neznamená „noindex“. Stránka se může zobrazit v SERP bez náhledu. Pro vyloučení z indexu použijte noindex.

Sitemap (XML sitemap)

Sitemap pomáhá crawlerům objevit důležité URL a porozumět struktuře webu. Uvádějte jen kanonické a indexovatelné adresy.

<url>
  <loc>https://www.example.cz/kategorie/produkt-x</loc>
  <lastmod>2025-08-01</lastmod>
  <changefreq>weekly</changefreq>
  <priority>0.8</priority>
</url>

Best practices pro lepší procházení a indexaci

Rychlý a stabilní web (optimalizace výkonu, CDN, správné HTTP kódy).
Kanonikalizace URL a rozumné použití parametrů.
Čistá interní navigace, žádné slepé uličky.
Aktualizovaná Sitemap a správné robots pokyny.
Odstraňte duplicity, pracujte s indexací stránek nízké hodnoty.

FAQ – často kladené otázky

Proč crawler některé stránky neprochází?

Mohou být blokované v robots.txt, skryté bez interních odkazů, nebo je vyčerpán crawl budget.

Jak zjistím, co crawler dělá na mém webu?

Kontrolujte serverové logy a stavové kódy HTTP/HTTPS; sledujte také reporty indexace.

Mám blokovat parametrové URL?

Pokud generují duplicity nebo nekonečné kombinace, zvažte blokaci v robots.txt nebo kanonikalizaci.

Příklad použití (mini‑case)

Web s filtrováním produktů měl miliony kombinací URL. Po zavedení kanonických URL, omezení indexace parametrů a aktualizaci sitemap se rychleji dostaly do indexu důležité stránky a organická návštěvnost vzrostla.