Indexace

Indexace je fáze, kdy vyhledávač po crawlování a zpracování obsahu zařadí stránku do svého indexu, aby se mohla zobrazit v SERP. Bez indexace se stránka ve vyhledávání prostě neukáže.

Co znamená „Indexace“

Indexace je proces ukládání a organizace procházených stránek do vyhledávací databáze (indexu). Až poté je možné dokumenty řadit podle relevance a zobrazovat ve výsledcích vyhledávání.

Crawl ≠ indexace. To, že stránku bot navštíví, ještě neznamená, že bude zařazena do indexu.

Jak indexace funguje (zkrácený pipeline)

  1. Objevení URL – interní/externí odkazy, Sitemap / XML sitemap.
  2. Crawlcrawler stáhne HTML a prostředky.
  3. Render – potřebuje‑li stránka JavaScript, vykreslí se (získá se finální DOM).
  4. Analýza – extrakce metadat, obsahu, odkazů.
  5. Indexace – dokument je uložen do indexu; při duplicitách se vybírá kanonická URL adresa.

Kvalita obsahu a signály důvěry (viz E‑A‑T) mohou ovlivnit, zda má stránka „právo“ být indexována.

Proč se stránka neindexuje (typické příčiny)

  • Stavové kódy – místo 200 vrací HTTP 3xx/4xx/5xx.
  • Noindex – v meta tagu nebo HTTP hlavičce (X‑Robots‑Tag).
  • Duplicitní obsah – vyhledávač preferuje jinou kanonickou URL (duplicitní obsah).
  • Slabý nebo tenký obsah – nízká hodnota pro uživatele.
  • Problém s JS renderem – klíčový obsah se načítá až po vykreslení a crawler ho nevidí.
  • Chybějící interní prolinkování – stránka je „sirotek“ bez odkazů.
  • Špatná architektura – nejasná taxonomie, zacyklené přesměrování, parametry URL.

Jak indexaci zlepšit (konkrétní kroky)

  1. Ověř 200 OK u cílové stránky (žádné soft‑404). Správné 301 pouze při trvalém přesunu (HTTPS, změna struktury).
  2. Odstraň „noindex“, pokud má být stránka ve výsledcích. V HTML:
    <meta name="robots" content="index,follow">
    nebo v hlavičce:
    X-Robots-Tag: index, follow
  3. Přidej do sitemap a dbej na konzistentní kanonickou URL.
  4. Posil interní odkazy z relevantních stránek (ideálně tematické clustery).
  5. Vylepši obsah – jedinečnost, hloubka, média, odpovědi na dotazy (pomáhá Featured snippet potenciál).
  6. Zrychli načítání a cache – viz Cache a správné hlavičky.

„Disallow“ v robots.txt neřeší indexaci již známé URL – k deindexaci použij noindex nebo návrat kódu 404/410 (viz Chybová stránka 404).

Kontrola a diagnostika (rychlé testy)

  • Stavový kód – zkontroluj přes curl -I nebo nástrojem v prohlížeči.
  • Kanonická URL – ověř správné <link rel="canonical">.
  • Meta robots – že neobsahuje noindex omylem.
  • Interní odkazy – stránka není „sirotek“, vede na ni navigace / obsah.
$ curl -I https://www.example.cz/priklad/
HTTP/2 200
content-type: text/html; charset=utf-8
link: <https://www.example.cz/priklad/>; rel="canonical"

Souvislosti se SEO

FAQ – často kladené otázky

Jak dlouho trvá, než se nová stránka zaindexuje?
Od hodin po týdny – záleží na autoritě webu, interních odkazech, sitemapě a technickém stavu.
Stačí dát URL do XML sitemapy?
Pomůže to objevení, ale indexace není garantovaná. Důležitý je i obsah a interní prolinkování.
Co je „soft 404“?
Stránka vrací 200 OK, ale obsah je chybový/velmi slabý – vyhledávač ji může považovat za 404.

Příklad z praxe (mini‑case)

Katalog produktů přidal 4 000 nových detailů. Polovina se neindexovala: chyběla interní navigace a kanonické URL mířily na varianty. Po doplnění prolinků z kategorií, sjednocení kanonikálů a přidání do XML sitemap se do 6 týdnů dostalo do indexu 92 % stránek.