Indexace

Co znamená „Indexace“

Indexace je proces ukládání a organizace procházených stránek do vyhledávací databáze (indexu). Až poté je možné dokumenty řadit podle relevance a zobrazovat ve výsledcích vyhledávání.

Crawl ≠ indexace. To, že stránku bot navštíví, ještě neznamená, že bude zařazena do indexu.

Jak indexace funguje (zkrácený pipeline)

Objevení URL – interní/externí odkazy, Sitemap / XML sitemap.
Crawl – crawler stáhne HTML a prostředky.
Render – potřebuje‑li stránka JavaScript, vykreslí se (získá se finální DOM).
Analýza – extrakce metadat, obsahu, odkazů.
Indexace – dokument je uložen do indexu; při duplicitách se vybírá kanonická URL adresa.

Kvalita obsahu a signály důvěry (viz E‑A‑T) mohou ovlivnit, zda má stránka „právo“ být indexována.

Proč se stránka neindexuje (typické příčiny)

Stavové kódy – místo 200 vrací HTTP 3xx/4xx/5xx.
Noindex – v meta tagu nebo HTTP hlavičce (X‑Robots‑Tag).
Duplicitní obsah – vyhledávač preferuje jinou kanonickou URL (duplicitní obsah).
Slabý nebo tenký obsah – nízká hodnota pro uživatele.
Problém s JS renderem – klíčový obsah se načítá až po vykreslení a crawler ho nevidí.
Chybějící interní prolinkování – stránka je „sirotek“ bez odkazů.
Špatná architektura – nejasná taxonomie, zacyklené přesměrování, parametry URL.

Jak indexaci zlepšit (konkrétní kroky)

Ověř 200 OK u cílové stránky (žádné soft‑404). Správné 301 pouze při trvalém přesunu (HTTPS, změna struktury).
Odstraň „noindex“, pokud má být stránka ve výsledcích. V HTML:
```
<meta name="robots" content="index,follow">
```
nebo v hlavičce:
```
X-Robots-Tag: index, follow
```
Přidej do sitemap a dbej na konzistentní kanonickou URL.
Posil interní odkazy z relevantních stránek (ideálně tematické clustery).
Vylepši obsah – jedinečnost, hloubka, média, odpovědi na dotazy (pomáhá Featured snippet potenciál).
Zrychli načítání a cache – viz Cache a správné hlavičky.

„Disallow“ v robots.txt neřeší indexaci již známé URL – k deindexaci použij noindex nebo návrat kódu 404/410 (viz Chybová stránka 404).

Kontrola a diagnostika (rychlé testy)

Stavový kód – zkontroluj přes curl -I nebo nástrojem v prohlížeči.
Kanonická URL – ověř správné <link rel="canonical">.
Meta robots – že neobsahuje noindex omylem.
Interní odkazy – stránka není „sirotek“, vede na ni navigace / obsah.

$ curl -I https://www.example.cz/priklad/
HTTP/2 200
content-type: text/html; charset=utf-8
link: <https://www.example.cz/priklad/>; rel="canonical"

Souvislosti se SEO

Architektura & URL – srozumitelná URL adresa a čisté přesměrování (HTTP → HTTPS).
Mezinárodní verze – správný hreflang brání duplicitám napříč jazyky.
Signály kvality – obsah, autorita, E‑A‑T, přirozené externí odkazy.

FAQ – často kladené otázky

Jak dlouho trvá, než se nová stránka zaindexuje?

Od hodin po týdny – záleží na autoritě webu, interních odkazech, sitemapě a technickém stavu.

Stačí dát URL do XML sitemapy?

Pomůže to objevení, ale indexace není garantovaná. Důležitý je i obsah a interní prolinkování.

Co je „soft 404“?

Stránka vrací 200 OK, ale obsah je chybový/velmi slabý – vyhledávač ji může považovat za 404.

Příklad z praxe (mini‑case)

Katalog produktů přidal 4 000 nových detailů. Polovina se neindexovala: chyběla interní navigace a kanonické URL mířily na varianty. Po doplnění prolinků z kategorií, sjednocení kanonikálů a přidání do XML sitemap se do 6 týdnů dostalo do indexu 92 % stránek.