Jak nejlépe využít robots.txt pro SEO?

Soubor robots.txt patří mezi další, neméně důležité části on-page optimalizace pro vyhledávače. Je to soubor, který vyhledávačům říká, jaké stránky vašeho webu mají procházet a jaké mají vynechat.

Webmasteři mohou využít tří způsobů, jak vyhledávačům sdělit, kam nemohou chodit. Kromě souboru robots.txt, který je vhodný pro nastavení restrikcí pro celý web najednou, můžete použít meta tag v hlavičce stránky nebo chcete-li informovat vyhledávače, aby nenásledovaly konkrétní odkaz, tak mu přidejte atribut rel=“nofollow“. V tomto článku ale zůstaneme u robots.txt, takže se pojďme tomuto souboru podrobněji podívat na zoubek.

Co to je robots.txt?

Robots.txt, neboli Robots Exclusion Protocol (REP), je textový soubor vložený v hlavním adresáři hostingu vašeho webu, a je v něm, kromě jiného, napsáno na jaké stránky webu vyhledávače chodit mohou a na které nikoliv. Pokud vyhledávač soubor nenajde (nevytvořili jste ho), tak je to pro něj automatický signál, že může indexovat web celý.

Jaký má soubor robots.txt účel pro SEO?

Jeho nejpoužívanější technikou pro SEO je blokování určitého obsahu vyhledávačům. V praxi se nejčastěji potýkáme s tím, že je soubor robots.txt špatně nastaven. Několikrát jsme museli řešit situaci, kdy klientův nový web ani po měsících propagace nezískával žádné návštěvníky z vyhledávačů. Často se totiž stane, že při tvorbě nového webu programátor, kodér nebo grafik soubor robots.txt nastaví a vyhledávačům kvůli tvorbě webu a testování přístup na stránku zakáže. Majitel webu se poté může snažit, jak chce, ale vyhledávače svými klíčovými slovy bohužel nepřesvědčí. Jedinou možnou nápravou je soubor upravit.

Kde soubor najdete?

Soubor najdete na adrese: http://www.vasestranka.cz/robots.txt . Místo „vaše stránka“ si doplňte název vaší domény. U našeho webu například soubor najdete na adrese https://vceliste.cz/robots.txt. Tímto způsobem se můžete jednoduše přesvědčit, zda se soubor na vašem webu nachází či nikoliv. Následně se dozvíte, co váš soubor obsahuje, jaké stránky vašeho webu jsou či nejsou indexovány.

Pokud si teď lámete hlavu, zda robots.txt lze použít i na subdoménách, tak už nemusíte. Je to samozřejmě možné, ba dokonce i nutné. Běží-li váš web na protokolu https nebo http, vězte, že je nutné mít pro každý protokol zvláštní (byť třeba i stejný soubor).

Nastavte si robots.txt správně

Název souboru by měl být napsán malými písmeny a měl by se nacházet v kořenové složce vašeho webu. Můžete ho jednoduše vytvořit v poznámkovém bloku nebo v jiném textovém editoru. Každý řádek uvnitř souboru pak říká, jaký robot a kam nesmí.

V zápisech se často opakují dva výrazy:

User-agent = robot
Disallow = nesmíš

Další User-agenty (roboty) naleznete jednoduše na internetu. Pěkný seznam je třeba zde.

Příklad zápisu robots.txt

User-agent: *
Disallow: /blog/

Co nám takovýto zápis říká? Zápis nám sděluje, že všichni roboti (hvězdička) nesmí chodit do adresáře /blog/.

Neexistující soubor = vše je povoleno

Neexistující soubor je pro vyhledávače znak toho, že mohou zaznamenat a procházet všechny stránky webu. Pokud bychom rádi toto pravidlo do robots.txt zapsali, tak by zápis vypadal takto:

User-agent: *
Disallow:

Další příkazy a zdroje, které by se vám mohly hodit

Následující výčet příkazů by se vám mohl hodit, pokud se budete souborem robots.txt podrobněji zabývat.

Blokace procházení obsahu vyhledávači

User-agent: * Disallow: /

Blokace specifického robotu a konkrétní složky

User-agent: Googlebot Disallow: /no-google/

Blokace konkrétního robotu a specifické stránky na webu

User-agent: Googlebot Disallow: /no-google/blocked-page.html

Blokace procházení souboru sitemap

User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml

Další podrobnější informace

Více podrobnějších informací o REP protokolu najdete na jeho oficiálních stránkách. Případně na webu W3.org

Závěr

Pokud máte nějaké části webu, které nechcete nechat indexovat a procházet roboty, tak použijte soubor robots.txt. V případě, že potřebujete zablokovat pouze některou část webu či odkaz, tak doporučuji užít meta tag na stránce, případně atribut odkaz rel=“nofollow“. Po tvorbě nového webu nezapomeňte obsah robotům odblokovat, aby mohli procházet a zaindexovat váš web. Je to jedna z nejčastějších začátečnických chyb. Na závěr je vhodné poznamenat, že někteří roboti umí soubor robots.txt obejít. Ti většinou hledají nezabezpečená místa a dále tak šíří nebezpečný malware. Pro ně ale soubor robots.txt rozhodně nevytváříte.

Periodická tabulka SEO faktorů

Stáhněte si přehlednou infografiku SEO faktorů a nastavte si na své stránce vše k naprosté dokonalosti!

Stáhnout soubor

Sdílejte:

Tomáš Procházka

Konzultant Včeliště.cz se zaměřením na obsahové strategie, copywriting a SEO. Více o něm naleznete na Impleo.cz nebo sledujte jeho Twitter a Google+

3 komentářů k zobrazení

Adriána napsal:

8. dubna, 2017 (16:55)

Dobrý deň ja mám takýto zápis
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
chcem sa len uistiť či je to takto dobré? pretože ma google nevie najst a pri mojej domene pise toto : Popis tohto výsledku nie je k dispozícii. Príčinou nedostupnosti popisu je súbor robots.txt tohto webu
prosím o vysvetlenie. Kde je problém. .., chcem aby sa na google ukazalo všetko čo mám na blogu. ďakujem, som zúfala pretože tomu zatial nerozumiem.

Odpovědět
1. Josef Řezníček napsal:
  
  10. dubna, 2017 (10:16)
  
  Zdravím. Váš zápis vypadá dobře, zamyslel bych se, z jakého důvodu chcete indexovat /wp-admin/admin-ajax.php, zda to má smysl. Pokud vyhledávač píše, že ho blokují robots.txt, napříkla dpro hlavní stránku, je to divné, chtělo by se podívat na tu stránku konkrétně. Pokud byste chtěla pomoct, stačí vyplnit nezávaznou konzultaci https://vceliste.cz/nezavazna-konzultace/ a my vám zkusíme pomoct.
  
  Odpovědět
Nikola napsal:

26. srpna, 2019 (13:06)

Dobrý den,

píšete:
Pokud máte nějaké části webu, které nechcete nechat indexovat a procházet roboty, tak použijte soubor robots.txt.

Souhlasím s tím procházením, ale pokud se použijet robots.cyt – disallow tak to v indexaci nezabrání. Pouze zakážeme robotům procházet stránku. Jediná správná varianta, jak zabránit v indexaci stránky je meta robots noindex (jako metaznačka).

Odpovědět