Rychlost načítání webových stránek hraje stále důležitější roli v oblasti optimalizace pro vyhledávače (SEO) i…
Jak nejlépe využít robots.txt pro SEO?
Soubor robots.txt patří mezi další, neméně důležité části on-page optimalizace pro vyhledávače. Je to soubor, který vyhledávačům říká, jaké stránky vašeho webu mají procházet a jaké mají vynechat.
Webmasteři mohou využít tří způsobů, jak vyhledávačům sdělit, kam nemohou chodit. Kromě souboru robots.txt, který je vhodný pro nastavení restrikcí pro celý web najednou, můžete použít meta tag v hlavičce stránky nebo chcete-li informovat vyhledávače, aby nenásledovaly konkrétní odkaz, tak mu přidejte atribut rel=“nofollow“. V tomto článku ale zůstaneme u robots.txt, takže se pojďme tomuto souboru podrobněji podívat na zoubek.
Co to je robots.txt?
Robots.txt, neboli Robots Exclusion Protocol (REP), je textový soubor vložený v hlavním adresáři hostingu vašeho webu, a je v něm, kromě jiného, napsáno na jaké stránky webu vyhledávače chodit mohou a na které nikoliv. Pokud vyhledávač soubor nenajde (nevytvořili jste ho), tak je to pro něj automatický signál, že může indexovat web celý.
Jaký má soubor robots.txt účel pro SEO?
Jeho nejpoužívanější technikou pro SEO je blokování určitého obsahu vyhledávačům. V praxi se nejčastěji potýkáme s tím, že je soubor robots.txt špatně nastaven. Několikrát jsme museli řešit situaci, kdy klientův nový web ani po měsících propagace nezískával žádné návštěvníky z vyhledávačů. Často se totiž stane, že při tvorbě nového webu programátor, kodér nebo grafik soubor robots.txt nastaví a vyhledávačům kvůli tvorbě webu a testování přístup na stránku zakáže. Majitel webu se poté může snažit, jak chce, ale vyhledávače svými klíčovými slovy bohužel nepřesvědčí. Jedinou možnou nápravou je soubor upravit.
Kde soubor najdete?
Soubor najdete na adrese: http://www.vasestranka.cz/robots.txt . Místo „vaše stránka“ si doplňte název vaší domény. U našeho webu například soubor najdete na adrese https://vceliste.cz/robots.txt. Tímto způsobem se můžete jednoduše přesvědčit, zda se soubor na vašem webu nachází či nikoliv. Následně se dozvíte, co váš soubor obsahuje, jaké stránky vašeho webu jsou či nejsou indexovány.
Pokud si teď lámete hlavu, zda robots.txt lze použít i na subdoménách, tak už nemusíte. Je to samozřejmě možné, ba dokonce i nutné. Běží-li váš web na protokolu https nebo http, vězte, že je nutné mít pro každý protokol zvláštní (byť třeba i stejný soubor).
Nastavte si robots.txt správně
Název souboru by měl být napsán malými písmeny a měl by se nacházet v kořenové složce vašeho webu. Můžete ho jednoduše vytvořit v poznámkovém bloku nebo v jiném textovém editoru. Každý řádek uvnitř souboru pak říká, jaký robot a kam nesmí.
V zápisech se často opakují dva výrazy:
- User-agent = robot
- Disallow = nesmíš
Další User-agenty (roboty) naleznete jednoduše na internetu. Pěkný seznam je třeba zde.
Příklad zápisu robots.txt
User-agent: *
Disallow: /blog/
Co nám takovýto zápis říká? Zápis nám sděluje, že všichni roboti (hvězdička) nesmí chodit do adresáře /blog/.
Neexistující soubor = vše je povoleno
Neexistující soubor je pro vyhledávače znak toho, že mohou zaznamenat a procházet všechny stránky webu. Pokud bychom rádi toto pravidlo do robots.txt zapsali, tak by zápis vypadal takto:
User-agent: *
Disallow:
Další příkazy a zdroje, které by se vám mohly hodit
Následující výčet příkazů by se vám mohl hodit, pokud se budete souborem robots.txt podrobněji zabývat.
Blokace procházení obsahu vyhledávači
User-agent: * Disallow: /
Blokace specifického robotu a konkrétní složky
User-agent: Googlebot Disallow: /no-google/
Blokace konkrétního robotu a specifické stránky na webu
User-agent: Googlebot Disallow: /no-google/blocked-page.html
Blokace procházení souboru sitemap
User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Další podrobnější informace
Více podrobnějších informací o REP protokolu najdete na jeho oficiálních stránkách. Případně na webu W3.org
Závěr
Pokud máte nějaké části webu, které nechcete nechat indexovat a procházet roboty, tak použijte soubor robots.txt. V případě, že potřebujete zablokovat pouze některou část webu či odkaz, tak doporučuji užít meta tag na stránce, případně atribut odkaz rel=“nofollow“. Po tvorbě nového webu nezapomeňte obsah robotům odblokovat, aby mohli procházet a zaindexovat váš web. Je to jedna z nejčastějších začátečnických chyb. Na závěr je vhodné poznamenat, že někteří roboti umí soubor robots.txt obejít. Ti většinou hledají nezabezpečená místa a dále tak šíří nebezpečný malware. Pro ně ale soubor robots.txt rozhodně nevytváříte.
Dobrý deň ja mám takýto zápis
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
chcem sa len uistiť či je to takto dobré? pretože ma google nevie najst a pri mojej domene pise toto : Popis tohto výsledku nie je k dispozícii. Príčinou nedostupnosti popisu je súbor robots.txt tohto webu
prosím o vysvetlenie. Kde je problém. .., chcem aby sa na google ukazalo všetko čo mám na blogu. ďakujem, som zúfala pretože tomu zatial nerozumiem.
Zdravím. Váš zápis vypadá dobře, zamyslel bych se, z jakého důvodu chcete indexovat /wp-admin/admin-ajax.php, zda to má smysl. Pokud vyhledávač píše, že ho blokují robots.txt, napříkla dpro hlavní stránku, je to divné, chtělo by se podívat na tu stránku konkrétně. Pokud byste chtěla pomoct, stačí vyplnit nezávaznou konzultaci https://vceliste.cz/nezavazna-konzultace/ a my vám zkusíme pomoct.
Dobrý den,
píšete:
Pokud máte nějaké části webu, které nechcete nechat indexovat a procházet roboty, tak použijte soubor robots.txt.
Souhlasím s tím procházením, ale pokud se použijet robots.cyt – disallow tak to v indexaci nezabrání. Pouze zakážeme robotům procházet stránku. Jediná správná varianta, jak zabránit v indexaci stránky je meta robots noindex (jako metaznačka).