[vc_row][vc_column][vc_column_text]Soubor robots.txt patří mezi další, neméně důležité části [slovnik slovo="On-page faktory"]on-page[/slovnik] optimalizace pro vyhledávače. Je to soubor, který vyhledávačům říká, jaké stránky vašeho webu mají procházet a jaké mají vynechat.
Webmasteři mohou využít tří způsobů, jak vyhledávačům sdělit, kam nemohou chodit. Kromě souboru robots.txt, který je vhodný pro nastavení restrikcí pro celý web najednou, můžete použít meta tag v hlavičce stránky nebo chcete-li informovat vyhledávače, aby nenásledovaly konkrétní odkaz, tak mu přidejte atribut rel=“[slovnik slovo="Nofollow odkazy"]nofollow[/slovnik]“. V tomto článku ale zůstaneme u robots.txt, takže se pojďme tomuto souboru podrobněji podívat na zoubek.
Robots.txt, neboli Robots Exclusion Protocol (REP), je textový soubor vložený v hlavním adresáři hostingu vašeho webu, a je v něm, kromě jiného, napsáno na jaké stránky webu vyhledávače chodit mohou a na které nikoliv. Pokud vyhledávač soubor nenajde (nevytvořili jste ho), tak je to pro něj automatický signál, že může [slovnik slovo="Indexovat"]indexovat[/slovnik] web celý.
Jeho nejpoužívanější technikou pro [slovnik slovo="Search Engine Optimization (SEO, optimalizace pro vyhledávače)"]SEO[/slovnik] je blokování určitého obsahu vyhledávačům. V praxi se nejčastěji potýkáme s tím, že je soubor robots.txt špatně nastaven. Několikrát jsme museli řešit situaci, kdy klientův nový web ani po měsících propagace nezískával žádné návštěvníky z vyhledávačů. Často se totiž stane, že při tvorbě nového webu programátor, kodér nebo grafik soubor robots.txt nastaví a vyhledávačům kvůli tvorbě webu a testování přístup na stránku zakáže. Majitel webu se poté může snažit, jak chce, ale vyhledávače svými klíčovými slovy bohužel nepřesvědčí. Jedinou možnou nápravou je soubor upravit.
Soubor najdete na adrese: http://www.vasestranka.cz/robots.txt . Místo „vaše stránka“ si doplňte název vaší [slovnik slovo="Doména"]domény[/slovnik]. U našeho webu například soubor najdete na adrese https://vceliste.cz/robots.txt. Tímto způsobem se můžete jednoduše přesvědčit, zda se soubor na vašem webu nachází či nikoliv. Následně se dozvíte, co váš soubor obsahuje, jaké stránky vašeho webu jsou či nejsou indexovány.
Pokud si teď lámete hlavu, zda robots.txt lze použít i na subdoménách, tak už nemusíte. Je to samozřejmě možné, ba dokonce i nutné. Běží-li váš web na protokolu https nebo http, vězte, že je nutné mít pro každý protokol zvláštní (byť třeba i stejný soubor).
Název souboru by měl být napsán malými písmeny a měl by se nacházet v kořenové složce vašeho webu. Můžete ho jednoduše vytvořit v poznámkovém bloku nebo v jiném textovém editoru. Každý řádek uvnitř souboru pak říká, jaký robot a kam nesmí.
V zápisech se často opakují dva výrazy:
User-agent: *
Disallow: /blog/
Co nám takovýto zápis říká? Zápis nám sděluje, že všichni roboti (hvězdička) nesmí chodit do adresáře /blog/.
Neexistující soubor je pro vyhledávače znak toho, že mohou zaznamenat a procházet všechny stránky webu. Pokud bychom rádi toto pravidlo do robots.txt zapsali, tak by zápis vypadal takto:
User-agent: *
Disallow:
Následující výčet příkazů by se vám mohl hodit, pokud se budete souborem robots.txt podrobněji zabývat.
User-agent: * Disallow: /
User-agent: Googlebot Disallow: /no-google/
User-agent: Googlebot Disallow: /no-google/blocked-page.html
User-agent: * Disallow: Sitemap: http://www.example.com/none-standard-location/sitemap.xml
Více podrobnějších informací o REP protokolu najdete na jeho oficiálních stránkách. Případně na webu W3.org
Pokud máte nějaké části webu, které nechcete nechat indexovat a procházet roboty, tak použijte soubor robots.txt. V případě, že potřebujete zablokovat pouze některou část webu či odkaz, tak doporučuji užít meta tag na stránce, případně atribut odkaz rel=“nofollow“. Po tvorbě nového webu nezapomeňte obsah robotům odblokovat, aby mohli procházet a zaindexovat váš web. Je to jedna z nejčastějších začátečnických chyb. Na závěr je vhodné poznamenat, že někteří roboti umí soubor robots.txt obejít. Ti většinou hledají nezabezpečená místa a dále tak šíří nebezpečný malware. Pro ně ale soubor robots.txt rozhodně nevytváříte.
[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_cta h2="Periodická tabulka SEO faktorů" txt_align="center" add_button="bottom" btn_title="Stáhnout soubor" btn_style="outline-custom" btn_outline_custom_color="#ffdf47" btn_outline_custom_hover_background="#ffdf47" btn_outline_custom_hover_text="#ffffff" btn_shape="square" btn_size="lg" btn_align="center" btn_custom_onclick="true" btn_link="url:https%3A%2F%2Fvceliste.cz%2Fmejte-vsechny-slozky-seo-pred-ocima%2F|title:St%C3%A1hnout%20soubor|target:%20_blank|"]Stáhněte si přehlednou infografiku SEO faktorů a nastavte si na své stránce vše k naprosté dokonalosti![/vc_cta][/vc_column][/vc_row]
3 komentáře k zobrazení
Dobrý deň ja mám takýto zápis
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
chcem sa len uistiť či je to takto dobré? pretože ma google nevie najst a pri mojej domene pise toto : Popis tohto výsledku nie je k dispozícii. Príčinou nedostupnosti popisu je súbor robots.txt tohto webu
prosím o vysvetlenie. Kde je problém. .., chcem aby sa na google ukazalo všetko čo mám na blogu. ďakujem, som zúfala pretože tomu zatial nerozumiem.
Zdravím. Váš zápis vypadá dobře, zamyslel bych se, z jakého důvodu chcete indexovat /wp-admin/admin-ajax.php, zda to má smysl. Pokud vyhledávač píše, že ho blokují robots.txt, napříkla dpro hlavní stránku, je to divné, chtělo by se podívat na tu stránku konkrétně. Pokud byste chtěla pomoct, stačí vyplnit nezávaznou konzultaci https://vceliste.cz/nezavazna-konzultace/ a my vám zkusíme pomoct.
Dobrý den,
píšete:
Pokud máte nějaké části webu, které nechcete nechat indexovat a procházet roboty, tak použijte soubor robots.txt.
Souhlasím s tím procházením, ale pokud se použijet robots.cyt - disallow tak to v indexaci nezabrání. Pouze zakážeme robotům procházet stránku. Jediná správná varianta, jak zabránit v indexaci stránky je meta robots noindex (jako metaznačka).