Vzorové súbory robots.txt pre vaše webové stránky

Súbor robots.txt uložený v koreňovom adresári vašich webových stránok oznámi webovým robotom, ako sú pavúky vyhľadávacích nástrojov, aké adresáre a súbory môžu indexovo prehľadávať. Je ľahké používať súbor robots.txt, ale je tu niekoľko vecí, ktoré by ste si mali pamätať:

  1. Webové roboty čierneho klobúka ignorujú váš súbor robots.txt. Najčastejšími typmi sú roboty škodlivého softvéru a roboty, ktorí hľadajú e-mailové adresy na zber.
  2. Niektorí noví programátori zapíšu roboty, ktoré ignorujú súbor robots.txt. Toto sa zvyčajne vykonáva omylom.
  1. Ktokoľvek môže vidieť váš súbor robots.txt. Oni sa vždy nazývajú robots.txt a vždy sú uložené v koreňovom adresári webovej lokality.
  2. Nakoniec, ak niekto odkazuje na súbor alebo adresár, ktorý je vylúčený súborom robots.txt zo stránky, ktorá nie je vylúčená ich súborom robots.txt, vyhľadávače ho môžu nájsť.

Nepoužívajte súbory robots.txt na skrytie niečoho dôležitého. Namiesto toho by ste mali vložiť dôležité informácie za zabezpečené heslá alebo ich úplne nechať z webu.

Ako používať tieto vzorové súbory

Skopírujte text zo vzorky, ktorá je najbližšia k tomu, čo chcete urobiť, a vložte ju do súboru robots.txt. Zmeňte názvy robotov, adresárov a súborov tak, aby zodpovedali vašej preferovanej konfigurácii.

Dva základné súbory Robots.txt

User-agent: *
Zakázať: /

Tento súbor hovorí, že každý robot (User-agent: *), ktorý pristupuje k nemu, by mal ignorovať každú stránku na webe (Disallow: /).

User-agent: *
zakázať:

Tento súbor hovorí, že každý robot (User-agent: *), ktorý pristupuje k nemu, môže zobraziť každú stránku na webe (Disallow:).

Môžete to urobiť tak, že necháte súbor robots.txt prázdny, alebo ho vôbec nemáte na vašom webe.

Chráňte špecifické adresáre od robotov

User-agent: *
Zakázať: / cgi-bin /
Zakázať: / temp /

Tento súbor hovorí, že každý robot (User-Agent: *), ktorý ho pristupuje, by mal ignorovať adresáre / cgi-bin / a / temp / (Disallow: / cgi-bin / Disallow: / temp /).

Chráňte špecifické stránky od robotov

User-agent: *
Zakázať: /jenns-stuff.htm
Zakázať: /private.php

Tento súbor hovorí, že každý robot (User-Agent: *), ktorý ho pristupuje, by mal ignorovať súbory /jenns-stuff.htm a /private.php (Disallow: /jenns-stuff.htm Disallow: /private.php).

Zabráňte konkrétnemu robotovi v prístupe k vašim stránkam

User-agent: Lycos / xx
Zakázať: /

Tento súbor hovorí, že bot Lycos (User-agent: Lycos / xx) nie je povolený prístup kdekoľvek na lokalite (Disallow: /).

Povoliť len jeden špecifický prístup robotov

User-agent: *
Zakázať: /
User-agent: Googlebot
zakázať:

Tento súbor najprv nepovolí všetky roboty, ako sme robili vyššie, a potom explicitne nechá Googlebot (User-Agent: Googlebot) prístup ku všetkému (Disallow:).

Kombinácia viacerých riadkov, aby ste získali presne vylúčenia, ktoré chcete

Aj keď je lepšie používať veľmi inkluzívny riadok User-agent, napríklad User-agent: *, môžete byť rovnako špecifický, ako sa vám páči. Pamätajte, že roboty čítajú súbor v poradí. Takže ak prvé riadky hovoria, že všetci robotovia sú zablokovaní všetkým a potom neskôr v súbore hovorí, že všetci roboty majú prístup ku všetkému, roboty budú mať prístup ku všetkému.

Ak si nie ste istí, či ste súbor robots.txt správne napísali, môžete pomocou nástrojov správcu webu Google skontrolovať súbor robots.txt alebo napísať nový.