Zezwalaj tylko robotom Google i Bing na indeksowanie witryny

Używam następującego pliku robots.txt dla witryny: Celem jest umożliwienie googlebotowi i bingbotowi dostępu do witryny z wyjątkiem strony /bedven/bedrijf/*i zablokowanie indeksowania witryny przez inne boty.

User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10

User-agent: *
Disallow: /

Czy ostatnia reguła User-agent: * Disallow: /zabrania wszystkim robotom indeksowania wszystkich stron w witrynie?

web-crawlers robots.txt

— Konsole
źródło

Całe to zadanie dotyczy mnie. Istnieją inne wyszukiwarki i każdy, kto ich używa, nie zobaczy Twojej witryny. theeword.co.uk/info/search_engine_market mówi, że 4,99% internetu nie znajduje się w twoich wyszukiwarkach. To dużo ludzi. Lepszą metodą byłoby monitorowanie ruchu i sprawdzanie, czy jakiś bot rzeczywiście powoduje problemy, a następnie ich blokowanie.

— GKFX,

Niewłaściwie bot może po prostu całkowicie ignorować robots.txttak czy inaczej

— Nick T

Naprawdę złym botom nie zależy na robots.txt

— Osvaldo,

@NickT, w prawdziwym świecie nie brakuje źle zachowanych botów robots.txt, a przynajmniej Disallow: /zasady. Jeśli twoja osobista strona internetowa wbija się w ziemię, ponieważ programista botów nigdy nie pomyślał, że serwer może być Raspberry Pi na niewłaściwym końcu połączenia 256 kbit, przydatne jest takie ogólne wyłączenie.

— Mark

@ Konsola dlaczego?

— o0 ”.

Odpowiedzi:

Po ostatnim rekordzie (rozpoczętym przez User-agent: *) wszystkie uprzejme boty, które nie będą się identyfikować jako „googlebot”, „google”, „bingbot” lub „bing”.
I tak, oznacza to, że nie wolno im się czołgać.

Może chcesz pominąć *in /bedven/bedrijf/*.
W oryginalnej specyfikacji robots.txt *nie ma żadnego specjalnego znaczenia, jest to po prostu znak jak każdy inny. Pozwoliłoby to tylko na indeksowanie stron, które dosłownie mają znak *w adresie URL.
Chociaż Google nie przestrzega specyfikacji robots.txt w tym względzie, ponieważ używają one *jako symbolu wieloznacznego dla „dowolnej sekwencji znaków”, w tym przypadku nie jest to potrzebne : /bedven/bedrijf/*i /bedven/bedrijf/oznaczałoby dokładnie to samo: blokuj wszystkie adresy URL, których ścieżka zaczyna się od /bedven/bedrijf/.

I wreszcie, możesz zredukować plik robots.txt do dwóch rekordów, ponieważ rekord może zawierać wiele User-agentwierszy :

User-agent: googlebot
User-agent: google
User-agent: bingbot
User-agent: bing
Disallow: /bedven/bedrijf/
Crawl-delay: 10

User-agent: *
Disallow: /

— unor
źródło

Pamiętaj, że Google ignoruje dyrektywę opóźnienia indeksowania w pliku robots.txt. Zamiast tego musisz to ustawić w Narzędziach Google dla webmasterów.

— DisgruntledGoat

-2

Boty, szczególnie te złe, mogą ignorować plik robots.txt. Więc bez względu na to, co tam jest napisane, niektóre boty mogą zaindeksować twoją stronę.

— Atis Luguzs
źródło