Świetne pytanie, a jednym z wielu webmasterów może być zainteresowany, ponieważ pająk Baidu jest niezwykle agresywny i może usuwać zasoby z serwerów ...
Jak wskazano w wiadomościach wyszukiwarki internetowej Baidu, pająk Baidu nie obsługuje ustawienia powiadamiania o opóźnieniu indeksowania , a zamiast tego wymaga rejestracji i weryfikacji witryny za pomocą platformy Narzędzi dla webmasterów Baidu, jak podano tutaj na tej stronie. To wydaje się być jedyną opcją do kontrolowania częstotliwości czołgania bezpośrednio w Baidu.
Problem polega na tym, że inne roboty spamujące używają aplikacji klienckich Baidu (wymienionych tutaj pod numerem 2) do spider-owania twojej witryny, jak wskazano w ich często zadawanych pytaniach tutaj pod numerem 4. Dlatego żądanie wolniejszego indeksowania w Baidu może nie rozwiązać wszystkiego.
Dlatego jeśli zdecydujesz się na użycie Narzędzi dla webmasterów Baidu, rozsądne może być również porównanie swoich programów klienckich z adresami IP, o których wiadomo, że są z nimi powiązane, przy użyciu zasobów takich jak Baza Bots vs. Przeglądarki lub odwrotne wyszukiwanie DNS
Jedynymi innymi opcjami są albo blokowanie wszystkich klientów użytkownika Baidu, a tym samym poświęcenie potencjalnego ruchu z Baidu, lub próba ograniczenia nadmiernych żądań przy użyciu czegoś takiego jak mod_qos dla Apache, który twierdzi, że zarządza:
- Maksymalna liczba jednoczesnych żądań do lokalizacji / zasobu (URL) lub hosta wirtualnego.
- Ograniczenie przepustowości, takie jak maksymalna dozwolona liczba żądań na sekundę do adresu URL lub maksymalna / minimalna liczba pobranych kilobajtów na sekundę.
- Ogranicza liczbę zdarzeń żądania na sekundę (specjalne warunki żądania).
- Może także „wykrywać” bardzo ważne osoby (VIP), które mogą uzyskać dostęp do serwera internetowego bez ograniczeń lub z mniejszymi ograniczeniami.
- Ogólny wiersz żądania i filtr nagłówka, aby odmówić nieautoryzowanym operacjom. Żądaj ograniczenia danych i filtrowania (wymaga mod_parp).
- Ograniczenia na poziomie połączenia TCP, np. Maksymalna liczba dozwolonych połączeń z jednego adresu źródłowego IP lub dynamiczna kontrola utrzymywania aktywności.
- Preferuje znane adresy IP, gdy na serwerze brakuje wolnych połączeń TCP.
Nie znalazłem zgłaszanych doświadczeń z Narzędziami dla webmasterów Baidu, które ładują się powoli i mają problemy z tłumaczeniem (nie ma też wersji angielskiej). To może być pomocne, ale oczywiście oparte na opiniach.