Czy Google buforuje plik robots.txt?

17

Dodałem plik robots.txt do jednej z moich witryn tydzień temu, co powinno uniemożliwić Googlebotowi próby pobrania niektórych adresów URL. Jednak w ten weekend widzę, że Googlebot ładuje te dokładne adresy URL.

Czy Google buforuje plik robots.txt, a jeśli tak, to powinien?

googlebot robots.txt google-cache

— Quog
źródło

13

Zdecydowanie zalecamy zarejestrowanie witryny w Google Search Console (wcześniej Google Webmaster Tools) . W konfiguracji witryny znajduje się sekcja dostępu dla robota, która powie Ci, kiedy plik robots.txt został ostatnio pobrany. Narzędzie zawiera również wiele szczegółowych informacji na temat tego, w jaki sposób roboty widzą Twoją witrynę, co jest zablokowane lub nie działa oraz gdzie pojawia się w zapytaniach w Google.

Z tego, co mogę powiedzieć, Google często pobiera plik robots.txt . Witryna Google Search Console pozwala również na szczególne usuwanie adresów URL z indeksu, dzięki czemu możesz usunąć te, które teraz blokujesz.

— Danivovich
źródło

2

Sprawdziłem narzędzia dla webmasterów: plik robots.txt jest prawidłowy i został pobrany ostatnio 17 godzin przed ostatnią wizytą googlebot na tych stronach. Podejrzewam, że jest to kwestia propagacji przez sieć google - w końcu wszystkie serwery googlebot będą nadążały za instrukcjami robots.txt.

— Quog

Bot Google nie korzysta z pliku robots.txt tak często, jak aktualizacje są zgłaszane w Search Console. Minęły cztery tygodnie, odkąd dokonałem aktualizacji, a bot Google nadal używa złego robots.txt - i niszczy nasz ruch i rankingi.

— Corporate Geek

3

Wytrwać. Zmieniłem z robots.txt na meta noindex, nofollow. Aby meta działała, najpierw trzeba odblokować zablokowane adresy w pliku robots.txt.

Zrobiłem to brutalnie, usuwając plik robots.txt całkowicie (i usuwając go z webmastera Google).

Proces usuwania robots.txt widoczny w narzędziu dla webmasterów (liczba zablokowanych stron) zajął 10 tygodni, z których większość została usunięta tylko przez Google w ciągu ostatnich 2 tygodni.

— araldh
źródło

Zwykle się z tobą zgadzam. Popełniliśmy błąd i nieprawidłowo zaktualizowaliśmy plik robots.txt. Google zapisał go w pamięci podręcznej i używa go cztery tygodnie po naprawieniu błędu i zastąpiliśmy go nowym plikiem robots.txt. Nawet ręcznie przesłałem prośbę o odświeżenie w Narzędziach Google dla webmasterów i ... nic. Jest to naprawdę złe, ponieważ spowodowało utratę ruchu i rankingów. :(

— Corporate Geek

2

Tak, Google oczywiście do pewnego stopnia buforuje plik robots.txt - nie pobierze go za każdym razem, gdy chce przeglądać stronę. Jak długo to buforuje, nie wiem. Jeśli jednak masz ustawiony długi nagłówek wygasający, Googlebot może pozostawić to dłużej, aby sprawdzić plik.

Kolejnym problemem może być źle skonfigurowany plik. W Narzędziach dla webmasterów, które sugeruje Danivovich, znajduje się kontroler robots.txt . Powie ci, które typy stron są zablokowane i które są w porządku.

— DisgruntledGoat
źródło

Zobacz komentarz do tej odpowiedzi webmasters.stackexchange.com/questions/2272/…

— Quog

2

@Quog: Zobacz ten najnowszy film: youtube.com/watch?v=I2giR-WKUfY Matt Cutts sugeruje, że plik robots.txt jest pobierany raz dziennie lub co około 100 żądań.

— DisgruntledGoat

2

Dokumentacja Google stwierdza , że zwykle będą buforować plik robots.txt przez jeden dzień, ale mogą go używać dłużej, jeśli wystąpią błędy podczas próby jego odświeżenia.

Żądanie robots.txt jest zwykle buforowane przez maksymalnie jeden dzień, ale może być buforowane dłużej w sytuacjach, w których odświeżanie wersji buforowanej nie jest możliwe (na przykład z powodu przekroczenia limitu czasu lub błędów 5xx). Odpowiedź z pamięci podręcznej może być współdzielona przez różne roboty. Google może wydłużyć lub skrócić żywotność pamięci podręcznej w oparciu o maksymalny wiek nagłówków HTTP Cache-Control.

— Stephen Ostermiller
źródło

1

Tak. Mówią, że zazwyczaj aktualizują go raz dziennie, ale niektórzy sugerują, że mogą to sprawdzić po określonej liczbie odsłon (100?), Więc częściej odwiedzane są witryny.

Zobacz /webmasters//a/29946 i wideo udostępnione przez @DisgruntedGoat powyżej http://youtube.com/watch?v=I2giR-WKUfY .

— studgeek
źródło

1

Z tego, co widzę w dostępnej dla użytkownika pamięci podręcznej, którą robią, musisz wpisać adres URL pliku robots.txt w wyszukiwarce Google, a następnie kliknąć małą zieloną strzałkę rozwijaną i kliknąć „buforowane” (patrz zdjęcie poniżej) da ci to najnowszą wersję tej strony z serwerów Googles.

wprowadź opis zdjęcia tutaj

— sam
źródło

-2

Możesz poprosić o jego usunięcie za pomocą narzędzia do usuwania adresów URL Google .

— KOZASHI SOUZA
źródło

To nie odpowiada na pytanie.

— MrWhite

dlaczego nie odpowiedź?

— KOZASHI SOUZA

Ponieważ pytanie dotyczy konkretnie pliku robots.txt, buforowania i indeksowania adresów URL. Jednym z rezultatów może być to, że adresy URL nie są indeksowane, ale nie o to chodzi. (Narzędzie do usuwania adresów URL Google jest również tylko poprawką „tempo”, należy wykonać inne kroki, aby było trwałe).

— MrWhite