Dlaczego Google pobiera pliki binarne z mojej witryny i korzysta z przepustowości?

Od około połowy sierpnia 2014 r. Kilka serwerów Google pobiera wszystkie (bardzo) duże pliki binarne z mojej witryny internetowej, mniej więcej raz w tygodniu. Wszystkie adresy IP są własnością Google i wyglądają następująco: google-proxy-66-249-88-199.google.com. Są to żądania GET, które mają duży wpływ na ruch na moim serwerze.

Wcześniej nie widziałem żadnego ruchu z tych adresów IP proxy Google, więc wydaje się, że jest to coś stosunkowo nowego. Widzę wszelkiego rodzaju ruch z innych adresów IP Google, wszystkie tylko żądania googlebot i HEAD.

Nie martwiłbym się tym, z wyjątkiem tego, że Google pobiera wszystkie te pliki mniej więcej co tydzień. Wykorzystana przepustowość zaczyna być nadmierna.

Spekulowałem, że ponieważ wiele z tych plików to pliki wykonywalne systemu Windows, być może Google pobiera je w celu przeprowadzenia skanowania w poszukiwaniu złośliwego oprogramowania. Nawet jeśli to prawda, czy to naprawdę musi zdarzać się co tydzień?

Przykładowy ruch z adresów IP serwerów proxy Google w listopadzie do tej pory:

google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB

Aktualizacja nr 1: Zapomniałem wspomnieć, że dane pliki znajdują się już w pliku robots.txt witryny. Aby pozwać, że konfiguracja robots.txt działa poprawnie, użyłem również testera robots.txt w Narzędziach Google dla webmasterów, co pokazuje, że pliki są zdecydowanie blokowane dla wszystkich botów Google, z jednym wyjątkiem: Adsbot-Google. Nie jestem pewien, o co chodzi. ORAZ szukałem w Google niektórych plików i NIE pojawiają się one w wynikach wyszukiwania.

Aktualizacja nr 2: Przykład: między 5:12 a 5:18 PST 17 listopada około pół tuzina adresów IP (wszystkie google-proxy) dostało się na wszystkie omawiane pliki binarne, w sumie 27. 4 listopada między 14:09 a 14:15 PST te same adresy IP zrobiły w zasadzie to samo.

Aktualizacja nr 3: W tym momencie wydaje się jasne, że chociaż są to prawidłowe adresy IP Google, są one częścią usługi proxy Google, a nie częścią systemu indeksowania Google. Ponieważ są to adresy proxy, nie można ustalić, skąd faktycznie pochodzą żądania GET ani czy pochodzą one z jednego miejsca, czy z wielu. Biorąc pod uwagę sporadyczną naturę GET, nie wydaje się, aby działo się coś złego; prawdopodobnie ktoś decyduje się na pobranie wszystkich plików binarnych podczas korzystania z usługi proxy Google. Niestety usługa ta wydaje się być całkowicie nieudokumentowana, co nie pomaga. Z punktu widzenia administratora strony proxy są dość irytujące. Nie chcę ich blokować, ponieważ mają legalne zastosowania. Ale mogą być również niewłaściwie wykorzystywane.

google proxy bandwidth

— boot13
źródło

Dobre pytanie. Podniosłem głos! Na pewno będziesz chciał je zablokować za pomocą pliku robots.txt. Dlaczego Google pobiera pliki wykonywalne, jest poza mną. Twoja teoria wydaje się być dobra, ale jakoś z powodu częstotliwości nie jestem pewien. To wydaje się dość dziwne. Wygląda na to, że są to prawidłowe adresy IP Googlebota, chociaż nie mam google-proxy-66-102-6-104.google.com na mojej liście.

— closetnoc

Zapomniałem wspomnieć, że pliki, o których mowa, są już w pliku robots.txt witryny. Zobacz aktualizację nr 1 powyżej.

— boot13

Zmieszałeś mnie. W każdej chwili spodziewam się wykonawcy, więc będę musiał o tym pomyśleć. Google robi śmieszne rzeczy z ich nazwami domen i przydzielaniem adresów IP, a niektóre usługi Google pokrywają się z niektórymi usługami, w tym hostingiem i innymi, w których ludzie mogą pojawiać się w przestrzeni adresowej Google IP, jednak nie widziałem ich za pomocą adresu IP Googlebota przestrzeń. Chciałbym, aby Google przeznaczył wolne miejsce dla różnych procesów wyszukiwania bez nakładania się lub w niewielkim stopniu, aby systemy bezpieczeństwa mogły odpowiednio ufać tym adresom IP.

— closetnoc

Zrobiłem badania dla tego pytania i znalazłem kilka interesujących pomysłów, takich jak:

1. Czy to fałszywy robot? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c

Wniosek od użytkownika:

Te „roboty” nie są robotami, ale są częścią podglądu na żywo w przeglądarce używanego w wyszukiwarce Google.

Próbowałem tego, aby wyświetlić jedną z moich stron internetowych w podglądzie i tak, oto otrzymałem zablokowany komunikat IP.

Jeśli chcesz, aby użytkownicy mogli wyświetlać podgląd Twojej witryny, musisz zaakceptować te „roboty”.

Jak powiedzieli inni: „domeną główną tego adresu URL jest google.com i nie można go łatwo sfałszować”.

Wniosek: Możesz zaufać tym botom lub robotom i służy do wyświetlania podglądu w wyszukiwarce Google.

Wiemy, że podgląd na żywo nie pobiera plików, więc przejdźmy do pytania 2.

2. Czy jest to część usług Google? -> Czy ten serwer proxy Google to fałszywy robot: google-proxy-66-249-81-131.google.com?

Wniosek:

Myślę, że niektórzy ludzie używają usług Google (takich jak Google Translate, Google mobile itp.) Do uzyskiwania dostępu do (zablokowanych) stron internetowych (w szkołach itp.), Ale także do ataków DOS i podobnych działań.

Domyślam się, że jest to to samo co powyżej. Ktoś próbuje użyć usługi Google, aby uzyskać dostęp do twoich plików, na przykład tłumacz.

Jeśli, jak mówisz, pliki są już blokowane przez plik robots.txt, może to być tylko ręczne żądanie.

EDYCJA: Aby szeroko odpowiedzieć na komentarz do OP:

Czy roboty mogą zignorować plik robots.txt? Tak. Oto lista , ale nie sądzę, że Google to robi, co oznacza, że mogą to być inne roboty korzystające z serwerów proxy Google.

Czy to może być zły bot? Tak i do tego polecam:

.htac banowanie:

 RewriteCond %{REMOTE_HOST} ^209.133.111..* [OR]
 RewriteCond %{HTTP_USER_AGENT} Spider [OR]
 RewriteCond %{HTTP_USER_AGENT} Slurp
 RewriteRule ^.*$ X.html [L]

Ten kod może blokować adresy IP lub agenta użytkownika.

Lub skorzystaj z Pułapki Pająka, opisanej tutaj

Podtrzymuję opinię, że jest to ręczne żądanie.

— nunorbatista
źródło

Widziałem również te odpowiedzi, ale nie dotyczyły one mojego konkretnego problemu. Być może masz rację, że Google Proxy jest w jakiś sposób niewłaściwie wykorzystywany, w takim przypadku najprawdopodobniej całkowicie go zablokuję, co jest trochę kiepskie. Rozumiem, że plik robots.txt jest taki, że oprogramowanie robota może go zignorować. Przyjazne boty powinny to honorować i większość tak, ale proxy są (jak sądzę) inne.

— boot13

@ boot13 Bądź jednak ostrożny. Są to prawidłowe adresy IP Googlebota. Więc jeśli go zablokujesz, zablokuj tylko te pliki. Zakładając, że używasz Apache, powinieneś być w stanie to zrobić z .htaccess. Może to jednak powodować inne problemy, dlatego zwróć uwagę na Narzędzia Google dla webmasterów dotyczące wiadomości.

— closetnoc

@ boot13 Zaktualizowałem swoją odpowiedź. Czy możesz sprawdzić, czy dostępy są dokonywane tego samego dnia / godziny, czy są losowe?

— nunorbatista

@nunorbatista: wydają się losowe. Czasami aktualizowałem swoje pytanie.

— boot13 13

@nunorbatista: patrz aktualizacja nr 3 powyżej. To nie jest Googlebot ani żaden inny robot, to usługa proxy Google. Nie ma to związku z podglądem strony na żywo w Google. Wygląda na to, że co najmniej jedna osoba pobrała pliki binarne za pośrednictwem Google Proxy, być może w celu obejścia lokalnego bloku lub ograniczenia. Sugestia pułapki na pająki raczej nie pomoże, ponieważ ruch najwyraźniej nie jest botem. Chciałbym zablokować dostęp do adresów IP Google Proxy do folderu zawierającego pliki binarne; Spróbuję użyć kodu htaccess, ale oczywiście downloader zawsze może przełączyć się na inny serwer proxy, więc może to być bezcelowe.

— boot13