Od około połowy sierpnia 2014 r. Kilka serwerów Google pobiera wszystkie (bardzo) duże pliki binarne z mojej witryny internetowej, mniej więcej raz w tygodniu. Wszystkie adresy IP są własnością Google i wyglądają następująco: google-proxy-66-249-88-199.google.com. Są to żądania GET, które mają duży wpływ na ruch na moim serwerze.
Wcześniej nie widziałem żadnego ruchu z tych adresów IP proxy Google, więc wydaje się, że jest to coś stosunkowo nowego. Widzę wszelkiego rodzaju ruch z innych adresów IP Google, wszystkie tylko żądania googlebot i HEAD.
Nie martwiłbym się tym, z wyjątkiem tego, że Google pobiera wszystkie te pliki mniej więcej co tydzień. Wykorzystana przepustowość zaczyna być nadmierna.
Spekulowałem, że ponieważ wiele z tych plików to pliki wykonywalne systemu Windows, być może Google pobiera je w celu przeprowadzenia skanowania w poszukiwaniu złośliwego oprogramowania. Nawet jeśli to prawda, czy to naprawdę musi zdarzać się co tydzień?
Przykładowy ruch z adresów IP serwerów proxy Google w listopadzie do tej pory:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Aktualizacja nr 1: Zapomniałem wspomnieć, że dane pliki znajdują się już w pliku robots.txt witryny. Aby pozwać, że konfiguracja robots.txt działa poprawnie, użyłem również testera robots.txt w Narzędziach Google dla webmasterów, co pokazuje, że pliki są zdecydowanie blokowane dla wszystkich botów Google, z jednym wyjątkiem: Adsbot-Google. Nie jestem pewien, o co chodzi. ORAZ szukałem w Google niektórych plików i NIE pojawiają się one w wynikach wyszukiwania.
Aktualizacja nr 2: Przykład: między 5:12 a 5:18 PST 17 listopada około pół tuzina adresów IP (wszystkie google-proxy) dostało się na wszystkie omawiane pliki binarne, w sumie 27. 4 listopada między 14:09 a 14:15 PST te same adresy IP zrobiły w zasadzie to samo.
Aktualizacja nr 3: W tym momencie wydaje się jasne, że chociaż są to prawidłowe adresy IP Google, są one częścią usługi proxy Google, a nie częścią systemu indeksowania Google. Ponieważ są to adresy proxy, nie można ustalić, skąd faktycznie pochodzą żądania GET ani czy pochodzą one z jednego miejsca, czy z wielu. Biorąc pod uwagę sporadyczną naturę GET, nie wydaje się, aby działo się coś złego; prawdopodobnie ktoś decyduje się na pobranie wszystkich plików binarnych podczas korzystania z usługi proxy Google. Niestety usługa ta wydaje się być całkowicie nieudokumentowana, co nie pomaga. Z punktu widzenia administratora strony proxy są dość irytujące. Nie chcę ich blokować, ponieważ mają legalne zastosowania. Ale mogą być również niewłaściwie wykorzystywane.