To szybko zmieniające się wydarzenie, na które nie ma jeszcze odpowiedzi.
Nie publikuj swoich ustaleń ani założeń jako odpowiedzi; zarezerwować pole odpowiedzi, kiedy rzeczywiście masz odpowiedź.
Jeśli masz coś nowego do dodania, edytuj to bezpośrednio w pytaniu.
Od początku roku uzyskuję duży ruch z klientem użytkownika:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
Moje dzienniki dostępu pokazują 40% - 60% od tego agenta użytkownika. To dziwne, ponieważ agent użytkownika określa przeglądarkę Firefox 3.0.10 (czy ktoś używa tej przeglądarki w 2012 roku? Zdecydowanie nie 40% -60% odwiedzających normalną stronę internetową).
Dzienniki pokazują również, że ten agent użytkownika zażądał tylko dokumentu HTML i nie zawierał odnośników do takich zasobów, jak obrazy, pliki css, js.
Sprawdziłem adresy IP tych żądań (z tym UA). Pochodzi z całego świata. Zrozumiałem, że te adresy IP czasami mają mobilnego agenta użytkownika.
Podejrzewam więc, że to aplikacja mobilna, która wykonuje wiele „żądań pająków”. Dobrze byłoby znać podstawową przyczynę ruchu z tego agenta użytkownika.
Czy ktoś może zidentyfikować przyczynę źródłową?
W ciągu ostatnich kilku tygodni zauważyliśmy, że ruch z tego UA spadł, a inny ruch wzrósł. Wygląda na to, że bot / robot korzysta teraz z bardziej powszechnego UA i dlatego jest trudniejszy do zablokowania. Widziałem, jak ktoś inny powiedział to w odpowiedzi na to pytanie, ale zostało ono usunięte, gdy awaria serwera zdecydowała się zmienić to pytanie.
Stare odpowiedzi jako odniesienie
Aktualizacja od Dee
Prowadzę własną witrynę o dużym natężeniu ruchu i widzę dokładnie to samo w naszych dziennikach apache za ostatni miesiąc (jeszcze nie miałem okazji sprawdzić więcej). 40% wszystkich żądań to procent, który widzę, co oczywiście jest szalone.
Zauważyłem również, że żądania zawsze mówią, że żądająca przeglądarka nie obsługuje kompresji gzip - w wyniku czego wszystkie żądania stron są wysyłane nieskompresowane, a nasze użycie przepustowości gwałtownie wzrasta!
Ale do tej pory nie byłem w stanie ustalić, co się naprawdę dzieje - podejrzewam, że może to być jakiś serwer proxy lub coś takiego dla urządzenia mobilnego, które wysyła fałszywy ciąg znaków użytkownika.
ZMIENIONO DO DODANIA: Właśnie wykonałem kilka dalszych badań i wygląda na to, że może to być oprogramowanie antywirusowe: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
Aktualizacja z jamur21
Tak, zauważyliśmy podobny ruch w wielu witrynach.
Nadal szukamy przyczyny, ale niektóre z naszych ustaleń obejmują:
Jeśli to pająk, robi całkiem kiepską robotę. Wydaje się, że na chwilę hamuje tylko jeden lub dwa adresy URL na domenę (może kilka godzin), dopóki nie przejdzie do innego adresu URL. Treść jest jednak zawsze „aktualna”, co nadaje wiarygodność Google News, co znajduje się w linku Dee zamieszczonym w jego odpowiedzi (wszystkie nasze strony są serwisami z wiadomościami).
Chociaż adresy IP są rozproszone geograficznie, dla nas większość z nich wydaje się znajdować w pobliżu strony źródłowej (większość naszych witryn to lokalne serwisy informacyjne, więc nie mają dużego ruchu krajowego). Prawie żadne z tych wniosków nie pochodzi spoza USA. Ponownie, to nadaje wiarygodność adresom URL, które są rozmazane z Google News (domyślam się, że osoby, które zlokalizowały Google News według kodu pocztowego, zobaczą naszą zawartość).
Przez większość czasu żądania można odrzucić jako hałas w tle (choć szczególnie głośny), ale kilka razy dziennie będziemy przyspieszać, a sam UA będzie generował około 100 Mb / s ruchu przez około 15-30 minut.
Niestety, chociaż Google News wydaje się być możliwym wektorem do odkrycia tych adresów URL, wszystko, co widzieliśmy, jest poszlakowe i nadal nie mamy żadnego pistoletu do palenia, aby dokładnie wiedzieć, jak i dlaczego te adresy URL są kute.
Aktualizacja z zatoki Bannow
Mamy dużą witrynę z wiadomościami - nasze historie są zbierane przez Google News kilka razy w tygodniu. Otrzymujemy ruch z tego źródła od końca listopada - i rośnie z tygodnia na tydzień - może w lutym 30 milionów impów.
Pojawienie się na pierwszej stronie Google News US stanowi czynnik wyzwalający ten ruch - około 75 procent prawdopodobnie pochodzi z amerykańskich adresów IP. Ale cokolwiek to jest, robi wielkie wysiłki, aby się zasłonić. I to nie jest przyjazne.
Nie znaleźliśmy też pistoletu do palenia - ale jeden z głównych dostawców zabezpieczeń uprzejmie zgodził się przeprowadzić dalsze dochodzenie w naszym imieniu.
Aktualizacja Artem Russakovskii
Właśnie to samo stało się z witryną z wiadomościami (AndroidPolice.com) po raz pierwszy. Około 10 minut tych losowych żądań, które zwiększyły QPS o ponad 5000% naszej średniej (5000qps, co stanowi limit NodeBalancera Linode). Procesor zaczął pracować na biegu jałowym, ponieważ żądania pochłaniały operacje we / wy i sieć - to był prawdziwy DDOS.
Naprawdę chciałbym dojść do sedna tego, ale w tej chwili wydaje się to całkowicie zagadkowe.
Aktualizacja od Marka
Po prostu dodaje +1. Na naszej stronie obserwujemy to samo zachowanie. Nie ma tu wielu nowych informacji, ale oto ogólny kształt naszego ruchu:
- Ruch jest bardzo rozproszony. Ruch pochodzi z ponad ~ 60 000 unikalnych adresów IP.
- Zdecydowana większość ruchu dociera do jednego adresu URL, zwykle ostatniego adresu URL wymienionego w Google News (chociaż Google News nie zawsze wydaje się być wektorem)
- Cały ten ruch pochodzi z tego samego agenta użytkownika przeglądarki Firefox / 3.0.10, jak wspomniano w tym wątku, chociaż tu i ówdzie widzieliśmy kilku dziwnych agentów mobilnych.
- Cały ruch przychodzący z tego agenta nie zawiera danych stron odsyłających.
- Seria występuje raz lub dwa razy w tygodniu przez 30-60 minut, a następnie znika.
Aktualizacja z Don Ireland
Ostatni post był 13 kwietnia, ale ruch na pewno się nie skończył. Najdziwniejszą częścią tego może być fakt, że każdy autor szkodliwego oprogramowania wart swojej soli z pewnością mógłby (na pewno) używałby ciągu klienta-użytkownika z nowoczesnej przeglądarki, co uczyniłoby obronę użytkownika blokowanego przed użytkownikiem bezwartościowym. Fakt ten sprawia wrażenie, jakby źródłem był „nieszkodliwy” agregator wiadomości lub inna aplikacja. Do tej pory jednak nie byłem w stanie dojść do żadnego prawdziwego wniosku i mam nadzieję, że każdy, kto ma informacje, opublikuje go tutaj.
Widzimy ten sam wzorzec, z historią wyłapaną przez Google News, a następnie bardzo dużymi skokami ruchu żądającymi historii (ale nie plikami dodatkowymi, takimi jak obrazy). Ruch wychodzący z odpowiedzią powoduje wzrosty, które mogą nasycić sieć (lub zrobiły to, dopóki nie zaczęliśmy odpowiadać tylko z błędem 503). Te ataki (jak inaczej możemy je nazwać?) Trwają średnio około 30 minut, ale bardzo popularne historie mogą mieć duży ruch przez godzinę lub dłużej (mówię o ruchu z firefox 3.0.10, oczywiście normalny ruch również pozostaje wysoki przez chwilę).
W ciągu godziny (dla pojedynczego serwera w grupie z równoważeniem obciążenia) zobaczyliśmy 200 000 żądań, z czego 97 000 dotyczyło firefox 3.0.10, prawie 50% wszystkich żądań. A jeśli weźmiesz pod uwagę, że normalnie strona generuje 10 lub więcej żądań pliku głównego i plików pomocniczych, 97 000 krosien jest znacznie większe. Zwracam uwagę, że z 97 000 było 51 000 unikalnych adresów IP. I mówię o jednej godzinie (właściwie było to bliżej 45 minut). Cokolwiek to powoduje, jest dość powszechne.
Aktualizacja od użytkownika119708
Mamy ten sam problem na ogromnej francuskiej stronie z wiadomościami na temat zaawansowanych technologii.
Za każdym razem, gdy wiadomość jest publikowana i widoczna w Google News, ruch rośnie znacznie w wiadomościach, z około 50 do 100 wizytami IP i agentem użytkownika „Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ”.
Wszystkie adresy IP wydają się znajdować we Francji lub w krajach francuskich i nie mają żadnych stron odsyłających. Wydaje się, że to bot, ale dlaczego pojedynczy zdalny adres musi powracać 50 lub 100 razy z tymi samymi wiadomościami w ciągu kilku minut? Czy to mogą być zainfekowane komputery? Dlaczego zjawisko pojawia się, gdy wiadomości są widoczne w Google News? Czy Google jest odpowiedzialny za ten dziwny ruch?
Jeśli ktoś w tym temacie znalazł wyjaśnienie, myślę, że pomogłoby wielu średnim lub dużym stronom internetowym kontrolować ich ruch!
EDYCJA: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Jeśli rzeczywiście są to zainfekowane komputery, jest to bardzo niepokojące, biorąc pod uwagę liczbę zaangażowanych adresów. Zaimplementujemy ten skrypt, aby Apache blokował cały ruch:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Aktualizacja z Ernesto
Średnia hiszpańska strona z wiadomościami ogólnymi, zauważyła duży ruch w niektórych nieistotnych wiadomościach od kilku dni.
Kimkolwiek jest, ładuje pełny HTML, jak to zauważamy, ze względu na liczbę „wyświetleń strony”, którą zwiększamy poprzez aktualizacje bazy danych po załadowaniu strony.
Codziennie zauważamy tylko jeden lub dwa adresy URL kierowane na adres.
Wiele żądań (7000-12000) pod tym samym adresem URL w ciągu kilku sekund, rozłożonych w ciągu dnia z różnych adresów IP. W najbliższych dniach inne adresy URL są kierowane.
Brak strony odsyłającej.
Artykuły, na które były kierowane reklamy, pojawiły się w Google News, ale nie możemy zapewnić, że są one powiązane.
Google Analytics nie rozpoznaje go jako uzasadnionego ruchu. Mamy artykuły z ponad 8000 trafień, a GA zgłasza jedynie około 25 (zakładam, że javascript nie został zinterpretowany).
Aktualizacja ze Old Pro
Dodanie kilku punktów danych dla Ciebie.
Boty kontra przeglądarki nie uważają tego UA za bota (jeszcze).
Na stronie o największym natężeniu ruchu, dla której mam logi, dotychczasowe użycie w maju 2012 r. Pokazuje tę UA jako mniej niż 1% ruchu. Znaczna część żądań UA wydaje się uzasadniona (na przykład ładowanie wszystkich oczekiwanych zasobów). Jest to w zasadzie to samo, co w lutym 2012 r.
Strona główna tej witryny jest rzadko aktualizowana, a cała zawartość dynamiczna jest blokowana przez plik robots.txt.
Jest to prawdopodobnie z Genieo. Zaktualizowali swoją aplikację, aby używać nowego agenta użytkownika: Mozilla / 5.0 + (kompatybilny; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Uderza według tego samego wzoru co oryginalny klient użytkownika, ale teraz wydają się identyfikować. Jeśli spojrzysz na adres URL w jego kliencie użytkownika, potwierdzą nawet, że być może lub nadal generują zbyt duży ruch na niektórych stronach internetowych. - dflaw
Aktualizacja autorstwa Mike'a Fagana
Od tygodni walczymy z atakami DDOS. Właśnie zaczęliśmy widzieć Genieo jako agenta użytkownika dla tych ataków. Wcześniej widzieliśmy „Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)” i mnóstwo żądań od „ Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". Ponad 10 000 różnych adresów IP, ponad 1 milion żądań dziennie do zaledwie 3 lub 4 stron, na których ten sam adres IP żądał stron ponad 100 razy i nie pobierał żadnych dodatkowych zasobów ani reklam. Dochodzę do wniosku, że żaden z tych adresów IP nie trafił na żadne inne strony w naszej witrynie.
Skontaktowałem się z Genieo i oto ich odpowiedź:
"Dziękujemy za skontaktowanie się z nami.
Stara wersja Genieo mogła powodować opisywane obciążenia ruchem. Przepraszamy za wszelkie związane z tym niedogodności. Wydaliśmy i zaktualizowaliśmy wczoraj, aby rozwiązać ten problem, ładowanie danych z naszej aplikacji powinno zniknąć w ciągu najbliższych 24 godzin. Uważamy, że tworzymy dobrą obsługę Twojej witryny, przedstawiając ją nowym użytkownikom. Nie oceniliśmy właściwie, że ponieważ nasza baza instalacyjna rośnie, może powodować przeciążenie niektórych serwerów.
Genieo to osobista gazeta lub inteligentny czytnik RSS. Jest to czytnik RSS po stronie klienta z inteligentnym semantycznym filtrowaniem personalizacji. Aplikacja Genieo śledzi dane RSS z ulubionych witryn użytkownika, „czytając” artykuły, wykonując analizę semantyczną i filtrując je w odniesieniu do obszarów zainteresowania użytkowników. Jeśli artykuł odpowiada zainteresowaniom użytkownika, aplikacja wyświetla tytuł i fragment artykułu na stronie głównej użytkownika. Kliknięcie tytułu prowadzi do strony artykułu - Twojej witryny. Agent Genieo jest niezależny (ze względu na prywatność); działa na komputerze użytkowników końcowych, dlatego widzisz, że agent uzyskuje dostęp do Twojej witryny z wielu różnych adresów IP.
Większość danych Genieo pochodzi z normalnych kanałów RSS użytkownika, ale Genieo dodaje także treść z nowych serwisów informacyjnych, które nie zostały wcześniej zarejestrowane przez użytkowników (w przypadku przypadkowości i różnorodności). Algorytmy Genieo szukają „popularnych” artykułów, najpopularniejszych haseł na Twitterze, najczęściej oglądanych w YouTube i wyróżnień Google News i sprawdzają, czy odpowiadają zainteresowaniom użytkownika
Nie byliśmy świadomi, że powoduje to problem z ładowaniem niektórych witryn. Po zwróceniu na to uwagi aktualizujemy obecnych użytkowników nową wersją, która zapobiega skokom obciążenia.
Z poważaniem,
-Dotan