Mam witrynę, która ze względów prawnych może nie być indeksowana lub wyszukiwana automatycznie. Oznacza to, że musimy trzymać wszystkie roboty z daleka i zapobiegać pająkowi witryny.
Oczywiście mieliśmy plik robots.txt, który od samego początku uniemożliwia. Jednak obserwowanie pliku robots.txt jest czymś, co robią tylko dobrze wychowane roboty. Ostatnio mieliśmy problemy z robotami gorzej wychowanymi. Skonfigurowałem Apache, aby zablokował kilka programów użytkownika, ale dość łatwo to obejść.
Pytanie brzmi: czy istnieje jakiś sposób na skonfigurowanie Apache (być może poprzez zainstalowanie jakiegoś modułu?) W celu wykrycia działania robota i odpowiedzi? Jakieś inne pomysły?
W tej chwili wszystko, co mogę zrobić, to zablokować adresy IP na podstawie ręcznej kontroli dzienników, a to po prostu nie jest opłacalna strategia długoterminowa.