Pytania otagowane jako web-crawlers

Program komputerowy, który uzyskuje dostęp do stron internetowych w różnych celach (do pobierania treści, dostarczania wyszukiwarkom informacji o Twojej witrynie itp.)

2
Zablokuj migrację wątku. Gotchas?
Migrowałem witrynę do nowej domeny. Sama strona jest dość prosta (używa Jekyll) i wszystko poszło dobrze - z wyjątkiem migracji wątków Disqus. Miałem częściowy sukces - niektóre wątki zostały pomyślnie migrowane, ale nie wszystkie. Wypróbowałem kreatora migracji domeny (który przechwycił kilka), mapera URL (który złapał kilka) i przeszukiwacza przekierowań 301 …

2
Crawler map witryn Ask.com w dół (na dobre)?
Używam Ask.comjako jednej z wyszukiwarek do pingowania mojej mapy witryny. Kiedy poszedłem dzisiaj pingować mapę witryny, aby ją ponownie zaindeksować, strona internetowa ( http://submissions.ask.com/ping ) twierdzi, że już nie istnieje? Zrobiłem wyszukiwanie DNS submissions.ask.comi wygląda na to, że Ask.comusunęłem subdomenę, ale w często zadawanych przez nich robotach indeksujących witryny wciąż …

3
Taktyka postępowania z robotami źle zachowującymi się
Mam witrynę, która ze względów prawnych może nie być indeksowana lub wyszukiwana automatycznie. Oznacza to, że musimy trzymać wszystkie roboty z daleka i zapobiegać pająkowi witryny. Oczywiście mieliśmy plik robots.txt, który od samego początku uniemożliwia. Jednak obserwowanie pliku robots.txt jest czymś, co robią tylko dobrze wychowane roboty. Ostatnio mieliśmy problemy …
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.