Pytania otagowane jako web-crawlers

Program komputerowy, który uzyskuje dostęp do stron internetowych w różnych celach (do pobierania treści, dostarczania wyszukiwarkom informacji o Twojej witrynie itp.)

1
Dlaczego baidu indeksuje moją stronę jak szalona
Kiedy sprawdzam dziennik apache, widzę, że baidu indeksuje moją witrynę 10 razy dziennie przez ostatnie 2 tygodnie. Nie zależy mi na tym, ale jestem naprawdę ciekawy, dlaczego on to robi. To naprawdę niewielka, jednostronicowa strona internetowa z niewielką liczbą linków przychodzących. Czy kryje się za tym jakiś powód? 220.181.108.169 [10/Mar/2012:10:41:29 …

4
Status przeszukiwalnego Ajaxa?
Widziałem, że Google ma fajną propozycję / standard umożliwiający indeksowanie aplikacji Ajax za pośrednictwem #! (hash bang). http://googlewebmastercentral.blogspot.com/2009/10/proposal-for-making-ajax-crawlable.html Moje pytania to: Czy obecnie używają już tej „propozycji” w prawdziwym świecie? Czy inne wyszukiwarki - w szczególności Bing, również używają go lub planują z niego korzystać?

6
Jaki jest najlepszy sposób na wykluczenie botów z liczby wyświetleń?
Moja witryna liczy wyświetlenia odwiedzających na niektórych stronach. Zauważyłem, że Google i inne boty „klikają” na mojej stronie jak szalone, a niektóre strony uzyskują nierealistyczną liczbę wyświetleń (w porównaniu do tych wytwarzanych przez ludzi). Proszę o najlepsze praktyki, aby wykluczyć te boty z mojego widoku. Oczywiście prosty „agent użytkownika” zawiera …

4
Google nie indeksuje plików CDN
Zauważyłem, że Narzędzia Google dla webmasterów zgłaszają wiele zablokowanych zasobów w mojej witrynie. W tej chwili wszystkie „zablokowane zasoby” to .css, .js i obrazy (.jpg, .png), które obsługuję z Cloudfront CDN. Spędziłem dużo czasu testując i próbując dowiedzieć się, dlaczego Google nie indeksuje tych plików i zgłasza stan „blokowania zasobów”. …

2
Jakie boty są naprawdę warte wpuszczenia na stronę?
Po napisaniu wielu botów i zobaczeniu ogromnej liczby losowych botów, które zdołały zaindeksować witrynę, zastanawiam się, jako webmaster, jakie boty naprawdę warto wpuścić na witrynę? Moją pierwszą myślą jest to, że zezwalanie botom na witrynę może potencjalnie przynieść prawdziwy ruch. Czy istnieje jakiś powód, aby zezwolić botom, o których nie …

2
Narzędzia Google dla webmasterów mówią mi, że roboty blokują dostęp do mapy witryny
To jest mój plik robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Ale Narzędzia Google dla webmasterów mówią mi, że roboty blokują dostęp do mapy witryny: Podczas próby uzyskania dostępu do mapy witryny wystąpił błąd. Upewnij się, że mapa witryny jest zgodna z naszymi wytycznymi i że można …

4
Bot kliknięć Adsense bombarduje moją stronę
Mam teraz witrynę, która uzyskuje obecnie około 7 000 - 10 000 wyświetleń strony dziennie. Począwszy od około 1 rano w dniu 7/1/12 zauważyłem, że CTR gwałtownie rośnie. Te kliknięcia zostaną zaksięgowane, a następnie cofnięte wkrótce. Były to oczywiście fałszywe kliknięcia. Następnego dnia miałem około 200 kliknięć, a około 100 …

1
Połącz programy użytkownika w pliku robots.txt
Czy programy klienckie mogą być wymienione razem, a ich wspólne reguły, takie jak w pliku robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent: Ask Jeeves/Teoma #Ask Disallow: /adm30_buds/

1
Googlebot przesyła tysiące wniosków do naszego lokalizatora map i zużywa limit API
Na stronie naszego klienta znajduje się strona lokalizatora sklepu. Użytkownik końcowy wprowadza swój kod pocztowy i promień wyszukiwania, a my wyświetlamy wyniki na mapie Google. Ostatnio zaczęliśmy zauważać, że strona osiąga limit bezpłatnego wyszukiwania mapy (około 25 000 na 24 godziny) bez zauważalnego wzrostu ogólnego ruchu. Włączyłem dodatkowe rejestrowanie, aby …

1
Jak działa „Noindex:” w pliku robots.txt?
Dzisiaj natknąłem się na ten artykuł w moich wiadomościach SEO. Wydaje się to sugerować, że możesz używać Noindex:dyrektyw oprócz standardowych Disallow:dyrektyw w pliku robots.txt . Disallow: /page-one.html Noindex: /page-two.html Wygląda na to, że uniemożliwiłoby to wyszukiwarkom indeksowanie strony pierwszej, a także indeksowanie strony drugiej. Czy ta dyrektywa robots.txt jest obsługiwana …

2
Zezwalaj tylko robotom Google i Bing na indeksowanie witryny
Używam następującego pliku robots.txt dla witryny: Celem jest umożliwienie googlebotowi i bingbotowi dostępu do witryny z wyjątkiem strony /bedven/bedrijf/*i zablokowanie indeksowania witryny przez inne boty. User-agent: googlebot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: google Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bingbot Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: bing Disallow: /bedven/bedrijf/* Crawl-delay: 10 User-agent: …

2
Znak plus przed adresami URL w klientach użytkownika
Prowadzę mały przeszukiwacz sieci i musiałem zdecydować, jakiego klienta użytkownika użyć. Listy agentów przeszukiwaczy oraz Wikipedia sugerują następujący format: examplebot/1.2 (+http://www.example.com/bot.html) Jednak niektóre boty pomijają znak plus przed adresem URL. Zastanawiam się, co to w ogóle znaczy, ale nie mogłem znaleźć żadnego wyjaśnienia. RFC 2616 traktuje wszystko w nawiasie jako …

1
Jak Google zdołał zaindeksować moje 403 strony?
Miałem kilka prywatnych plików w katalogu w moim szkolnym folderze. Możesz zobaczyć, że pliki istniały, przechodząc do myschool.edu/myusername/myfolder, ale próba uzyskania dostępu do samych plików przez myschool.edu/myusername/myfolder/myfile.html zwraca błąd 403. A jednak Google jakoś udało się pobrać zawartość tych prywatnych plików i zapisać je w pamięci podręcznej! Jak to jest …

6
Jak poprawnie (nie) zezwolić botowi archive.org? Czy coś się zmieniło, jeśli tak, to kiedy?
Mam stronę internetową, w której przeważnie nie chcę być indeksowana przez wyszukiwarki, ale chcę ją zachować na wieczność na archive.org. Więc robots.txtzaczynam od tego: User-agent: * Disallow: / Dzisiaj, zgodnie z archive.org, muszę dodać następujące w moim, robots.txtaby pozwolić ich botom: User-agent: ia_archiver Disallow: Ale już zrobiłem to, co wskazali …

2
Czy powinniśmy porzucić schemat indeksowania AJAX?
Więc teraz Google wycofał schemat indeksowania AJAX . Mówią, że nie zawracają sobie głowy wdrażaniem go w nowych witrynach, ponieważ nie jest to już potrzebne, ponieważ Googlebot nie ma teraz problemu z oglądaniem dynamicznych treści. Czy powinniśmy natychmiast zaufać temu stwierdzeniu, czy lepiej przez jakiś czas stosować się do przestarzałego …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.