Programowanie web-crawler

5

Jak poprosić Google o ponowne zaindeksowanie mojej witryny? [Zamknięte]

Zamknięte. To pytanie nie jest zgodne z wytycznymi dotyczącymi przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 5 lat temu . Popraw to pytanie Czy ktoś zna sposób, aby poprosić Google o ponowne zaindeksowanie witryny? Jeśli to możliwe, …

227 seo web-crawler

2

Wysyłanie „User-agent” przy użyciu biblioteki żądań w Pythonie

Chcę wysłać wartość "User-agent"podczas żądania strony internetowej za pomocą Python Requests. Nie jestem pewien, czy można wysłać to jako część nagłówka, jak w poniższym kodzie: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Informacje debugowania nie pokazują nagłówków wysyłanych podczas żądania. Czy można …

216 python web-crawler python-requests

4

powstrzymaj rsync przed usuwaniem niedokończonych plików źródłowych

Mam dwie maszyny, prędkość i masę. speed ma szybkie łącze internetowe i działa robot, który pobiera wiele plików na dysk. masa ma dużo miejsca na dysku. Chcę przenieść pliki z szybkości do masy po zakończeniu pobierania. Idealnie, po prostu uruchomiłbym: $ rsync --remove-source-files speed:/var/crawldir . ale martwię się, że rsync …

169 storage web-crawler rsync

8

Różnica między BeautifulSoup a Scrapy Crawlerem?

Chcę stworzyć stronę internetową pokazującą porównanie cen produktów amazon i e-bay. Który z nich będzie działał lepiej i dlaczego? Jestem trochę zaznajomiony z BeautifulSoup, ale nie za bardzo z crawlerem Scrapy .

134 python beautifulsoup scrapy web-crawler

16

jak wykryć boty wyszukiwarek za pomocą php?

Jak można wykryć boty wyszukiwarek za pomocą PHP?

118 php web-crawler bots

11

Znajdowanie warstw i rozmiarów warstw dla każdego obrazu platformy Docker

W celach badawczych próbuję przeszukać publiczny rejestr Docker ( https://registry.hub.docker.com/ ) i dowiedzieć się 1) ile warstw ma przeciętny obraz i 2) rozmiary tych warstw, aby uzyskać idea dystrybucji. Jednak przestudiowałem API i biblioteki publiczne, a także szczegóły na githubie, ale nie mogę znaleźć żadnej metody, aby: pobrać wszystkie publiczne …

110 image docker web-crawler

2

TypeError: nie można użyć wzorca łańcuchowego na obiekcie podobnym do bajtów w funkcji re.findall ()

Próbuję się dowiedzieć, jak automatycznie pobierać adresy URL ze strony. W poniższym kodzie próbuję uzyskać tytuł strony internetowej: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) I otrzymuję ten nieoczekiwany błąd: Traceback (most …

108 python python-3.x web-crawler

11

Wykrywanie „ukrytych” robotów internetowych

Jakie są opcje wykrywania robotów internetowych, które nie chcą być wykrywane? (Wiem, że techniki wykrywania aukcji pozwolą inteligentnemu programistowi stealth-crawlerów na stworzenie lepszego pająka, ale nie sądzę, żebyśmy kiedykolwiek byli w stanie zablokować inteligentne roboty, a tylko te, które popełniają błędy.) Nie mówię o fajnych robotach, takich jak Googlebot i …

107 web-crawler

5

Jak przekazać argument zdefiniowany przez użytkownika w Scrapy Spider

Próbuję przekazać argument zdefiniowany przez użytkownika do pająka scrapy's. Czy ktoś może zasugerować, jak to zrobić? Czytałem -agdzieś o parametrze, ale nie mam pojęcia, jak go użyć.

100 python scrapy web-crawler

5

Jak znaleźć wszystkie linki / strony w witrynie

Czy można znaleźć wszystkie strony i linki na DOWOLNEJ witrynie? Chciałbym wprowadzić adres URL i utworzyć drzewo katalogowe wszystkich linków z tej witryny? Patrzyłem na HTTrack, ale to pobiera całą witrynę i po prostu potrzebuję drzewa katalogów.

99 directory web-crawler

8

Pobierz listę adresów URL z witryny [zamknięte]

Zamknięte. To pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 5 lat temu . Popraw to pytanie Wdrażam witrynę zastępczą dla klienta, ale nie chce, aby wszystkie jego stare strony kończyły się błędem …

98 web-crawler

10

Jak mogę używać różnych potoków dla różnych pająków w jednym projekcie Scrapy

Mam projekt złomowania zawierający wiele pająków. Czy istnieje sposób, w jaki mogę zdefiniować rurociągi, które mają być używane dla danego pająka? Nie wszystkie zdefiniowane przeze mnie rurociągi mają zastosowanie do każdego pająka. Dzięki

84 python scrapy web-crawler

10

Ukryj adres e-mail przed botami - Zachowaj mailto:

tl; dr Ukryj adres e-mail przed botami bez używania skryptów i zachowaj mailto:funkcjonalność. Metoda musi również obsługiwać czytniki ekranu. Podsumowanie Maskowanie wiadomości e-mail bez korzystania ze skryptów lub formularzy kontaktowych Adres e-mail musi być całkowicie widoczny dla ludzi i zachowywać mailto:funkcjonalność Adres e-mail nie może być w postaci obrazu . …

81 html css web-crawler mailto

Pytania otagowane jako web-crawler