Pytania otagowane jako web-crawler

Przeszukiwacz sieciowy (znany również jako pająk sieciowy) to program komputerowy, który przegląda sieć WWW w sposób metodyczny, zautomatyzowany lub w uporządkowany sposób. Inne terminy określające roboty sieciowe to mrówki, automatyczne indeksatory, boty, pająki sieciowe, roboty sieciowe lub - zwłaszcza w społeczności FOAF - scuttersy.

5
Jak poprosić Google o ponowne zaindeksowanie mojej witryny? [Zamknięte]
Zamknięte. To pytanie nie jest zgodne z wytycznymi dotyczącymi przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 5 lat temu . Popraw to pytanie Czy ktoś zna sposób, aby poprosić Google o ponowne zaindeksowanie witryny? Jeśli to możliwe, …
227 seo  web-crawler 

2
Wysyłanie „User-agent” przy użyciu biblioteki żądań w Pythonie
Chcę wysłać wartość "User-agent"podczas żądania strony internetowej za pomocą Python Requests. Nie jestem pewien, czy można wysłać to jako część nagłówka, jak w poniższym kodzie: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Informacje debugowania nie pokazują nagłówków wysyłanych podczas żądania. Czy można …




11
Znajdowanie warstw i rozmiarów warstw dla każdego obrazu platformy Docker
W celach badawczych próbuję przeszukać publiczny rejestr Docker ( https://registry.hub.docker.com/ ) i dowiedzieć się 1) ile warstw ma przeciętny obraz i 2) rozmiary tych warstw, aby uzyskać idea dystrybucji. Jednak przestudiowałem API i biblioteki publiczne, a także szczegóły na githubie, ale nie mogę znaleźć żadnej metody, aby: pobrać wszystkie publiczne …

2
TypeError: nie można użyć wzorca łańcuchowego na obiekcie podobnym do bajtów w funkcji re.findall ()
Próbuję się dowiedzieć, jak automatycznie pobierać adresy URL ze strony. W poniższym kodzie próbuję uzyskać tytuł strony internetowej: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) I otrzymuję ten nieoczekiwany błąd: Traceback (most …

11
Wykrywanie „ukrytych” robotów internetowych
Jakie są opcje wykrywania robotów internetowych, które nie chcą być wykrywane? (Wiem, że techniki wykrywania aukcji pozwolą inteligentnemu programistowi stealth-crawlerów na stworzenie lepszego pająka, ale nie sądzę, żebyśmy kiedykolwiek byli w stanie zablokować inteligentne roboty, a tylko te, które popełniają błędy.) Nie mówię o fajnych robotach, takich jak Googlebot i …
107 web-crawler 



8
Pobierz listę adresów URL z witryny [zamknięte]
Zamknięte. To pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 5 lat temu . Popraw to pytanie Wdrażam witrynę zastępczą dla klienta, ale nie chce, aby wszystkie jego stare strony kończyły się błędem …


10
Ukryj adres e-mail przed botami - Zachowaj mailto:
tl; dr Ukryj adres e-mail przed botami bez używania skryptów i zachowaj mailto:funkcjonalność. Metoda musi również obsługiwać czytniki ekranu. Podsumowanie Maskowanie wiadomości e-mail bez korzystania ze skryptów lub formularzy kontaktowych Adres e-mail musi być całkowicie widoczny dla ludzi i zachowywać mailto:funkcjonalność Adres e-mail nie może być w postaci obrazu . …
81 html  css  web-crawler  mailto 
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.