Programowanie scrapy

3

Przeglądarka bezgłowa i cyklinowanie - rozwiązania [zamknięte]

Zamknięte. To pytanie nie jest zgodne z wytycznymi dotyczącymi przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 5 lat temu . Próbuję umieścić listę możliwych rozwiązań dla automatycznych zestawów testów przeglądarki i platform przeglądarek bezgłowych, które mogą zgarniać. …

368 selenium web-scraping scrapy phantomjs casperjs

23

Nie można zainstalować Lxml na Mac OS X 10.9

Chcę zainstalować Lxml, aby móc zainstalować Scrapy. Kiedy zaktualizowałem dzisiaj komputer Mac, nie pozwoliło mi to ponownie zainstalować pliku LXML, pojawia się następujący błąd: In file included from src/lxml/lxml.etree.c:314: /private/tmp/pip_build_root/lxml/src/lxml/includes/etree_defs.h:9:10: fatal error: 'libxml/xmlversion.h' file not found #include "libxml/xmlversion.h" ^ 1 error generated. error: command 'cc' failed with exit status 1 …

234 python xcode macos scrapy lxml

18

„OSError: [Errno 1] Operacja niedozwolona” podczas instalacji Scrapy w OSX 10.11 (El Capitan) (ochrona integralności systemu)

Próbuję zainstalować Scrapy Python Framework w OSX 10.11 (El Capitan) przez pip. Skrypt instalacyjny pobiera wymagane moduły iw pewnym momencie zwraca następujący błąd: OSError: [Errno 1] Operation not permitted: '/tmp/pip-nIfswi-uninstall/System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python/six-1.4.1-py2.7.egg-info' Próbowałem dezaktywować funkcję rootowania w OSX 10.11 za pomocą polecenia: sudo nvram boot-args="rootless=0";sudo reboot ale nadal pojawia się ten sam …

206 python macos python-2.7 scrapy

8

Czy scrapy może służyć do pobierania dynamicznej zawartości z witryn korzystających z technologii AJAX?

Niedawno uczyłem się Pythona i wkładam rękę w tworzenie skrobaka internetowego. To nic nadzwyczajnego; jej jedynym celem jest pobranie danych z witryny bukmacherskiej i umieszczenie ich w programie Excel. Większość problemów jest do rozwiązania i mam niezły bałagan. Jednak napotykam ogromną przeszkodę w jednym problemie. Jeśli witryna ładuje tabelę koni …

145 javascript python ajax screen-scraping scrapy

8

Różnica między BeautifulSoup a Scrapy Crawlerem?

Chcę stworzyć stronę internetową pokazującą porównanie cen produktów amazon i e-bay. Który z nich będzie działał lepiej i dlaczego? Jestem trochę zaznajomiony z BeautifulSoup, ale nie za bardzo z crawlerem Scrapy .

134 python beautifulsoup scrapy web-crawler

17

Pobieranie: SSL: błąd CERTIFICATE_VERIFY_FAILED dla http://en.wikipedia.org

Ćwiczę kod z „Web Scraping with Python” i ciągle mam ten problem z certyfikatem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in …

123 python web-scraping beautifulsoup scrapy ssl-certificate

5

Jak przekazać argument zdefiniowany przez użytkownika w Scrapy Spider

Próbuję przekazać argument zdefiniowany przez użytkownika do pająka scrapy's. Czy ktoś może zasugerować, jak to zrobić? Czytałem -agdzieś o parametrze, ale nie mam pojęcia, jak go użyć.

100 python scrapy web-crawler

10

Jak używać PyCharm do debugowania projektów Scrapy

Pracuję nad Scrapy 0.20 z Pythonem 2.7. Odkryłem, że PyCharm ma dobry debugger Pythona. Chcę przetestować moje pająki Scrapy przy jego użyciu. Czy ktoś wie, jak to zrobić, proszę? Co próbowałem Właściwie to próbowałem uruchomić pająka jako skrypt. W rezultacie zbudowałem ten skrypt. Następnie próbowałem dodać mój projekt Scrapy do …

97 python debugging python-2.7 scrapy pycharm

2

selen z scrapy dla dynamicznej strony

Próbuję wydobyć informacje o produkcie ze strony internetowej za pomocą scrapy. Moja strona internetowa do pobrania wygląda następująco: zaczyna się od strony product_list z 10 produktami kliknięcie przycisku „dalej” ładuje następnych 10 produktów (adres URL nie zmienia się między dwiema stronami) Używam LinkExtractor, aby przejść do każdego linku do strony …

85 python selenium selenium-webdriver web-scraping scrapy

10

Jak mogę używać różnych potoków dla różnych pająków w jednym projekcie Scrapy

Mam projekt złomowania zawierający wiele pająków. Czy istnieje sposób, w jaki mogę zdefiniować rurociągi, które mają być używane dla danego pająka? Nie wszystkie zdefiniowane przeze mnie rurociągi mają zastosowanie do każdego pająka. Dzięki

84 python scrapy web-crawler

Pytania otagowane jako scrapy