Pytania otagowane jako web-scraping

Web scraping to proces wyodrębniania określonych informacji ze stron internetowych, które nie zapewniają łatwo API ani innych metod automatycznego wyszukiwania danych. Pytania dotyczące „Jak rozpocząć pracę ze skrobaniem” (np. Z Excel VBA) powinny być * dokładnie zbadane *, ponieważ dostępne są liczne próbki kodu funkcjonalnego. Metody skrobania sieci obejmują aplikacje innych firm, tworzenie niestandardowego oprogramowania, a nawet ręczne zbieranie danych w ustandaryzowany sposób.

30
Opcje skrobania HTML? [Zamknięte]
Zamknięte . To pytanie musi być bardziej skoncentrowane . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby koncentrowało się na jednym problemie, edytując ten post . Zamknięte 6 lat temu . Zastanawiam się nad wypróbowaniem Beautiful Soup , pakietu Pythona do skrobania HTML. Czy są jeszcze jakieś …

16
Jak znaleźć elementy według klasy
Mam problem z analizowaniem elementów HTML z atrybutem „class” za pomocą Beautifulsoup. Kod wygląda następująco soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div W tym samym wierszu pojawia się błąd „po” zakończeniu skryptu. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] == …

3
Przeglądarka bezgłowa i cyklinowanie - rozwiązania [zamknięte]
Zamknięte. To pytanie nie jest zgodne z wytycznymi dotyczącymi przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 5 lat temu . Próbuję umieścić listę możliwych rozwiązań dla automatycznych zestawów testów przeglądarki i platform przeglądarek bezgłowych, które mogą zgarniać. …

6
Jak mogę uzyskać wiek pamięci podręcznej Google dowolnego adresu URL lub strony internetowej? [Zamknięte]
Zamknięte. To pytanie nie jest zgodne z wytycznymi dotyczącymi przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 2 lata temu . Popraw to pytanie W moim projekcie muszę dodać wiek pamięci podręcznej Google jako ważną informację. Próbowałem wyszukać …

3
Który parser HTML jest najlepszy? [Zamknięte]
W obecnej formie to pytanie nie pasuje do naszego formatu pytań i odpowiedzi. Oczekujemy, że odpowiedzi poparte będą faktami, referencjami lub wiedzą fachową, ale to pytanie prawdopodobnie będzie wymagało debaty, argumentów, ankiet lub rozszerzonej dyskusji. Jeśli uważasz, że to pytanie można poprawić i ewentualnie ponownie otworzyć, odwiedź centrum pomocy w …

13
Jak wybrać wartość menu rozwijanego za pomocą Selenium przy użyciu Pythona?
Muszę wybrać element z menu rozwijanego . Na przykład: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Najpierw muszę go kliknąć. Robię to: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Następnie muszę wybrać, powiedzmy, dobry element Mango. Próbowałem to zrobić, inputElementFruits.send_keys(...)ale nie udało się.

14
Strona JavaScript do skrobania sieci w języku Python
Próbuję opracować prosty skrobak do sieci. Chcę wyodrębnić tekst bez kodu HTML. W rzeczywistości osiągam ten cel, ale widziałem, że na niektórych stronach, na których ładowany jest JavaScript, nie uzyskałem dobrych wyników. Na przykład, jeśli jakiś kod JavaScript dodaje jakiś tekst, nie widzę go, ponieważ kiedy dzwonię response = urllib2.urlopen(request) …




7
Lalkarz: przekaż zmienną w .evaluate ()
Próbuję przekazać zmienną do page.evaluate()funkcji w Puppeteer , ale kiedy używam następującego bardzo uproszczonego przykładu, zmiennaevalVar jest niezdefiniowana. Jestem nowy w Puppeteer i nie mogę znaleźć żadnych przykładów do zbudowania, więc potrzebuję pomocy w przekazaniu tej zmiennej do page.evaluate()funkcji, aby móc jej użyć w środku. const puppeteer = require('puppeteer'); (async() …

4
Jak wykorzystać żądania Pythona do sfałszowania wizyty w przeglądarce?
Chcę pobrać treść z poniższej strony internetowej. Jeśli używam przeglądarki takiej jak Firefox lub Chrome, mogę uzyskać prawdziwą stronę internetową, którą chcę, ale jeśli użyję pakietu (lub wgetpolecenia) żądań Pythona, aby ją pobrać, zwraca całkowicie inną stronę HTML. Myślałem, że twórca witryny zrobił w tym celu kilka bloków, więc pytanie …

17
Pobieranie: SSL: błąd CERTIFICATE_VERIFY_FAILED dla http://en.wikipedia.org
Ćwiczę kod z „Web Scraping with Python” i ciągle mam ten problem z certyfikatem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in …


2
selen z scrapy dla dynamicznej strony
Próbuję wydobyć informacje o produkcie ze strony internetowej za pomocą scrapy. Moja strona internetowa do pobrania wygląda następująco: zaczyna się od strony product_list z 10 produktami kliknięcie przycisku „dalej” ładuje następnych 10 produktów (adres URL nie zmienia się między dwiema stronami) Używam LinkExtractor, aby przejść do każdego linku do strony …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.