Pytania otagowane jako beautifulsoup

Beautiful Soup to pakiet Pythona do analizowania HTML / XML. Najnowsza wersja tego pakietu to wersja 4, zaimportowana jako bs4.

28
UnicodeEncodeError: Kodek „ascii” nie może zakodować znaku u '\ xa0' na pozycji 20: porządek poza zakresem (128)
Mam problemy z obsługą znaków Unicode z tekstu pobranego z różnych stron internetowych (na różnych stronach). Używam BeautifulSoup. Problem polega na tym, że błąd nie zawsze jest powtarzalny; czasami działa z niektórymi stronami, a czasem obrzuca, rzucając UnicodeEncodeError. Próbowałem prawie wszystkiego, co mogłem wymyślić, a jednak nie znalazłem niczego, co …

16
Jak znaleźć elementy według klasy
Mam problem z analizowaniem elementów HTML z atrybutem „class” za pomocą Beautifulsoup. Kod wygląda następująco soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div W tym samym wierszu pojawia się błąd „po” zakończeniu skryptu. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] == …

12
bs4.FeatureNotFound: Nie można znaleźć konstruktora drzewa z żądanymi funkcjami: lxml. Czy musisz zainstalować bibliotekę analizatora składni?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Powyższe dane wyjściowe na moim terminalu. Korzystam z systemu Mac OS 10.7.x. Mam Python 2.7.1 i postępowałem …

6
UnicodeEncodeError: Kodek „charmap” nie może kodować znaków
Próbuję zeskrobać stronę internetową, ale pojawia się błąd. Używam następującego kodu: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) I pojawia się następujący błąd: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: character …

5
TypeError: wymagany jest obiekt podobny do bajtów, a nie „str” w Pythonie i CSV
TypeError: wymagany jest obiekt podobny do bajtów, a nie „str” uzyskiwanie powyższego błędu podczas wykonywania poniższego kodu Pythona w celu zapisania danych tabeli HTML w pliku CSV. nie wiem jak uzyskać pomoc rideup.pls. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row …





10
BeautifulSoup Grab Widoczny tekst strony internetowej
Zasadniczo chcę używać BeautifulSoup do ścisłego przechwytywania widocznego tekstu na stronie internetowej. Na przykład ta strona internetowa jest moim przypadkiem testowym. I przede wszystkim chcę uzyskać tekst podstawowy (artykuł) i może nawet kilka nazw kart tu i tam. Wypróbowałem sugestię w tym pytaniu SO, która zwraca wiele <script>tagów i komentarzy …

17
Pobieranie: SSL: błąd CERTIFICATE_VERIFY_FAILED dla http://en.wikipedia.org
Ćwiczę kod z „Web Scraping with Python” i ciągle mam ten problem z certyfikatem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in …

6
Jak znaleźć elementy podrzędne węzłów za pomocą BeautifulSoup
Chcę uzyskać wszystkie <a>tagi, które są elementami podrzędnymi <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Wiem, jak znaleźć element z taką klasą: soup.find("li", { "class" : "test" }) Ale nie wiem, jak znaleźć wszystkie <a>dzieci, <li class=test>ale nie inne. Tak jak chcę wybrać: <a>link1</a>

6
Wyodrębnianie wartości atrybutu za pomocą beautifulsoup
Próbuję wyodrębnić zawartość pojedynczego atrybutu „value” w określonym tagu „input” na stronie internetowej. Używam następującego kodu: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) Otrzymuję TypeError: indeksy listy muszą być liczbami całkowitymi, …

9
czy możemy używać xpath z BeautifulSoup?
Używam BeautifulSoup do zeskrobania adresu URL i mam następujący kod import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Teraz w powyższym kodzie możemy użyć findAlldo pobrania znaczników i informacji z nimi związanych, ale chcę …

7
Python: BeautifulSoup - pobierz wartość atrybutu na podstawie atrybutu name
Chcę wydrukować wartość atrybutu na podstawie jego nazwy, na przykład <META NAME="City" content="Austin"> Chcę zrobić coś takiego soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] Powyższy kod daje KeyError: 'name', myślę, że dzieje się tak, ponieważ …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.