Mam problemy z obsługą znaków Unicode z tekstu pobranego z różnych stron internetowych (na różnych stronach). Używam BeautifulSoup. Problem polega na tym, że błąd nie zawsze jest powtarzalny; czasami działa z niektórymi stronami, a czasem obrzuca, rzucając UnicodeEncodeError. Próbowałem prawie wszystkiego, co mogłem wymyślić, a jednak nie znalazłem niczego, co …
Mam problem z analizowaniem elementów HTML z atrybutem „class” za pomocą Beautifulsoup. Kod wygląda następująco soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div W tym samym wierszu pojawia się błąd „po” zakończeniu skryptu. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] == …
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Powyższe dane wyjściowe na moim terminalu. Korzystam z systemu Mac OS 10.7.x. Mam Python 2.7.1 i postępowałem …
Próbuję zeskrobać stronę internetową, ale pojawia się błąd. Używam następującego kodu: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) I pojawia się następujący błąd: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position 70924-70950: character …
TypeError: wymagany jest obiekt podobny do bajtów, a nie „str” uzyskiwanie powyższego błędu podczas wykonywania poniższego kodu Pythona w celu zapisania danych tabeli HTML w pliku CSV. nie wiem jak uzyskać pomoc rideup.pls. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row …
soup.find("tagName", { "id" : "articlebody" }) Dlaczego to NIE zwraca <div id="articlebody"> ... </div>tagów i innych elementów? Nic nie zwraca. I wiem na pewno, że istnieje, ponieważ patrzę na to od razu soup.prettify() soup.find("div", { "id" : "articlebody" }) też nie działa. ( EDYCJA: Odkryłem, że BeautifulSoup nie analizował poprawnie …
Pracuję w Pythonie i używam Flaska. Kiedy uruchamiam mój główny plik Pythona na moim komputerze, działa on doskonale, ale kiedy aktywuję venv i uruchamiam plik Flask Python w terminalu, pojawia się komunikat, że mój główny plik Pythona ma „Brak modułu o nazwie bs4”. Wszelkie uwagi lub porady są bardzo mile …
Chcę stworzyć stronę internetową pokazującą porównanie cen produktów amazon i e-bay. Który z nich będzie działał lepiej i dlaczego? Jestem trochę zaznajomiony z BeautifulSoup, ale nie za bardzo z crawlerem Scrapy .
Zasadniczo chcę używać BeautifulSoup do ścisłego przechwytywania widocznego tekstu na stronie internetowej. Na przykład ta strona internetowa jest moim przypadkiem testowym. I przede wszystkim chcę uzyskać tekst podstawowy (artykuł) i może nawet kilka nazw kart tu i tam. Wypróbowałem sugestię w tym pytaniu SO, która zwraca wiele <script>tagów i komentarzy …
Ćwiczę kod z „Web Scraping with Python” i ciągle mam ten problem z certyfikatem: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in …
Chcę uzyskać wszystkie <a>tagi, które są elementami podrzędnymi <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Wiem, jak znaleźć element z taką klasą: soup.find("li", { "class" : "test" }) Ale nie wiem, jak znaleźć wszystkie <a>dzieci, <li class=test>ale nie inne. Tak jak chcę wybrać: <a>link1</a>
Używam BeautifulSoup do zeskrobania adresu URL i mam następujący kod import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Teraz w powyższym kodzie możemy użyć findAlldo pobrania znaczników i informacji z nimi związanych, ale chcę …
Chcę wydrukować wartość atrybutu na podstawie jego nazwy, na przykład <META NAME="City" content="Austin"> Chcę zrobić coś takiego soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] Powyższy kod daje KeyError: 'name', myślę, że dzieje się tak, ponieważ …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.