Mam ciąg, który wygląda tak:
6Â 918Â 417Â 712
Jasnym sposobem przycięcia tego ciągu (jak rozumiem Python) jest po prostu powiedzenie, że ciąg znajduje się w zmiennej o nazwie s
, otrzymujemy:
s.replace('Â ', '')
To powinno załatwić sprawę. Ale oczywiście narzeka, że znak spoza ASCII '\xc2'
w pliku blabla.py nie jest zakodowany.
Nigdy nie mogłem zrozumieć, jak przełączać się między różnymi kodowaniami.
Oto kod, tak naprawdę jest taki sam jak powyżej, ale teraz jest w kontekście. Plik jest zapisywany jako UTF-8 w notatniku i ma następujący nagłówek:
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
Kod:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
Nie idzie dalej niż s.replace
...
u