Mam ciąg, który wygląda tak:
6Â 918Â 417Â 712
Jasnym sposobem przycięcia tego ciągu (jak rozumiem Python) jest po prostu powiedzenie, że ciąg znajduje się w zmiennej o nazwie s, otrzymujemy:
s.replace('Â ', '')
To powinno załatwić sprawę. Ale oczywiście narzeka, że znak spoza ASCII '\xc2'w pliku blabla.py nie jest zakodowany.
Nigdy nie mogłem zrozumieć, jak przełączać się między różnymi kodowaniami.
Oto kod, tak naprawdę jest taki sam jak powyżej, ale teraz jest w kontekście. Plik jest zapisywany jako UTF-8 w notatniku i ma następujący nagłówek:
#!/usr/bin/python2.4
# -*- coding: utf-8 -*-
Kod:
f = urllib.urlopen(url)
soup = BeautifulSoup(f)
s = soup.find('div', {'id':'main_count'})
#making a print 's' here goes well. it shows 6Â 918Â 417Â 712
s.replace('Â ','')
save_main_count(s)
Nie idzie dalej niż s.replace...
u