Obecnie używam Beautiful Soup do parsowania pliku HTML i wywoływania get_text()
, ale wygląda na to, że mam dużo \ xa0 znaków reprezentujących spacje. Czy istnieje skuteczny sposób na usunięcie ich wszystkich w Pythonie 2.7 i zamianę ich w spacje? Wydaje mi się, że bardziej ogólne pytanie brzmi: czy istnieje sposób na usunięcie formatowania Unicode?
Próbowałem użyć line = line.replace(u'\xa0',' ')
:, jak sugeruje inny wątek, ale zmieniło to \ xa0 na u, więc teraz zamiast tego mam wszędzie „u”. ):
EDIT: Problem wydaje się być rozwiązany str.replace(u'\xa0', ' ').encode('utf-8')
, ale po prostu robi .encode('utf-8')
bez replace()
zdaje się powodować to wypluć nawet dziwacznych w znaki \ xc2 na przykład. Czy ktoś może to wyjaśnić?
u''
s zamiast ''
s. :-)
u' '
zastępowania, a nie ' '
. Czy oryginalny ciąg jest Unicode?