Obecnie używam Beautiful Soup do parsowania pliku HTML i wywoływania get_text(), ale wygląda na to, że mam dużo \ xa0 znaków reprezentujących spacje. Czy istnieje skuteczny sposób na usunięcie ich wszystkich w Pythonie 2.7 i zamianę ich w spacje? Wydaje mi się, że bardziej ogólne pytanie brzmi: czy istnieje sposób na usunięcie formatowania Unicode?
Próbowałem użyć line = line.replace(u'\xa0',' '):, jak sugeruje inny wątek, ale zmieniło to \ xa0 na u, więc teraz zamiast tego mam wszędzie „u”. ):
EDIT: Problem wydaje się być rozwiązany str.replace(u'\xa0', ' ').encode('utf-8'), ale po prostu robi .encode('utf-8')bez replace()zdaje się powodować to wypluć nawet dziwacznych w znaki \ xc2 na przykład. Czy ktoś może to wyjaśnić?
u''s zamiast ''s. :-)
u' 'zastępowania, a nie ' '. Czy oryginalny ciąg jest Unicode?