Mam serwer gniazd, który powinien odbierać prawidłowe znaki UTF-8 od klientów.
Problem polega na tym, że niektórzy klienci (głównie hakerzy) wysyłają nad nim niewłaściwe dane.
Mogę z łatwością rozróżnić oryginalnego klienta, ale loguję do plików wszystkie przesłane dane, aby móc je później przeanalizować.
Czasami dostaję takie postacie, œ
które powodują UnicodeDecodeError
błąd.
Muszę być w stanie utworzyć ciąg UTF-8 z tymi znakami lub bez nich.
Aktualizacja:
W moim szczególnym przypadku usługa gniazda była MTA i dlatego oczekuję tylko otrzymania poleceń ASCII, takich jak:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
Logowałem to wszystko w JSON.
Potem niektórzy ludzie bez dobrych intencji postanowili sprzedać wszelkiego rodzaju śmieci.
Dlatego w moim konkretnym przypadku jest całkowicie okazywanie usuwania znaków spoza ASCII.