Programowanie unicode

12

Usuń znaki diakrytyczne (ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ) ze znaków Unicode

Patrzę na algorytmu, który można mapować między postaciami ze znakami diakrytycznymi ( tylda , daszkiem , daszek , umlaut , Caron ) i ich „prosty” charakter. Na przykład: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> …

88 java unicode diacritics transliteration

5

Naprawdę dobre, złe przykładowe dane testowe UTF-8 [zamknięte]

Zamknięte. To pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 3 lata temu . Popraw to pytanie Mamy więc ściągawkę XSS do testowania naszego filtrowania XSS - ale poza przykładową niegroźną stroną nie …

88 unicode utf-8

8

Jak mogę zamienić niedrukowalne znaki Unicode w Javie?

Następujące znaki zastąpią znaki sterujące ASCII (skrót [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Poniższe zastąpi wszystkie niedrukowalne znaki ASCII (skrót [\p{Graph}\x20]), w tym znaki akcentowane: my_string.replaceAll("[^\\p{Print}]", "?"); Jednak żaden z nich nie działa w przypadku ciągów Unicode. Czy ktoś ma dobry sposób na usunięcie niedrukowalnych znaków z ciągu znaków Unicode?

88 java string unicode

12

Czy TCHAR jest nadal aktualny?

Jestem nowy w programowaniu Windows i po przeczytaniu książki Petzolda zastanawiam się: czy nadal dobrą praktyką jest używanie TCHARtypu i _T()funkcji do deklarowania ciągów, czy też powinienem używać po prostu ciągów wchar_ti L""w nowym kodzie? Skoncentruję się tylko na systemie Windows 2000 i nowszych, a mój kod od samego początku …

87 c++ c windows unicode wchar-t

2

Co jest „nie tak” z C ++ wchar_t i wstrings? Jakie są alternatywy dla szerokich znaków?

Widziałem wiele osób w społeczności C ++ (szczególnie ## c ++ na freenode) niechętnie używają wstringsi wchar_toraz ich używania w api systemu Windows. Co jest dokładnie „nie tak” w przypadku wchar_ti wstringi jeśli chcę wspierać internacjonalizację, jakie są alternatywy dla szerokich znaków?

86 c++ winapi unicode internationalization wstring

13

W plikach pojawia się znak <0xEF, 0xBB, 0xBF>. Jak je usunąć?

Kompresuję pliki JavaScript, a kompresor narzeka, że moje pliki mają ï»¿charakter. Jak mogę wyszukać te znaki i je usunąć?

86 file unicode utf-8 utf

6

Użycie „use utf8;” daje mi „szeroki charakter w druku”

Jeśli uruchomię następujący program w Perlu: perl -e 'use utf8; print "鸡\n";' Otrzymuję to ostrzeżenie: Wide character in print at -e line 1. Jeśli uruchomię ten program w Perlu: perl -e 'print "鸡\n";' Nie dostaję ostrzeżenia. Pomyślałem, że use utf8konieczne jest użycie znaków UTF-8 w skrypcie Perla. Dlaczego to nie …

86 perl unicode utf-8

2

Regex: co to jest InCombiningDiacriticalMarks?

Poniższy kod jest dobrze znany z konwertowania znaków akcentowanych na zwykły tekst: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Zastąpiłem moją metodę „ręcznie tworzoną” tą, ale muszę zrozumieć część „wyrażenia regularnego” metody replaceAll 1) Co to jest „InCombiningDiacriticalMarks”? 2) Gdzie jest to dokumentacja? (i podobne?) Dzięki.

86 java regex unicode

1

WebClient.DownloadString powoduje zniekształcone znaki z powodu problemów z kodowaniem, ale przeglądarka działa poprawnie

Poniższy kod: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); daje w wyniku zmienną, textktóra zawiera między innymi ciąg „$ Îº $ -Przestrzeń Minkowskiego, pole skalarne i kwestia niezmienności Lorentza” Jednak kiedy odwiedzam ten adres URL w przeglądarce Firefox, otrzymuję $ κ $ -Przestrzeń Minkowskiego, pole skalarne i kwestia niezmienniczości Lorentza co jest …

85 .net unicode utf-8 webclient

4

Gdzie jest „najlepszy ASCII dla tej bazy danych Unicode” w Pythonie?

Mam trochę tekstu, który używa interpunkcji Unicode, jak lewy podwójny cudzysłów, prawy pojedynczy cudzysłów jako apostrof i tak dalej, i potrzebuję go w ASCII. Czy Python ma bazę danych tych znaków z oczywistymi substytutami ASCII, więc mogę zrobić coś lepszego niż zamienianie ich wszystkich na "?" ?

85 python unicode ascii

1

Kodowanie Unicode dla literałów ciągów w C ++ 11

Po pokrewnym pytaniu chciałbym zapytać o nowe typy literałów znakowych i łańcuchowych w C ++ 11. Wygląda na to, że mamy teraz cztery rodzaje znaków i pięć rodzajów literałów tekstowych. Typy postaci: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t …

85 c++ unicode c++11 utf string-literals

5

Długości MySQL VARCHAR i UTF-8

W MySQL, jeśli utworzę nowe VARCHAR(32)pole w tabeli UTF-8, czy oznacza to, że mogę przechowywać 32 bajty danych w tym polu lub 32 znaki (wielobajtowe)?

84 mysql unicode utf-8 varchar

21

Jak przekonwertować ciąg z kodowaniem Unicode na ciąg liter

Mam ciąg znaków ze znakami ucieczki Unicode\uXXXX i chcę go przekonwertować na zwykłe litery Unicode. Na przykład: "\u0048\u0065\u006C\u006C\u006F World" powinno stać się "Hello World" Wiem, że kiedy drukuję pierwszy napis, to już się wyświetla Hello world. Mój problem polega na tym, że czytam nazwy plików z pliku, a następnie ich …

84 java unicode encoding

6

Ile znaków można odwzorować za pomocą Unicode?

Proszę o policzenie wszystkich możliwych prawidłowych kombinacji w Unicode z wyjaśnieniem. Wiem, że znak można zakodować jako 1, 2, 3 lub 4 bajty. Nie rozumiem też, dlaczego bajty kontynuacji mają ograniczenia, mimo że początkowy bajt tego znaku określa, jak długo powinien być.

83 unicode utf-8 utf

8

Programowanie w C: Jak programować dla Unicode?

Jakie wymagania wstępne są potrzebne do ścisłego programowania w standardzie Unicode? Czy to oznacza, że mój kod nie powinien charnigdzie używać typów i że muszą być używane funkcje, które mogą obsługiwać wint_ti wchar_t? A jaka jest rola wielobajtowych sekwencji znaków w tym scenariuszu?

83 c unicode utf-8 character-encoding locale

Pytania otagowane jako unicode