Pytania otagowane jako unicode

Unicode jest standardem kodowania, reprezentacji i obsługi tekstu z zamiarem obsługi wszystkich znaków wymaganych dla tekstu pisanego, obejmujących wszystkie systemy pisania, symbole techniczne i interpunkcję.


5
Naprawdę dobre, złe przykładowe dane testowe UTF-8 [zamknięte]
Zamknięte. To pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 3 lata temu . Popraw to pytanie Mamy więc ściągawkę XSS do testowania naszego filtrowania XSS - ale poza przykładową niegroźną stroną nie …
88 unicode  utf-8 

8
Jak mogę zamienić niedrukowalne znaki Unicode w Javie?
Następujące znaki zastąpią znaki sterujące ASCII (skrót [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Poniższe zastąpi wszystkie niedrukowalne znaki ASCII (skrót [\p{Graph}\x20]), w tym znaki akcentowane: my_string.replaceAll("[^\\p{Print}]", "?"); Jednak żaden z nich nie działa w przypadku ciągów Unicode. Czy ktoś ma dobry sposób na usunięcie niedrukowalnych znaków z ciągu znaków Unicode?
88 java  string  unicode 

12
Czy TCHAR jest nadal aktualny?
Jestem nowy w programowaniu Windows i po przeczytaniu książki Petzolda zastanawiam się: czy nadal dobrą praktyką jest używanie TCHARtypu i _T()funkcji do deklarowania ciągów, czy też powinienem używać po prostu ciągów wchar_ti L""w nowym kodzie? Skoncentruję się tylko na systemie Windows 2000 i nowszych, a mój kod od samego początku …
87 c++  c  windows  unicode  wchar-t 



6
Użycie „use utf8;” daje mi „szeroki charakter w druku”
Jeśli uruchomię następujący program w Perlu: perl -e 'use utf8; print "鸡\n";' Otrzymuję to ostrzeżenie: Wide character in print at -e line 1. Jeśli uruchomię ten program w Perlu: perl -e 'print "鸡\n";' Nie dostaję ostrzeżenia. Pomyślałem, że use utf8konieczne jest użycie znaków UTF-8 w skrypcie Perla. Dlaczego to nie …
86 perl  unicode  utf-8 

2
Regex: co to jest InCombiningDiacriticalMarks?
Poniższy kod jest dobrze znany z konwertowania znaków akcentowanych na zwykły tekst: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Zastąpiłem moją metodę „ręcznie tworzoną” tą, ale muszę zrozumieć część „wyrażenia regularnego” metody replaceAll 1) Co to jest „InCombiningDiacriticalMarks”? 2) Gdzie jest to dokumentacja? (i podobne?) Dzięki.
86 java  regex  unicode 

1
WebClient.DownloadString powoduje zniekształcone znaki z powodu problemów z kodowaniem, ale przeglądarka działa poprawnie
Poniższy kod: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); daje w wyniku zmienną, textktóra zawiera między innymi ciąg „$ κ $ -Przestrzeń Minkowskiego, pole skalarne i kwestia niezmienności Lorentza” Jednak kiedy odwiedzam ten adres URL w przeglądarce Firefox, otrzymuję $ κ $ -Przestrzeń Minkowskiego, pole skalarne i kwestia niezmienniczości Lorentza co jest …


1
Kodowanie Unicode dla literałów ciągów w C ++ 11
Po pokrewnym pytaniu chciałbym zapytać o nowe typy literałów znakowych i łańcuchowych w C ++ 11. Wygląda na to, że mamy teraz cztery rodzaje znaków i pięć rodzajów literałów tekstowych. Typy postaci: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t …


21
Jak przekonwertować ciąg z kodowaniem Unicode na ciąg liter
Mam ciąg znaków ze znakami ucieczki Unicode\uXXXX i chcę go przekonwertować na zwykłe litery Unicode. Na przykład: "\u0048\u0065\u006C\u006C\u006F World" powinno stać się "Hello World" Wiem, że kiedy drukuję pierwszy napis, to już się wyświetla Hello world. Mój problem polega na tym, że czytam nazwy plików z pliku, a następnie ich …
84 java  unicode  encoding 

6
Ile znaków można odwzorować za pomocą Unicode?
Proszę o policzenie wszystkich możliwych prawidłowych kombinacji w Unicode z wyjaśnieniem. Wiem, że znak można zakodować jako 1, 2, 3 lub 4 bajty. Nie rozumiem też, dlaczego bajty kontynuacji mają ograniczenia, mimo że początkowy bajt tego znaku określa, jak długo powinien być.
83 unicode  utf-8  utf 


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.