Unicode jest standardem kodowania, reprezentacji i obsługi tekstu z zamiarem obsługi wszystkich znaków wymaganych dla tekstu pisanego, obejmujących wszystkie systemy pisania, symbole techniczne i interpunkcję.
Patrzę na algorytmu, który można mapować między postaciami ze znakami diakrytycznymi ( tylda , daszkiem , daszek , umlaut , Caron ) i ich „prosty” charakter. Na przykład: ń ǹ ň ñ ṅ ņ ṇ ṋ ṉ ̈ ɲ ƞ ᶇ ɳ ȵ --> n á --> a ä --> …
Zamknięte. To pytanie nie spełnia wytycznych dotyczących przepełnienia stosu . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było na temat przepełnienia stosu. Zamknięte 3 lata temu . Popraw to pytanie Mamy więc ściągawkę XSS do testowania naszego filtrowania XSS - ale poza przykładową niegroźną stroną nie …
Następujące znaki zastąpią znaki sterujące ASCII (skrót [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Poniższe zastąpi wszystkie niedrukowalne znaki ASCII (skrót [\p{Graph}\x20]), w tym znaki akcentowane: my_string.replaceAll("[^\\p{Print}]", "?"); Jednak żaden z nich nie działa w przypadku ciągów Unicode. Czy ktoś ma dobry sposób na usunięcie niedrukowalnych znaków z ciągu znaków Unicode?
Jestem nowy w programowaniu Windows i po przeczytaniu książki Petzolda zastanawiam się: czy nadal dobrą praktyką jest używanie TCHARtypu i _T()funkcji do deklarowania ciągów, czy też powinienem używać po prostu ciągów wchar_ti L""w nowym kodzie? Skoncentruję się tylko na systemie Windows 2000 i nowszych, a mój kod od samego początku …
Widziałem wiele osób w społeczności C ++ (szczególnie ## c ++ na freenode) niechętnie używają wstringsi wchar_toraz ich używania w api systemu Windows. Co jest dokładnie „nie tak” w przypadku wchar_ti wstringi jeśli chcę wspierać internacjonalizację, jakie są alternatywy dla szerokich znaków?
Jeśli uruchomię następujący program w Perlu: perl -e 'use utf8; print "鸡\n";' Otrzymuję to ostrzeżenie: Wide character in print at -e line 1. Jeśli uruchomię ten program w Perlu: perl -e 'print "鸡\n";' Nie dostaję ostrzeżenia. Pomyślałem, że use utf8konieczne jest użycie znaków UTF-8 w skrypcie Perla. Dlaczego to nie …
Poniższy kod jest dobrze znany z konwertowania znaków akcentowanych na zwykły tekst: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Zastąpiłem moją metodę „ręcznie tworzoną” tą, ale muszę zrozumieć część „wyrażenia regularnego” metody replaceAll 1) Co to jest „InCombiningDiacriticalMarks”? 2) Gdzie jest to dokumentacja? (i podobne?) Dzięki.
Poniższy kod: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); daje w wyniku zmienną, textktóra zawiera między innymi ciąg „$ κ $ -Przestrzeń Minkowskiego, pole skalarne i kwestia niezmienności Lorentza” Jednak kiedy odwiedzam ten adres URL w przeglądarce Firefox, otrzymuję $ κ $ -Przestrzeń Minkowskiego, pole skalarne i kwestia niezmienniczości Lorentza co jest …
Mam trochę tekstu, który używa interpunkcji Unicode, jak lewy podwójny cudzysłów, prawy pojedynczy cudzysłów jako apostrof i tak dalej, i potrzebuję go w ASCII. Czy Python ma bazę danych tych znaków z oczywistymi substytutami ASCII, więc mogę zrobić coś lepszego niż zamienianie ich wszystkich na "?" ?
Po pokrewnym pytaniu chciałbym zapytać o nowe typy literałów znakowych i łańcuchowych w C ++ 11. Wygląda na to, że mamy teraz cztery rodzaje znaków i pięć rodzajów literałów tekstowych. Typy postaci: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide character, no semantics char16_t …
W MySQL, jeśli utworzę nowe VARCHAR(32)pole w tabeli UTF-8, czy oznacza to, że mogę przechowywać 32 bajty danych w tym polu lub 32 znaki (wielobajtowe)?
Mam ciąg znaków ze znakami ucieczki Unicode\uXXXX i chcę go przekonwertować na zwykłe litery Unicode. Na przykład: "\u0048\u0065\u006C\u006C\u006F World" powinno stać się "Hello World" Wiem, że kiedy drukuję pierwszy napis, to już się wyświetla Hello world. Mój problem polega na tym, że czytam nazwy plików z pliku, a następnie ich …
Proszę o policzenie wszystkich możliwych prawidłowych kombinacji w Unicode z wyjaśnieniem. Wiem, że znak można zakodować jako 1, 2, 3 lub 4 bajty. Nie rozumiem też, dlaczego bajty kontynuacji mają ograniczenia, mimo że początkowy bajt tego znaku określa, jak długo powinien być.
Jakie wymagania wstępne są potrzebne do ścisłego programowania w standardzie Unicode? Czy to oznacza, że mój kod nie powinien charnigdzie używać typów i że muszą być używane funkcje, które mogą obsługiwać wint_ti wchar_t? A jaka jest rola wielobajtowych sekwencji znaków w tym scenariuszu?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.