Unicode jest branżowym standardem komputerowym do spójnego kodowania, reprezentacji i obsługi tekstu wyrażonego w większości systemów pisania na świecie.
Właśnie natknąłem się na zrzut ekranu czyjegoś terminalu: Czy istnieje lista wszystkich znaków, które mogą być użyte w podpowiedzi Bash, czy ktoś może zdobyć dla mnie postać dla gwiazdy i prawej strzałki?
Mam plik w kodowaniu UTF-8 z BOM i chcę usunąć BOM. Czy istnieją jakieś narzędzia wiersza polecenia systemu Linux do usunięcia BOM z pliku? $ file test.xml test.xml: XML 1.0 document, UTF-8 Unicode (with BOM) text, with very long lines
Chciałbym przyczynić się do projektu open source dostarczającego przetłumaczone ciągi. Jednym z ich wymagań jest to, że autorzy muszą używać UTF-8 jako kodowania plików PO. Używam VIM 7.3 w systemie Linux. Jak mogę się upewnić, że kodowanie VIM jest ustawione na UTF-8, aby móc poprawnie edytować i zapisywać plik .po?
Jeśli wykonam następujący prosty skrypt: #!/bin/bash printf "%-20s %s\n" "Früchte und Gemüse" "foo" printf "%-20s %s\n" "Milchprodukte" "bar" printf "%-20s %s\n" "12345678901234567890" "baz" Drukuje: Früchte und Gemüse foo Milchprodukte bar 12345678901234567890 baz to znaczy tekst z umlautami (np. ü) jest „zmniejszany” o jeden znak na umlaut. Oczywiście, mam gdzieś jakieś …
Mam plik tekstowy w nieznanym lub mieszanym kodowaniu. Chcę zobaczyć wiersze zawierające sekwencję bajtów, która jest niepoprawna UTF-8 (przez przesłanie pliku tekstowego do jakiegoś programu). Odpowiednio chcę odfiltrować wiersze, które są poprawne UTF-8. Innymi słowy, szukam .grep [notutf8] Idealne rozwiązanie byłoby przenośne, krótkie i możliwe do uogólnienia w stosunku do …
Spojrzałem więc na tę odpowiedź na stackoverflow i zdałem sobie sprawę, że moje czcionki nie pokrywają całego spektrum utf-8 unicode (ponieważ otrzymuję wiele kwadratów). Czy ktoś zna czcionkę, która obejmie cały ten post?
Prosty kod działa tutaj zgodnie z oczekiwaniami na moim komputerze, jeśli jest uruchamiany z bash: function ⏰(){ date } ⏰ Czy może być problem dla innych osób korzystających z tego, czy może jest on uniwersalny? Zastanawiam się, ponieważ na razie nie widziałem czegoś takiego w innym kodzie źródłowym. Edycja: Istnieją …
Próbuję usunąć niektóre znaki z pliku (UTF-8). Używam trdo tego celu: tr -cs '[[:alpha:][:space:]]' ' ' <testdata.dat Plik zawiera niektóre obce znaki (np. „Латвийская” lub „àé”). trwydaje się ich nie rozumieć: traktuje je jako inne niż alfa i również je usuwa. Próbowałem zmienić niektóre ustawienia regionalne: LC_CTYPE=C LC_COLLATE=C tr -cs …
Na przykład: sed 's/\u0091//g' file1 W tej chwili muszę zrobić, hexdumpaby uzyskać numer szesnastkowy i wpisać w sednastępujący sposób: $ echo -ne '\u9991' | hexdump -C 00000000 e9 a6 91 |...| 00000003 I wtedy: $ sed 's/\xe9\xa6\x91//g' file1
Niedawno zaktualizowałem mój serwer Arch Linux i podczas tego procesu tmux został zaktualizowany. Używałem tmuxpodczas aktualizacji i korzystałem z niej później, ale wszystko podczas tej samej sesji SSH. Teraz jednak za każdym razem, gdy próbuję wydać dowolne tmuxpolecenie, pojawia się ten błąd: tmux: need UTF-8 locale (LC_CTYPE) but have ANSI_X3.4-1968 …
To pytanie zostało przeniesione z Stack Overflow, ponieważ można na nie odpowiedzieć na Unix i Linux Stack Exchange. Migrował 8 lat temu . Używam następującego polecenia do grep zakresu zestawu znaków dla kodu szesnastkowego 0900 (zamiast अ) do 097F (zamiast व). Jak mogę użyć kodu szesnastkowego zamiast अ i व? …
ɛ(„Latin epsilon”) to litera używana w niektórych językach afrykańskich, zwykle reprezentująca dźwięk samogłoski w angielskim „łóżku”. W Unicode jest zakodowany jako U + 025B, co różni się od codzienności e. Jeśli jednak sort: eb ed ɛa ɛc wydaje się, że sortuważa ɛi erównoważne: ɛa eb ɛc ed Co tu się …
Mam listę znaków kodowych Unicode, ale nie znam „prostego” sposobu konwersji tych wartości szesnastkowych na rzeczywiste znaki, które reprezentują ... Słyszałem, że zsh ma echo -e '\u0965', ale używam bash 4.1. Czy istnieje coś tak prostego jak metoda zsh dla bash?
W Unicode niektóre kombinacje znaków mają więcej niż jedną reprezentację. Na przykład znak ä można przedstawić jako „ä”, czyli punkt kodowy U + 00E4 (dwa bajty c3 a4w kodowaniu UTF-8) lub jako „ä”, tj. dwa punkty kodowe U + 0061 U + 0308 (trzy bajty 61 cc 88w UTF-8). Zgodnie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.