Programowanie unicode

17

Najlepszy sposób na konwersję plików tekstowych między zestawami znaków?

Jakie jest najszybsze, najłatwiejsze narzędzie lub metoda konwersji plików tekstowych między zestawami znaków? W szczególności muszę przekonwertować z UTF-8 na ISO-8859-15 i odwrotnie. Wszystko idzie: jednowierszowe w Twoim ulubionym języku skryptowym, narzędzia wiersza poleceń lub inne narzędzia do systemu operacyjnego, stron internetowych itp. Najlepsze rozwiązania do tej pory: W systemach …

526 text unicode utf-8 character-set

8

Jaki jest najlepszy sposób na usunięcie akcentów w łańcuchu Unicode w Pythonie?

Mam w Pythonie ciąg znaków Unicode i chciałbym usunąć wszystkie akcenty (znaki diakrytyczne). Znalazłem w sieci elegancki sposób na zrobienie tego w Javie: przekonwertować ciąg Unicode na jego długą znormalizowaną formę (z osobnym znakiem dla liter i znaków diakrytycznych) usuń wszystkie znaki, których typ Unicode jest „diakrytyczny”. Czy muszę instalować …

504 python python-3.x unicode python-2.x diacritics

15

Jaka jest różnica między UTF-8 a Unicode?

Słyszałem sprzeczne opinie od ludzi - zgodnie ze stroną Wikipedii UTF-8 . Oni są tym samym, prawda? Czy ktoś może to wyjaśnić?

503 unicode encoding utf-8 character-encoding terminology

9

Konwertuj ciąg znaków Unicode na ciąg znaków w języku Python (zawierający dodatkowe symbole)

Jak przekonwertować ciąg Unicode (zawierający dodatkowe znaki, takie jak £ $ itp.) Na ciąg Python?

503 python string unicode type-conversion

12

UTF-8, UTF-16 i UTF-32

Jakie są różnice między UTF-8, UTF-16 i UTF-32? Rozumiem, że wszystkie będą przechowywać Unicode i że każdy używa innej liczby bajtów do przedstawienia znaku. Czy istnieje korzyść z wyboru jednego nad drugim?

486 unicode utf-8 utf-16 utf utf-32

12

Zapisywanie tekstów utf-8 w pliku json.dumps jako UTF8, a nie jako sekwencja ucieczki

przykładowy kod: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Problem: nie jest czytelny dla człowieka. Moi (inteligentni) użytkownicy chcą weryfikować, a nawet edytować pliki tekstowe za pomocą zrzutów JSON (i wolałbym nie używać XML). Czy istnieje sposób szeregowania obiektów w ciągi JSON UTF-8 (zamiast …

472 python json unicode utf-8 escaping

30

Najlepszy sposób na odwrócenie łańcucha

Właśnie musiałem napisać funkcję odwrotną do napisów w C # 2.0 (tj. LINQ niedostępny) i wymyśliłem to: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; } return reverse; } Osobiście …

440 c# .net performance algorithm unicode

18

UnicodeDecodeError podczas odczytu pliku CSV w Pandach z Pythonem

Korzystam z programu, który przetwarza 30 000 podobnych plików. Losowa ich liczba zatrzymuje się i wyświetla ten błąd ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f return _read(filepath_or_buffer, kwds) File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read return parser.read() File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, …

411 python pandas csv dataframe unicode

9

Jaka jest różnica między ASCII a Unicode?

Jaka jest dokładna różnica między Unicode a ASCII? ASCII ma w sumie 128 znaków (256 w zestawie rozszerzonym). Czy istnieje specyfikacja rozmiaru znaków Unicode?

407 unicode ascii

9

Co to jest Unicode, UTF-8, UTF-16?

Jaka jest podstawa Unicode i dlaczego potrzeba UTF-8 lub UTF-16? Sprawdziłem to w Google i szukałem tutaj, ale nie jest to dla mnie jasne. W VSS podczas porównywania plików czasami pojawia się komunikat informujący, że oba pliki mają różne UTF. Dlaczego miałoby tak być? Proszę wyjaśnić w prosty sposób.

395 unicode encoding utf-8 utf-16

5

Dlaczego 2+ 40 równa się 42?

Byłem zaskoczony, gdy kolega pokazał mi tę linię JavaScript z ostrzeżeniem 42. alert(2+ 40); Uruchom fragment koduUkryj wynikiRozwiń fragment kodu Szybko okazuje się, że to, co wygląda jak znak minus, jest w rzeczywistości tajemnym znakiem Unicode o wyraźnie innej semantyce. To mnie zastanawia, dlaczego ten znak nie powoduje błędu składniowego …

360 javascript unicode

11

Jak mogę grepować dla wszystkich znaków spoza ASCII?

Mam kilka bardzo dużych plików XML i próbuję znaleźć wiersze zawierające znaki spoza ASCII. Próbowałem następujące: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Ale to zwraca każdą linię w pliku, niezależnie od tego, czy linia zawiera znak z określonego zakresu. Czy mam niewłaściwą składnię, czy robię coś innego źle? Próbowałem też: egrep "[\x{00FF}-\x{FFFF}]" …

359 regex unix unicode grep

2

Różnice w formatach Unicode, UTF, ASCII, ANSI

Jaka jest różnica między tymi Unicode, UTF8, UTF7, UTF16, UTF32, ASCII, i ANSIkodowania? W jaki sposób są one pomocne dla programistów?

351 unicode character-encoding ascii ansi utf

6

Jak znaleźć długość ciągu w R

Jak znaleźć długość ciągu (liczbę znaków w ciągu) bez dzielenia go na R? Wiem, jak znaleźć długość listy, ale nie łańcucha. A co z ciągami znaków Unicode? Jak znaleźć długość (w bajtach) i liczbę znaków (runy, symbole) w ciągu znaków Unicode? Powiązane pytanie: Jak znaleźć „prawdziwą” liczbę znaków w ciągu …

348 r string unicode string-length

14

Odczytywanie i zapisywanie plików w języku Python w standardzie Unicode (UTF-8)

Mam problem z mózgiem w rozumieniu czytania i pisania tekstu do pliku (Python 2.4). # The string, which has an a-acute in it. ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8) („u'Capit \ xe1n” ”,„ Capit \ xc3 \ xa1n ”) print ss, ss8 print >> open('f1','w'), ss8 >>> file('f1').read() …

329 python unicode utf-8 io

Pytania otagowane jako unicode