UTF-8 to kodowanie znaków, które opisuje każdy punkt kodowy Unicode przy użyciu sekwencji bajtów o długości od jednego do czterech bajtów. Jest wstecznie kompatybilny z ASCII, a jednocześnie obsługuje reprezentację wszystkich punktów kodowych Unicode.
Używam window.atob()funkcji JavaScript do dekodowania ciągu zakodowanego w formacie base64 (w szczególności treści zakodowanej w formacie base64 z interfejsu API GitHub). Problem polega na tym, że otrzymuję z powrotem znaki zakodowane w ASCII (jak â¢zamiast ™). Jak mogę poprawnie obsłużyć przychodzący strumień zakodowany w base64, aby został zdekodowany jako utf-8?
Próbuję odczytać pliki CSV przy użyciu języka Java. Niektóre pliki mogą mieć znacznik kolejności bajtów na początku, ale nie wszystkie. Gdy występuje, kolejność bajtów jest odczytywana wraz z resztą pierwszego wiersza, powodując w ten sposób problemy z porównaniami łańcuchów. Czy istnieje łatwy sposób na pominięcie znaku kolejności bajtów, gdy jest …
Znam niestandardowy schemat% uxxxx, ale nie wydaje się to mądrym wyborem, ponieważ schemat został odrzucony przez W3C. Kilka interesujących przykładów: Charakter serca. Jeśli wpiszę to w przeglądarce: http://www.google.com/search?q=♥ Następnie skopiuj i wklej, widzę ten adres URL http://www.google.com/search?q=%E2%99%A5 co sprawia, że wygląda na to, że Firefox (lub Safari) to robi. urllib.quote_plus(x.encode("latin-1")) …
Próbuję pracować z bardzo dużym zbiorem danych, który zawiera kilka niestandardowych znaków. Muszę użyć Unicode, zgodnie ze specyfikacją pracy, ale jestem zdziwiony. (I całkiem możliwe, że robię to wszystko źle.) Otwieram CSV za pomocą: 15 ncesReader = csv.reader(open('geocoded_output.csv', 'rb'), delimiter='\t', quotechar='"') Następnie próbuję zakodować go za pomocą: name=school_name.encode('utf-8'), street=row[9].encode('utf-8'), city=row[10].encode('utf-8'), …
Mam kilka problemów, próbując zakodować ciąg do UTF-8. Próbowałem wielu rzeczy, w tym używania string.encode('utf-8')i unicode(string), ale pojawia się błąd: UnicodeDecodeError: kodek „ascii” nie może zdekodować bajtu 0xef na pozycji 1: numer porządkowy poza zakresem (128) To jest mój ciąg: (。・ω・。)ノ Nie rozumiem, co się dzieje, jakiś pomysł? Edycja: Problem …
Poszukałem w Google na ten temat i sprawdziłem każdą odpowiedź, ale nadal jej nie rozumiem. Zasadniczo muszę przekonwertować ciąg UTF-8 na ISO-8859-1 i robię to za pomocą następującego kodu: Encoding iso = Encoding.GetEncoding("ISO-8859-1"); Encoding utf8 = Encoding.UTF8; string msg = iso.GetString(utf8.GetBytes(Message)); Mój ciąg źródłowy to Message = "ÄäÖöÕõÜü" Niestety, mój …
Jedna z odpowiedzi na pytanie, które zadałem wczoraj, sugerowała, że powinienem upewnić się, że moja baza danych poprawnie obsługuje znaki UTF-8. Jak mogę to zrobić z MySQL?
Moje kategorie należy nazywać greckimi literami. Używam ggplot2i pięknie działa z danymi. Niestety nie mogę wymyślić, jak umieścić te greckie symbole na osi x (przy znacznikach), a także wyświetlić je w legendzie. Czy jest na to sposób? AKTUALIZACJA: Rzuciłem okiem na link , jednak nie ma opisanej dobrej metody, aby …
Obecnie szukam łatwego sposobu serializacji obiektów (w C # 3). Wyszukałem w Google kilka przykładów i wymyśliłem coś takiego: MemoryStream memoryStream = new MemoryStream ( ); XmlSerializer xs = new XmlSerializer ( typeof ( MyObject) ); XmlTextWriter xmlTextWriter = new XmlTextWriter ( memoryStream, Encoding.UTF8 ); xs.Serialize ( xmlTextWriter, myObject); string …
Czy w PHP jest funkcja, która może dekodować sekwencje unikowe Unicode, takie jak „ \u00ed” do í”i wszystkie inne podobne wystąpienia? Znalazłem tutaj podobne pytanie , ale wydaje się, że nie działa.
Jeśli UTF-8 ma 8 bitów, czy nie oznacza to, że może istnieć tylko maksymalnie 256 różnych znaków? Pierwsze 128 punktów kodowych jest takich samych jak w ASCII. Ale mówi, że UTF-8 może obsługiwać do miliona znaków? Jak to działa?
Próbuję czytać z text/plainpliku przez Internet, wiersz po wierszu. Kod, który mam teraz, to: URL url = new URL("http://kuehldesign.net/test.txt"); BufferedReader in = new BufferedReader(new InputStreamReader(url.openStream())); LinkedList<String> lines = new LinkedList(); String readLine; while ((readLine = in.readLine()) != null) { lines.add(readLine); } for (String line : lines) { out.println("> " + …
Testuję, jak część mojego kodu obsługuje złe dane i potrzebuję kilku serii bajtów, które mają nieprawidłowy kod UTF-8. Czy możesz opublikować jakieś, a najlepiej, wyjaśnienie, dlaczego są złe / gdzie je masz?
Do celów debugowania muszę rekurencyjnie przeszukiwać katalog dla wszystkich plików, które zaczynają się od znacznika kolejności bajtów UTF-8 (BOM). Moje obecne rozwiązanie to prosty skrypt powłoki: find -type f | while read file do if [ "`head -c 3 -- "$file"`" == $'\xef\xbb\xbf' ] then echo "found BOM in: $file" …
Próbuję odczytać plik CSV ze znakami akcentowanymi w języku Python (tylko znaki francuskie i / lub hiszpańskie). W oparciu o dokumentację Pythona 2.5 dla csvreadera ( http://docs.python.org/library/csv.html ) wymyśliłem następujący kod do odczytu pliku CSV, ponieważ csvreader obsługuje tylko ASCII. def unicode_csv_reader(unicode_csv_data, dialect=csv.excel, **kwargs): # csv.py doesn't do Unicode; encode …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.