Konwerter Unicode UTF

Celem jest stworzenie w pełni zgodnego konwertera między oficjalnymi kodowaniami Unicode, jak podano w FAQ UTF . Biorąc pod uwagę, że jest on wyśrodkowany na Unicode, zaakceptuję odpowiedź o najniższej liczbie bajtów przy użyciu najlepszego możliwego kodowania (prawdopodobnie będzie to UTF-8, chyba że programujesz go w APL). Przepraszam za długi post, ale wiele z nich wyjaśnia kodowania, do których można również uzyskać dostęp w oficjalnej specyfikacji (pdf, sekcja 3.9 D90 - D92) lub Wikipedia .

Dane techniczne

Jeśli w dowolnym momencie twój wybrany język nie może dokładnie spełnić wymagań, zastąp go czymś, co trzyma się ducha podanych zasad. Na przykład. nie każdy język ma wbudowane tablice, funkcje itp.

Brak korzystania z bibliotek / funkcji ciągów lub bibliotek / funkcji kodowania. Celem tego kodu golfa jest implementacja konwertera za pomocą manipulacji bitami / bajtami. Dozwolone jest jednak używanie samych łańcuchów jako tablicy znaków lub bajtów. Aha, i żadnych wywołań systemu operacyjnego, które wykonałyby konwersję.
Konwerter jest funkcją, która przyjmie trzy parametry: tablicę bajtów reprezentującą zakodowany ciąg wejściowy oraz kodowania „wejściowe” i „wyjściowe” przedstawione w postaci liczb. Arbitralnie przypiszemy UTF-8, UTF-16, UTF-16BE, UTF-16LE, UTF-32, UTF-32BE, and UTF32LEliczby od 0 do 6 w tej kolejności. Nie ma potrzeby sprawdzania, czy liczba jest równa < 0lub > 6, zakładamy, że parametry te są prawidłowe. Konwerter zwróci prawidłową tablicę bajtów w żądanym kodowaniu wyjściowym.
Użyjemy znaku null ( U+0000) jako terminatora łańcucha. Wszystko po tym nie ma znaczenia. Zakładamy, że tablica wejściowa ma gdzieś znak zerowy, więc nie trzeba sprawdzać granic.
Zgodnie z często zadawanymi pytaniami , jeśli tablica bajtów wejściowych jest nieprawidłowa dla zadeklarowanego kodowania, musimy zasygnalizować błąd. Zrobimy to w jeden z następujących sposobów: zawiesimy program, wyrzucimy wyjątek, zwrócimy null lub zwrócimy tablicę, której pierwsze cztery bajty mają wartość 0 (aby można było ją rozpoznać jak U+0000w każdym kodowaniu).

Kodowania

Należy przestrzegać oficjalnych specyfikacji, ale Wikipedia zapewnia dobre (i, o ile uważam, poprawne) wyjaśnienie kodowania, i streszczę je tutaj dla kompletności. Zauważ, że UTF-16 i UTF-32 mają warianty endianizmu .

UTF-32, UTF-32LE, UTF-32BE

Najprostsze kodowanie, każdy punkt kodowy jest po prostu zakodowany w 4 bajtach równych jego wartości liczbowej. LE / BE oznacza endianness (little endian / big endian).

UTF-16, UTF-16LE, UTF-16BE

Punkty kodowe z U+0000 - U+FFFFsą zakodowane w 2 bajtach równych wartości liczbowej. Większe wartości są kodowane przy użyciu pary surogatów, które są zastrzeżonymi wartościami z U+D800 - U+DFFF. Aby zakodować punkty większe niż U+FFFF, można użyć następującego algorytmu (bezwstydnie skopiowanego z Wikipedii ):

0x010000 jest odejmowane od punktu kodowego, pozostawiając 20-bitową liczbę w zakresie 0..0x0FFFFF.

Dziesięć górnych bitów (liczba w zakresie 0..0x03FF) dodaje się do 0xD800, aby dać pierwszą jednostkę kodu lub wiodące surogat, który będzie w zakresie 0xD800..0xDBFF [...].

Dziesięć niskich bitów (również w zakresie 0..0x03FF) dodaje się do 0xDC00, aby dać drugą jednostkę kodu lub zastępczą ścieżkę, która będzie w zakresie 0xDC00..0xDFFF [...].

UTF-8

Punkty kodowe z U+0000 - U+007Fsą kodowane jako 1 bajt równy wartości liczbowej. Od U+0080 - U+07FFsą one zakodowane jako 110xxxxx 10xxxxxx, U+0800 - U+FFFFjest 1110xxxx 10xxxxxx 10xxxxxx, wyższe wartości 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx. Thex są bitami od wartości liczbowej punktu kodowego.

BOM

Znak kolejności bajtów (BOM, U+FEFF) jest używany jako pierwszy punkt kodowy do wskazania endianizmu. Zgodnie z wytycznymi FAQ dotyczącymi BOM , BOM będzie używany w następujący sposób: UTF-8, UTF-16 and UTF-32ponieważ jest opcjonalny. Jeśli BOM jest nieobecny w UTF-16lub UTF-32, zakłada się, że jest to duży endian. LM nie może pojawić się w UTF-16LE, UTF-16BE, UTF-32LE and UTF-32BE.

Typowe pułapki powodujące nieprawidłowy UTF

Różne rzeczy mogą powodować, że sekwencja bajtów jest niepoprawna UTF.

UTF-8 i UTF-32: Bezpośrednie kodowanie zastępczych punktów kodowych ( U+D800 - U+DFFF) lub punktów kodowych większych niż U+10FFFF.
UTF-8: Wiele nieprawidłowych sekwencji bajtów.
UTF-16: Niesparowane lub niewłaściwie sparowane zastępcze.
BOM: Należy użyć zgodnie z opisem w sekcji dotyczącej kodowania. Zauważ, że kiedy wypisujesz UTF-16lub UTF-32(nie określono nieodłącznego endianizmu) możesz wybrać, ale z małym endianem ty musisz dołączyć BOM.

Zauważ, że niepoznakowe i nieprzypisane punkty kodowe (oba różne od zastępczych) należy traktować jak zwykłe znaki.

code-golf unicode

— DPenner 1
źródło

„Brak używania bibliotek / funkcji ciągów lub bibliotek / funkcji kodowania”. Co z prawdziwymi wbudowanymi funkcjami. W APL ''⎕R''⍠'InEnc' 'UTF16BE' 'OutEnc' 'UTF8-BOM'.

— Adám

@NBZ Nie byłyby one dozwolone, ponieważ celem tego wyzwania jest wdrożenie zachowania, które zapewniają.

— DPenner1

Uwaga dla osób udzielających odpowiedzi: z grubsza zrezygnowałem z tego pytania, ale biorąc pod uwagę ostatnio wznowione zainteresowanie, w najbliższych dniach poświęcę trochę czasu na zapoznanie się z odpowiedziami.

— DPenner1

Odpowiedzi:

C ++, (UTF-8) 971 bajtów

#include<cstdint>
using u=uint8_t;using U=uint32_t;U i,o,x,b,m;U R(u*&p){x=*p++;if(!i){m=0;while(128>>m&x)++m;if(m>1)for(x&=127>>m;--m;)x=x<<6|((*p&192)-128?~0:*p++&63);return m?x=~0:x;}else if(i<3){x<<=8;x+=*p++;}else if(i<4){x+=*p++<<8;}else if(i<6){x<<=24;x+=*p++<<16;x+=*p++<<8;x+=*p++;}else{x+=*p++<<8;x+=*p++<<16;x+=*p++<<24;}return x;}U r(u*&p){U x0=R(p);if(i&&i<4&&x>>10==54)x=R(p)>>10==55?(x0<<10)+x-56613888:~0;if(!b++){if(x==65279)if(!i||i%3==1)r(p);else x=~0;else if(x==65534&&i==1)i=3,r(p);else if(x==4294836224&&i==4)i=6,r(p);}return x>1114111||x>>11==27?x=~0:x;}void w(U x,u*&p){if(!o){if(x<128)*p++=x;else{for(m=0;~63<<m&x;m+=6);for(*p++=~127>>m/6|x>>m;m;)*p++=128|x>>(m-=6)&63;}}else if(o<4&&x>65535)x-=65536,w(55296|x>>10,p),w(56320|x&1023,p);else if(o<3)*p++=x>>8,*p++=x;else if(o<4)*p++=x,*p++=x>>8;else if(o<6)*p++=x>>24,*p++=x>>16,*p++=x>>8,*p++=x;else*p++=x,*p++=x>>8,*p++=x>>16,*p++=x>>24;}int t(u*&p,u*&q){for(b=0,x=1;U(x+x);)w(r(p),q);return x;}

Czytelny program poniżej można skondensować do powyższej postaci, filtrując go za pomocą następującego polecenia Perl:

perl -p0 -e 's!//.*!!g;s/\s+/ /g;s/ \B|\B //g;s/0x[\da-f]+/hex($&)/ige;s/#include<[^<>]+>/\n$&\n/g;s/^\n+//mg'

Powyższe polecenie

usuwa komentarze
usuwa niepotrzebne białe znaki
konwertuje literały szesnastkowe na dziesiętne
przywraca nowe #includelinie wokół linii

Czytelny kod

#include <cstdint>
using u = uint8_t;
using U = uint32_t;

U   i,                          // input encoding
    o,                          // output encoding
    x,                          // last read value
    b,                          // char count(BOM only valid when b==0)
    m;                          // temporary variable for measuring UTF-8

//   Encodings:
// 0 UTF-8
// 1 UTF-16
// 2 UTF-16BE
// 3 UTF-16LE
// 4 UTF-32
// 5 UTF-32BE
// 6 UTF-32LE

// Read a character or UTF-16 surrogate
U R(u*& p) {
    x = *p++;
    if (!i) { // UTF-8
        m=0; while (128>>m&x) ++m; // how many bytes?
        if (m>1) for (x&=127>>m; --m; ) x = x<<6 | ((*p&192)-128?~0:*p++&63);
        return m ? x=~0 : x;
    } else if (i<3) { // UTF-16, UTF-16BE
        x<<=8; x+=*p++;
    } else if (i<4) { // UTF-16LE
        x+=*p++<<8;
    } else if (i<6) { // UTF-32, UTF-32BE
        x<<=24; x+=*p++<<16; x+=*p++<<8; x+=*p++;
    } else { // UTF-32LE
        x+=*p++<<8; x+=*p++<<16; x+=*p++<<24;
    }
    return x;
}

// Read a character, combining surrogates, processing BOM, and checking range
U r(u*& p) {
    U x0 = R(p);
    if (i && i<4 && x>>10==54)
        x = R(p)>>10==55 ? (x0<<10)+x-56613888: ~0; // 56613888 == 0xd800<<10 + 0xdc00 - 0x10000
    if (!b++) {                 // first char - is it BOM?
        if (x==0xFEFF)
            if (!i || i%3==1)
                r(p); // BOM in UTF-8 or UTF-16 or UTF-32 - ignore, and read next char
            else
                x = ~0; // not allowed in these modes
        else if (x==0xFFFE && i==1)
            i=3,r(p); // reversed BOM in UTF-16 - change to little-endian, and read next char
        else if (x==0xFFFE0000 && i==4)
            i=6,r(p); // reversed BOM in UTF-32 - change to little-endian, and read next char
    }
    return x>0x10ffff || x>>11==27 ? x=~0 : x;
}


// Write character(assumed in-range)
void w(U x, u*& p) {
    if (!o) { // UTF-8
        if (x<128) *p++=x;        // ASCII
        else {
            for (m=0; ~63<<m&x; m+=6); // how many bits?
            for (*p++=~127>>m/6|x>>m; m; ) *p++ = 128|x>>(m-=6)&63;
        }
    } else if (o<4 && x>65535)  // UTF-16 surrogate
        x-=65536, w(0xD800|x>>10,p), w(0xDC00|x&0x3FF,p);
    else if (o<3)  // UTF-16, UTF-16BE
        *p++=x>>8, *p++=x;
    else if (o<4)  // UTF-16LE
        *p++=x, *p++=x>>8;
    else if (o<6)  // UTF-32, UTF-32BE
        *p++=x>>24, *p++=x>>16, *p++=x>>8, *p++=x;
    else  // UTF-32LE
        *p++=x, *p++=x>>8, *p++=x>>16, *p++=x>>24;
}

// Transcode
int t(u*& p, u*& q)                  // input, output
{
    for (b=0,x=1;U(x+x);)    // exit condition is true only for x==-x, i.e. 0 and ~0
        w(r(p),q);
    return x;
}

Funkcja nazywać to t(), ze kodowanie wejściowe i wyjściowe przekazywane w zmiennych globalnych ii oodpowiednio, i pwskazując na bajtów wejściowych, które musi być zakończony zerem. qwskazuje bufor wyjściowy, który zostanie zastąpiony i musi być wystarczająco duży, aby uzyskać wynik - nie ma próby uniknięcia przekroczenia bufora.

Mam nadzieję, że komentarze do kodu są wystarczająco objaśniające - zapytaj poniżej, czy któryś z nich jest zbyt tajemniczy (ale najpierw spróbuj!).

Opracowując tę odpowiedź, opracowałem obszerny zestaw testów; Zamieszczam go poniżej na korzyść innych uczestników oraz w celu udokumentowania mojej interpretacji wymagań:

Funkcje testowe

#include <vector>
#include <iostream>

std::ostream& operator<<(std::ostream& out, const std::vector<u>& v)
{
    out << "{ ";
    for (int i: v) out << i << " ";
    out << "}";
    return out;
}

int test_read(int encoding, std::vector<u> input, U expected)
{
    b = 0;
    i = encoding;
    auto d = input.data();
    U actual = r(d);
    if (actual == expected) return 0;
    std::cerr << std::hex << "Decoding " << encoding << "; " << input << " gave " << actual
              << " instead of " << expected << std::endl;
    return 1;
}

int test_write(int encoding, U input, std::vector<u> expected)
{
    o = encoding;
    u buf[20], *p = buf;
    w(input, p);
    std::vector<u> actual(buf,p);
    if (expected == actual) return 0;
    std::cerr << std::hex << "Encoding " << encoding << "; " << input << " gave " << actual
              << " instead of " << expected << std::endl;
    return 1;
}

int test_transcode(int ienc, std::vector<u> input, int oenc, std::vector<u> expected)
{
    b = 0;
    i = ienc; o = oenc;
    u buf[200], *p = buf, *d = input.data();
    int result = t(d, p);
    std::vector<u> actual(buf,p);
    if (result ? expected.empty() : expected == actual) return 0;
    std::cerr << std::hex << "Encoding " << ienc << " to " << oenc << "; " << input << " gave " << actual
              << " instead of " << expected << std::endl;
    return 1;
}

Zestaw testowy

static const U FAIL = ~0;
int main() {
    int e = 0;                        // error count
    // UTF-8
    e += test_read(0, { 128 }, FAIL); // unexpected continuation
    e += test_read(0, { 128, 1 }, FAIL);
    e += test_read(0, { 128, 128 }, FAIL);
    e += test_read(0, { 192, 192 }, FAIL); // start without continuation
    e += test_read(0, { 192, 0 }, FAIL);
    e += test_read(0, { 224, 0 }, FAIL);
    e += test_read(0, { 224, 192 }, FAIL);
    e += test_read(0, { 0xf4, 0x90, 128, 128 }, FAIL); // Unicode maximum+1

    e += test_read(0, { 127 }, 127);
    e += test_read(0, { 192, 129 }, 1); // We accept overlong UTF-8
    e += test_read(0, { 0xc2, 128 }, 128);
    e += test_read(0, { 224, 128, 129 }, 1);
    e += test_read(0, { 0xef, 128, 128 }, 0xF000);
    e += test_read(0, { 0xef, 191, 191 }, 0xFFFF);
    e += test_read(0, { 0xf4, 128, 128, 128 }, 0x100000);
    e += test_read(0, { 0xf4, 0x8f, 191, 191 }, 0x10FFFF); // Unicode maximum

    e += test_read(0, { 0xEF, 0xBB, 0xBF, 127 }, 127); // byte-order mark

    e += test_write(0, 0, { 0 });
    e += test_write(0, 127, { 127 });
    e += test_write(0, 128, { 0xc2, 128 });
    e += test_write(0, 255, { 0xc3, 191 });
    e += test_write(0, 0xFFFF, { 0xef, 191, 191 });
    e += test_write(0, 0x10FFFF, { 0xf4, 0x8f, 191, 191 });

    // UTF-16
    e += test_read(1, { 0, 1 }, 1);
    e += test_read(1, { 0xd8, 0, 0xdc, 1 }, 0x10001);
    e += test_read(1, { 0xdb, 0xff, 0xdf, 0xff }, 0x10ffff);

    e += test_read(1, { 0xd8, 0, 0xd8, 1 }, FAIL); // mismatched surrogate
    e += test_read(1, { 0xd8, 0, 0, 1 }, FAIL); // mismatched surrogate
    e += test_read(1, { 0xdc, 0 }, FAIL);

    e += test_write(1, 1, { 0, 1 });
    e += test_write(1, 256, { 1, 0 });
    e += test_write(1, 0xffff, { 255, 255 });
    e += test_write(1, 0x10001, { 0xd8, 0, 0xdc, 1 });
    e += test_write(1, 0x10ffff, { 0xdb, 0xff, 0xdf, 0xff });

    // UTF-16LE
    e += test_write(3, 1, { 1, 0 });
    e += test_write(3, 256, { 0, 1 });
    e += test_write(3, 0x10001, { 0, 0xd8, 1, 0xdc });
    e += test_write(3, 0x10fffe, { 0xff, 0xdb, 0xfe, 0xdf });

    // UTF-16 byte-order mark
    e += test_read(1, { 0xFE, 0xFF, 0x0, 1 }, 1); // byte-order mark
    e += test_read(1, { 0xFF, 0xFE, 1, 0x0 }, 1); // reversed byte-order mark
    // disallowed byte-order marks
    e += test_read(2, { 0xFE, 0xFF }, FAIL);
    e += test_read(3, { 0xFF, 0xFE }, FAIL);
    // reversed byte-order mark is an unassigned character - to be treated like regular character, according to question
    e += test_read(2, { 0xFF, 0xFE }, 0xfffe);
    e += test_read(3, { 0xFE, 0xFF }, 0xfffe);

    // UTF-32
    e += test_read(4, { 0, 0, 0, 1 }, 1);
    e += test_read(4, { 1, 0, 0, 0 }, FAIL);
    e += test_write(4, 1, { 0, 0, 0, 1 });
    e += test_write(4, 0x10203, { 0, 1, 2, 3 });

    // UTF-32LE
    e += test_read(6, { 0, 0, 0, 1 }, FAIL);
    e += test_read(6, { 1, 0, 0, 0 }, 1);

    // UTF-32 byte-order mark
    e += test_read(4, { 0, 0, 0xFE, 0xFF,  0, 0, 0, 1 }, 1); // byte-order mark
    e += test_read(4, { 0xFF, 0xFE, 0, 0,  1, 0, 0, 0 }, 1); // reversed byte-order mark
    // disallowed byte-order marks
    e += test_read(5, { 0, 0, 0xFE, 0xFF }, FAIL);
    e += test_read(5, { 0xFF, 0xFE, 0, 0 }, FAIL);
    e += test_read(6, { 0, 0, 0xFE, 0xFF }, FAIL);
    e += test_read(6, { 0xFF, 0xFE, 0, 0 }, FAIL);

    e += test_transcode(1, { 1, 2, 0xFE, 0xFF, 0, 0 }, // That's not a BOM; it's a zwnj when not the first char
                        1, { 1, 2, 0xFE, 0xFF, 0, 0 });
    e += test_transcode(1, { 0xFF, 0xFE, 1, 2, 0, 0 }, // reversed byte-order mark implies little-endian
                        1, { 2, 1, 0, 0 });
    e += test_transcode(4, { 0xFF, 0xFE, 0, 0, 1, 2, 0, 0, 0, 0 }, // reversed BOM means little-endian
                        4, { 0, 0, 2, 1, 0, 0, 0, 0 });
    e += test_transcode(1, { 0xdb, 0xff, 0xdf, 0xff, 0, 0 }, // U+10ffff UTF-16 to UTF-8
                        0, { 0xf4, 0x8f, 191, 191, 0 });

    return e;
}

— Toby Speight
źródło

Dang .. C ++ pokonał Pythona.

— TickTock

Python - 1367 znaków UTF-8

W porządku! Było to niezwykle trudne pytanie ze względu na ogrom pracy, jaką wymagało zrozumienie i wdrożenie wszystkich specyfikacji, ale myślę, że mam poprawną implementację.

O,P,Q,R=65536,128,b'\xff\xfe\x00\x00',63
def A(x,y):assert x;return y
def B(x):
    o,c=[],0
    for b in x:
        if c:c,v=c-1,A(127<b<192,v<<6)|(b-P)
        else:
            c,v=(b>127)+(b>223)+(b>239),b
            if b>127:v=A(191<b<248,b&(R>>c))
        o+=[v][c:]
    return o[o[0]in(65279,O-2):]
def C(k):
    def o(x,s=None):
        for a,b in zip(x[k::2],x[1-k::2]):
            d=a|(b<<8)
            if s!=None:yield(A(56319<d<57344,d-56320)|(s<<10))+O;s=None
            elif 55295<d<57344:s=A(s<1024,d-55296)
            else:yield d
    return o
def D(x):n=(2,3,1)[[Q[:2],Q[1::-1],x[:2]].index(x[:2])];return C(n&1)(x[n&2:])
E=lambda a,b,c,d:lambda x:[L|(l<<8)|(m<<16) for L,l,m in zip(x[a::4],x[b::4],x[c::4])]
def F(x):n,m=((1,4),(-1,4),(-1,0))[[Q,Q[::-1],x[:4]].index(x[:4])];return E(*range(4)[::n])(x[m:])
S=lambda x,s=0,a=255:(x>>s)&a
G=lambda e:(e,)if e<P else(192|S(e,6),P|(e&R))if e<2048 else(224|S(e,12),P|S(e,6,R),P|(e&R))if e<O else(240|S(e,18),P|S(e,12,R),P|S(e,6,R),P|(e&R))
H=lambda e:(S(e,8),S(e))if e<O else(216|S(e-O,18),S(e-O,10),220+S((e-O)&1023,8),S(e-O))
I=lambda e:(S(e),S(e,8))if e<O else(S(e-O,10),216|S(e-O,18),S(e-O),220+S((e-O)&1023,8))
J=lambda e:(S(e,24),S(e,16),S(e,8),S(e))
K=lambda e:(S(e),S(e,8),S(e,16),S(e,24))
convert=lambda d,i,o:bytes(sum(map(L[o],N(list(M[i](d)))),()))if d else d
L,M=[G,H,H,I,J,J,K],[B,D,C(1),C(0),F,E(3,2,1,0),E(0,1,2,3)]
N=lambda d:[A(-1<x<1114112 and x&~2047!=55296,x)for x in d]

convertto funkcja, która pobiera obiekt „bajty” danych, identyfikator wejściowy i identyfikator wyjściowy. Wygląda na to, że działa - chociaż wydaje się, że Python ma nieco zepsute użycie BOM, gdy nie jest określony w kodowaniu, więc użycie wbudowanego kodowania Pythona do testowania trybów 1 i 4 nie będzie działać.

Ciekawostka: rozmiar to również 555 ₁₆ lub 10101010101 ₂ .

773 znaków do dekodowania, 452 do kodowania, 59 do weryfikacji i 83 do różnych części.

— Cel Skeggs
źródło

@TrangOul: Ogólnie rzecz biorąc, trywialne zmiany (takie jak tagowanie języka) są niezadowolone.

— Zach Gates

@ZachGates ktoś musi to zrobić bez względu na to, czy będzie to <1000 powtórzeń użytkowników, czy> 1000 powtórzeń użytkowników, i że ktoś jest społecznością

— kot

To pytanie / odpowiedź nie pokazuje konsensusu społeczności. W całej sieci marne są takie trywialne zmiany. Użytkownicy <1000 ani> 1000 powtórzeń nie powinni wprowadzać tych zmian, chyba że wyraźnie poprawią zawartość lub format. Najlepiej trzymać się na rzeczy jak edycja tagów pojedynczych korekt językowych, Word / zmian itp @cat

— Zach Gates

Myślę, że rozmiar nie jest już 0x555 :-(. Ale możesz podejść bliżej używając standardowej wskazówki Python-golfa, używając jednej spacji dla wcięć.

— Toby Speight

@TobySpeight to teraz 0x557, masz rację. I faktycznie użyłem tabulatorów, które musiały zostać przekonwertowane na spacje do publikowania, ale nadal liczą się jako jedna postać. Zobaczę, czy uda mi się ogolić kilka postaci w inny sposób, kiedy będę miał szansę.

— Cel Skeggs,

Python 3, 1138 bajtów (UTF-8)

Okazuje się więc, że 14 godzin podróży międzynarodowych to fantastyczna okazja do ukończenia gry w golfa ...

Funkcja konwersji to C(). Wywołuje to u(), v()i w()do dekodowania oraz U(), V()i W()do kodowania odpowiednio UTF-8, -16 i -32. Żaden z koderów nie wyświetli BOM, ale wszystkie dekodery poprawnie go obsługują. Warunki błędu powodują wyjątek (zwykle ZeroDivisionErrordzięki uprzejmości funkcji „umierać nagle” E()).

from struct import*
l=len
j=''.join
b=lambda c:[*bin(c)[2:]]
P,Q,i,o,z,Z='HI10><'
B=65279
O,F,H,L,X=1024,65536,55296,56320,57344
E=lambda:1/0
R=lambda y,e,c,n:unpack(([[z,Z][y[:n]==pack(Z+c,B)],e][l(e)])+c*(l(y)//n),y)
S=lambda d,e:B!=d[0]and d or e and E()or d[1:]
def u(y,d=(),p=0):
 while p<l(y):
  q=b(y[p])
  if l(q)>7:
   x=q.index(o);C=1<x<5and q[x+1:]or E();X=x+p;X>l(y)>E();p+=1
   while p<X:q=b(y[p]);C=l(q)>7and(i,o==q[:2])and(*C,*q[2:])or E();p+=1
   d=*d,int(j(C),2)
  else:d=*d,y[p];p+=1
 return S(d,0)
def T(p):
 q=b(p);C=()
 while l(q)not in(7,11,16,21):q=o,*q
 while l(q)>6:C=int(i+o+j(q[-6:]),2),*C;q=q[:-6]
 return bytes(p<128and[p]or[int(i*(7-l(q))+o+j(q),2),*C])
U=lambda c:b''.join(map(T,c))
def v(y,e=''):
 c=R(y,e,P,2);d=[];n=0
 while n<l(c)-1:h,a=c[n:n+2];D=[(h,a),(F+(h-H)*O+a-L,)][H<=h<L<=a<X];M=3-l(D);n+=M;d+=D[:M]
 if n<l(c):d=*d,c[n]
 return S(d,e)
V=lambda c,e=z:W(sum(map(lambda p:([H+(p-F)//O,L+(p-F)%O],[p])[p<F],c),[]),e,P)
w=lambda y,e='':S(R(y,e,Q,4),e)
W=lambda c,e=z,C=Q:pack(e+C*l(c),*c)
K=(u,U),(v,V),(v,V,z),(v,V,Z),(w,W),(w,W,z),(w,W,Z)
def C(y,f,t):f,_,*a=K[f];_,t,*b=K[t];return t(f(y,*a),*b)

— Tim Pederick
źródło