Standard Unicode ma wystarczającą liczbę punktów kodowych, że potrzebujesz 4 bajtów, aby je wszystkie zapisać. To właśnie robi kodowanie UTF-32. Jednak kodowanie UTF-8 w jakiś sposób wciska je do znacznie mniejszych przestrzeni, używając czegoś, co nazywa się „kodowaniem o zmiennej szerokości”.
W rzeczywistości udaje mu się przedstawić pierwsze 127 znaków US-ASCII w jednym bajcie, który wygląda dokładnie jak prawdziwy ASCII, więc możesz interpretować wiele tekstu ascii tak, jakby był to UTF-8, nie robiąc nic z tym. Sztuczka. Jak to działa?
Mam zamiar zadać i odpowiedzieć tutaj na moje własne pytanie, ponieważ właśnie trochę przeczytałem, aby to zrozumieć i pomyślałem, że może to zaoszczędzić komuś trochę czasu. Poza tym może ktoś może mnie poprawić, jeśli coś źle zrozumiałem.