Edycja: pytanie brzmi teraz „miliony nowych postaci”. Ułatwia to odpowiedź:
Nie . Utf-8 to kodowanie Unicode. Unicode ma przestrzeń kodową, która umożliwia 1114112 różnych punktów kodowych , a mniej niż milion jest obecnie nieprzypisany. Dlatego nie można obsługiwać milionów nowych znaków w standardzie Unicode. Z definicji żadne kodowanie Unicode nie może obsłużyć większej liczby znaków niż to, które jest zdefiniowane przez Unicode. (Oczywiście możesz oszukiwać, kodując dalej poziom - każdy rodzaj danych może być reprezentowany przez zaledwie dwa znaki).
Aby odpowiedzieć na oryginalne pytanie:
Unicode nie obsługuje języków jako takich, obsługuje znaki - symbole używane do reprezentowania języka w formie pisemnej.
Nie wszystkie języki ludzkie mają pisemną reprezentację, więc nie wszystkie języki ludzkie mogą być obsługiwane przez Unicode. Ponadto wiele zwierząt komunikuje się, ale nie ma języka pisanego. Na przykład wieloryby mają formę komunikacji, która jest wystarczająco złożona, aby wywoływać język, ale nie ma żadnej formy pisemnej (i nie może być uchwycona przez istniejącą notację fonetyczną). Dlatego nawet wszystkie języki na ziemi nie mogą być obsługiwane przez Unicode.
Jeszcze gorzej jest coś w rodzaju języka pszczół. Nie tylko nie ma formy pisemnej, ale nie może być w sposób znaczący reprezentowany w formie pisemnej. Język jest rodzajem tańca, który zasadniczo wskazuje kierunek, ale zależy od aktualnej pozycji słońca. Dlatego taniec ma wartość informacyjną tylko w określonym miejscu i czasie, w którym jest wykonywany. Symboliczne lub tekstowe przedstawienie musiałoby zawierać informacje (położenie, położenie słońca), których język pszczół obecnie nie jest w stanie wyrazić.
Nawet pisemna lub symboliczna forma komunikacji może nie być możliwa do przedstawienia w Unicode. Na przykład ilustracje lub komiksy bez słów nie mogą być obsługiwane przez Unicode, ponieważ zestaw glifów nie jest skończony. Zauważysz wiele obrazowej komunikacji w warunkach międzynarodowych, takich jak lotnisko, więc nie jest wykluczone, że rasa kosmitów podróżujących w kosmosie ewoluowała, używając języka obrazkowego.
Nawet jeśli obca rasa ma język z systemem pisania ze skończonym zestawem symboli, ten system może nie być obsługiwany w Unicode. Unicode oczekuje, że pisanie będzie liniową sekwencją symboli. Notacja muzyczna jest przykładem systemu pisania, który nie może być w pełni reprezentowany w Unicode, ponieważ znaczenie jest zakodowane zarówno w wyborze symboli, jak i w pionie i poziomie. (Unicode obsługuje pojedyncze symbole muzyczne, ale nie może zakodować partytury.) Obca rasa, która komunikowała się za pomocą muzyki polifonicznej (nierzadko) lub kanału komunikacji o podobnej złożoności, mogłaby równie dobrze mieć system zapisu przypominający partyturę orkiestrową, i Unicode nie obsługuje tego.
Ale dla argumentu załóżmy, że wszystkie języki, nawet języki obce, mogą być wyrażone jako liniowa sekwencja symboli wybranych ze zbioru skończonego. Czy Unicode jest wystarczająco duży, aby przeprowadzić inwazję kosmitów? Unicode ma obecnie mniej niż milion nieprzypisanych współrzędnych kodowych. Język chiński zawiera sto tysięcy znaków według najbardziej wyczerpującego chińskiego słownika (nie wszystkie z nich są obecnie obsługiwane przez Unicode jako odrębne znaki). Tak więc tylko dziesięć języków o złożonym języku chińskim zużyłoby cały Unicode. Na ziemi mamy setki różnych systemów pisma, ale na szczęście większość z nich ma charakter alfabetyczny niż ideograficzny i dlatego zawiera niewielką liczbę znaków. Gdyby wszystkie języki pisane używały ideogramów takich jak chiński, Unicode nie byłby nawet wystarczająco duży dla Ziemi. Używanie alfabetów wywodzi się z mowy, która używa tylko ograniczonej liczby fonemów, ale jest to szczególne w przypadku fizjologii człowieka. Tak więc nawet jedna obca planeta z zaledwie tuzinem ideograficznych systemów pisania może przekroczyć możliwości Unicode. Teraz zastanów się, czy ten obcy już zaatakował inne planety przed Ziemią i włączył swoje systemy pisania do zestawu znaków, które muszą być obsługiwane.
Rozszerzenie lub modyfikacja obecnych kodowań lub wprowadzenie nowych kodowań nie rozwiąże tego, ponieważ ograniczenie dotyczy liczby punktów kodowych obsługiwanych przez Unicode.
Więc odpowiedź brzmi najprawdopodobniej nie.