W twoim doświadczeniu, które znaki Unicode, punkty kodowe, zakresy poza BMP (Basic Multilingual Plane) są do tej pory najpowszechniejsze? Są to te, które wymagają 4 bajtów w UTF-8 lub surogatów w UTF-16.
Spodziewałbym się, że odpowiedzią będą chińskie i japońskie znaki używane w nazwach, ale nie zawarte w najbardziej rozpowszechnionych wielobajtowych zestawach znaków CJK, ale w projekcie, nad którym pracuję najwięcej, w angielskim Wikisłowniku, odkryliśmy, że alfabet gotycki jest jak dotąd znacznie bardziej powszechne.
AKTUALIZACJA
Napisałem kilka narzędzi programowych do skanowania całych Wikipedii w poszukiwaniu znaków innych niż BMP i ze zdziwieniem stwierdziłem, że nawet w japońskiej Wikipedii alfabet gotycki jest najbardziej powszechny. Dotyczy to również chińskiej Wikipedii, ale zawierała również wiele chińskich znaków używanych do 50 lub 70 razy, w tym „𨭎”, „𠬠” i „𩷶”.