Na podstawie otrzymanych komentarzy przyjrzałem się temu nieco dokładniej. Wygląda na to, że obecnie najlepszą praktyką jest rezygnacja z używania encji HTML i użycie zamiast tego rzeczywistego znaku UTF-8 . Wymienione powody są następujące:
- Kodowania UTF-8 są łatwiejsze do odczytania i edycji dla tych, którzy rozumieją znaczenie znaku i wiedzą, jak go wpisać.
- Kodowania UTF-8 są tak samo niezrozumiałe jak kodowanie encji HTML dla tych, którzy ich nie rozumieją, ale mają tę zaletę, że renderują je jako znaki specjalne, a nie trudne do zrozumienia kodowania dziesiętne lub szesnastkowe.
Jeśli kodowanie Twojej strony jest poprawnie ustawione na UTF-8, powinieneś używać rzeczywistego znaku zamiast encji HTML. Przeczytałem kilka dokumentów na ten temat, ale najbardziej pomocne były:
Z artykułu UTF-8: The Secret of Character Encoding :
Wikipedia to świetne studium przypadku dla aplikacji, która pierwotnie korzystała z ISO-8859-1, ale przeszła na UTF-8, kiedy stała się zbyt uciążliwa do obsługi języków obcych. Boty będą teraz faktycznie przeglądać artykuły i konwertować jednostki postaci na odpowiadające im rzeczywiste postacie ze względu na łatwość obsługi i możliwość wyszukiwania .
Ten artykuł zawiera również dobry przykład dotyczący kodowania w języku chińskim. Oto przykład skrócony ze względu na lenistwo:
UTF-8:
這兩個字是甚麼意思
Jednostki HTML :
這兩個字是甚麼意思
Kodowanie encji UTF-8 i HTML jest dla mnie bez znaczenia, ale przynajmniej kodowanie UTF-8 jest rozpoznawalne jako język obcy i będzie poprawnie renderowane w polu edycji. Artykuł mówi dalej o wersji zakodowanej w formacie HTML:
Niezwykle niewygodne dla tych z nas, którzy naprawdę wiedzą, czym są jednostki postaci, zupełnie niezrozumiałe dla biednych użytkowników, którzy tego nie robią! Nawet nieco bardziej przyjazne dla użytkownika, „zrozumiałe” jednostki znakowe, takie jak & theta; sprawi, że użytkownicy, którzy nie są zainteresowani nauką języka HTML, będą drapać się po głowach. Z drugiej strony, jeśli zobaczą θ w polu edycji, będą wiedzieć, że jest to znak specjalny i odpowiednio go potraktują, nawet jeśli sami nie wiedzą, jak napisać tę postać.
Jak zauważyli inni, nadal musisz używać encji HTML dla zarezerwowanych znaków XML (ampersand, mniej niż, większe niż).