Według Wikipedii :
Entropia Shannona mierzy informacje zawarte w wiadomości, a nie część wiadomości, która jest określona (lub przewidywalna). Przykłady tych ostatnich obejmują nadmiarowość w strukturze języka lub właściwości statystyczne związane z częstotliwościami występowania par liter lub słów, trojaczków itp.
Zatem entropia jest miarą ilości informacji zawartych w wiadomości. Kodery entropijne są używane do bezstratnej kompresji takiego komunikatu do minimalnej liczby bitów potrzebnej do jego przedstawienia (entropia). Dla mnie wygląda to na idealny koder entropii, który byłby potrzebny do bezstratnego kompresowania wiadomości tak bardzo, jak to możliwe.
Wiele algorytmów kompresji wykorzystuje jednak kroki przed kodowaniem entropijnym, aby rzekomo zmniejszyć entropię wiadomości.
Według niemieckiej Wikipedii
Entropiekodierer werden häufig mit anderen Kodierern kombiniert. Dabei dienen vorgeschaltete Verfahren dazu, die Entropie der Daten zu verringern.
Po angielsku:
Kodery Entropy są często łączone z innymi koderami. Poprzednie kroki służą zmniejszeniu entropii danych.
tj. bzip2 używa transformacji Burrowsa-Wheelera, a następnie transformacji Move-To-Front-Transform przed zastosowaniem kodowania entropijnego (w tym przypadku kodowania Huffmana).
Czy te kroki naprawdę zmniejszają entropię wiadomości, co oznaczałoby zmniejszenie ilości informacji zawartych w wiadomości? Wydaje mi się to sprzeczne, ponieważ oznaczałoby to utratę informacji podczas kompresji, zapobiegając bezstratnej dekompresji. A może po prostu przekształcają komunikat w celu poprawy wydajności algorytmu kodowania entropii? Czy też entropia nie odpowiada bezpośrednio ilości informacji zawartych w wiadomości?