Ty pytasz:
- Czy to naprawdę możliwe, jak sugerują autorzy? Według artykułu ich wyniki są bardzo wydajne i zawsze kompresują dane do mniejszego rozmiaru. Czy rozmiar słownika nie będzie ogromny?
Tak oczywiście. Nawet w przypadku ręcznie wybranego przykładu („SZYBKI SREBRNY lis skacze nad leniwym psem”) nie osiągają kompresji, ponieważ słownik zawiera każdy 4-bajtowy ciąg tekstu (minus 4 bajty za jedno powtórzenie „ THE „)… i„ skompresowana ”wersja tekstu musi zawierać cały słownik oraz wszystkie te bzdury z liczbami pierwszymi.
- Czy nie można tego użyć do iteracyjnego ponownego skompresowania skompresowanych danych przy użyciu tego samego algorytmu? Jest oczywiste i zostało wykazane, że takie techniki (w których skompresowane dane są ponownie kompresowane tyle razy, ile to możliwe, radykalnie zmniejszając rozmiar pliku) są niemożliwe; w istocie nie byłoby żadnego bijectu między zbiorem wszystkich danych losowych a danymi skompresowanymi. Dlaczego więc wydaje się to możliwe?
Znowu wydaje się, że masz dobrą intuicyjną wiedzę na temat sytuacji. Intuicyjnie zorientowałeś się, że żaden schemat kompresji nie może być skuteczny na wszystkich wejściach, ponieważ gdyby tak było, moglibyśmy go stosować w kółko, aby skompresować dane wejściowe do jednego bitu - a potem do nicości!
Innymi słowy: po skompresowaniu wszystkich plików .wav do .mp3, nie uzyskasz żadnej poprawy ich rozmiaru poprzez skompresowanie ich. Jeśli Twój kompresor MP3 wykonał swoją pracę, nie będzie żadnych wzorów do wykorzystania przez kompresor ZIP.
(To samo dotyczy szyfrowania: jeśli wezmę plik zer i zaszyfruję go zgodnie z moim wybranym algorytmem kryptograficznym, wynikowy plik lepiej nie będzie podlegał kompresji , w przeciwnym razie mój algorytm szyfrowania wycieknie „wzorzec” na wyjście!)
- Nawet jeśli technika ta nie jest jeszcze doskonała, można ją oczywiście zoptymalizować i znacznie ulepszyć. Dlaczego nie jest to bardziej znane / badane? Jeśli rzeczywiście te twierdzenia i wyniki eksperymentów są prawdziwe, czy nie zrewolucjonizuje to przetwarzania?
Te twierdzenia i wyniki eksperymentów nie są prawdziwe.
Jak już zauważył Tom van der Zanden, „algorytm kompresji” Chakraborty, Kar i Guchait ma wadę polegającą na tym, że nie tylko nie osiąga żadnego współczynnika kompresji, ale jest również nieodwracalny (w matematyce „nie bijective”): istnieją mnogość tekstów, które wszystkie „kompresują” do tego samego obrazu, ponieważ ich algorytm to w zasadzie mnożenie, a mnożenie jest przemienne.
Powinieneś czuć się dobrze, że intuicyjne zrozumienie tych pojęć doprowadziło cię natychmiast do właściwego wniosku. A jeśli możesz poświęcić czas, powinieneś współczuć autorom artykułu, którzy wyraźnie spędzili dużo czasu na myśleniu na ten temat, nie rozumiejąc go wcale.
Katalog plików jeden poziom powyżej opublikowanego adresu URL zawiera 139 „artykułów” o tej samej jakości, wszystkie najwyraźniej przyjęte w „Postępach międzynarodowej konferencji na temat nowych badań w dziedzinie informatyki, informacji, komunikacji i aplikacji”. Wydaje się, że jest to pozorna konferencja zwykłego typu. Celem takich konferencji jest umożliwienie nieuczciwym naukowcom domagania się „publikacji w czasopiśmie”, a jednocześnie pozbawienie skrupułów organizatorów do zarobienia mnóstwo pieniędzy. (Aby uzyskać więcej informacji na temat fałszywych konferencji, sprawdź ten wątek reddit lub różne posty StackExchange na ten temat .) W każdej dziedzinie istnieją fałszywe konferencje . Naucz się ufać swoim instynktom i nie wierzyć we wszystko, co czytasz w „postępowaniu konferencyjnym”, a wszystko będzie dobrze.