Rozumiem, co to jest „klątwa wymiarowości”, i zrobiłem kilka problemów związanych z optymalizacją wymiarów i znam wyzwanie możliwości wykładniczych.
Wątpię jednak, czy „przekleństwo wymiarowości” istnieje w większości danych rzeczywistych (odłóżmy na chwilę zdjęcia lub filmy, myślę o danych takich jak dane demograficzne klientów i dane dotyczące zachowań zakupowych).
Możemy gromadzić dane z tysiącami funkcji, ale jest mniej prawdopodobne, że nawet niemożliwe, że funkcje mogą w pełni obejmować przestrzeń o tysiącach wymiarów. Dlatego techniki redukcji wymiarów są tak popularne.
Innymi słowy, jest bardzo prawdopodobne, że dane nie zawierają wykładniczego poziomu informacji, tj. Wiele cech jest silnie skorelowanych i wiele cech spełnia reguły 80-20 (wiele instancji ma tę samą wartość).
W takim przypadku uważam, że metody takie jak KNN nadal będą działać dość dobrze. (W większości książek „przekleństwo wymiarowości” mówi, że wymiar> 10 może być problematyczny. W swoich demach używają równomiernego rozkładu we wszystkich wymiarach, gdzie entropia jest naprawdę wysoka. Wątpię, czy w prawdziwym świecie to się kiedykolwiek wydarzy.)
Moje osobiste doświadczenie z rzeczywistymi danymi jest takie, że „klątwa wymiarowości” nie wpływa zbytnio na metodę szablonów (np. KNN) i w większości przypadków wymiary ~ 100 nadal działałyby.
Czy to prawda dla innych ludzi? (Pracowałem z prawdziwymi danymi w różnych branżach przez 5 lat, nigdy nie zauważyłem, że „wszystkie pary odległości mają podobne wartości” jak opisano w książce).