Czy klątwa wymiarowa działa na niektóre modele bardziej niż na inne?

Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje się zbyt wysokich i wydaje mi się, że zostałyby dotknięte przekleństwem wymiarowości. Ale wydaje się, że tak nie jest, ponieważ te modele czynią je najlepszymi w konkursach. Wracając do mojego pierwotnego pytania - czy niektóre modele są bardziej dotknięte przekleństwem wymiarowości niż inne?

W szczególności interesują mnie następujące modele (tylko dlatego, że są to te, o których jestem świadomy / których używałem):

Regresja liniowa i logistyczna
Drzewa decyzyjne / RandomForest / Boosted Trees
Sieci neuronowe
SVM
kNN
k-oznacza grupowanie

— Dileep Kumar Patchigolla
źródło

Krótka odpowiedź brzmi zdecydowanie tak, ale może chcesz modeli, którymi naprawdę jesteś zainteresowany? Jestem pewien, że społeczność CV może powiedzieć ci o tysiącach różnych typów modeli, na które wpływa klątwa wymiarowości. Zatem zawężenie uwagi do określonych typów modeli może pomóc w udzieleniu odpowiedzi na to pytanie.

@RustyStatistician - Dodałem kilka modeli, którymi jestem zainteresowany.

— Dileep Kumar Patchigolla,

Jestem bardzo zainteresowany tym pytaniem, ale pozostało bez odpowiedzi. Jak mogę pokazać to w widoczności, aby uzyskać odpowiedzi?

— Dileep Kumar Patchigolla,

Ogólnie rzecz biorąc, klątwa wymiarowa znacznie utrudnia przeszukiwanie przestrzeni i wpływa na większość algorytmów, które „uczą się” poprzez dzielenie przestrzeni wektorowej. Im większa wymiarowość naszego problemu optymalizacji, tym więcej danych potrzebujemy, aby wypełnić przestrzeń, nad którą optymalizujemy.

Uogólnione modele liniowe

Modele liniowe ogromnie cierpią z powodu przekleństwa wymiarowości. Modele liniowe dzielą przestrzeń na jedną płaszczyznę liniową. Nawet jeśli nie szukasz bezpośrednio obliczeniowej problem jakie jest nadal bardzo wrażliwe na kolinearności i może być uważany za „źle uwarunkowane” bez pewnego rodzaju uregulowania. W przestrzeniach o bardzo dużych wymiarach istnieje więcej niż jedna płaszczyzna, którą można dopasować do danych, a bez odpowiedniego rodzaju regularyzacji może bardzo źle zachowywać się w modelu. W szczególności regularyzacja próbuje zmusić do istnienia jednego unikalnego rozwiązania. Zarówno regularyzacja L1, jak i kwadratowa L2 próbują zminimalizować wagi i można je interpretować wybierając model o najmniejszych wagach, aby być najbardziej „poprawnym” modelem. Można to uznać za matematyczne sformułowanie Occams Razor.

\hat{β} = (X^{^{'}} X)^{- 1} X^{^{'}} y

$\hat{\beta} = (X^{'}X)^{-1}X^{'}y$

Drzewa decyzyjne Drzewa
decyzyjne również cierpią z powodu przekleństwa wymiarowości. Drzewa decyzyjne bezpośrednio dzielą przestrzeń próbki w każdym węźle. Wraz ze wzrostem przestrzeni próbnej rosną odległości między punktami danych, co znacznie utrudnia znalezienie „dobrego” podziału.

Losowe lasy
Losowe lasy używają kolekcji drzew decyzyjnych do przewidywania. Ale zamiast korzystać ze wszystkich funkcji problemu, pojedyncze drzewa używają tylko podzbioru funkcji. To minimalizuje przestrzeń, nad którą optymalizuje się każde drzewo i może pomóc w walce z problemem przekleństwa wymiarowości.

Algorytmy Boosted Tree, takie jak AdaBoost, cierpią z powodu przekleństwa wymiarów i mają tendencję do nadmiernego wykorzystania, jeśli nie stosuje się regularyzacji. Nie będę zagłębiał się, ponieważ post Czy AdaBoost jest mniej lub bardziej podatny na nadmierne dopasowanie? wyjaśnia powód, dlaczego lepiej niż mogłem.

Sieci neuronowe
Sieci neuronowe są dziwne w tym sensie, że na oba są i nie mają wpływu klątwa wymiarowości zależna od architektury, aktywacji, głębokości itp. Aby powtórzyć klątwę wymiarowości, problemem jest to, że ogromna liczba punktów jest potrzebna na wysokości wymiary pokrywające przestrzeń wejściową. Jednym ze sposobów interpretacji głębokich sieci neuronowych jest pomyślenie, że wszystkie warstwy oczekują, że ostatnia warstwa będzie wykonywać skomplikowane odwzorowanie wielowymiarowego rozgałęzienia na rozgałęzienie o niższym wymiarze, gdzie następnie ostatnia warstwa klasyfikuje się na wierzchu. Na przykład w sieci splotowej do klasyfikacji, w której ostatnia warstwa jest warstwą softmax, możemy interpretować architekturę jako wykonanie nieliniowej projekcji na mniejszy wymiar, a następnie wykonanie wielomianowej regresji logistycznej (warstwa softmax) na tej projekcji. W pewnym sensie skompresowana reprezentacja naszych danych pozwala nam ominąć przekleństwo wymiarowości. Ponownie, jest to jedna interpretacja, w rzeczywistości przekleństwo wymiarowości faktycznie wpływa na sieci neuronowe, ale nie na tym samym poziomie, co modele przedstawione powyżej.

SVM
SVM ma tendencję do nie przeciążania tak bardzo, jak uogólnionych modeli liniowych z powodu nadmiernej regularności. Sprawdź ten post SVM, Przebicie, przekleństwo wymiarów, aby uzyskać więcej szczegółów.

K-NN, K-oznacza

Zarówno na średnią K, jak i K-NN duży wpływ ma przekleństwo wymiarowości, ponieważ obaj używają miary odległości L2 do kwadratu. Wraz ze wzrostem liczby wymiarów rośnie również odległość między różnymi punktami danych. Dlatego potrzebujesz większej liczby punktów, aby pokryć więcej miejsca w nadziei, że odległość będzie bardziej opisowa.

Zapytaj mnie o szczegóły dotyczące modeli, ponieważ moje odpowiedzi są dość ogólne. Mam nadzieję że to pomoże.

— Armen Aghajanyan
źródło

Cześć Amen Świetne zwięzłe wyjaśnienia dla wszystkich modeli, o które prosiłem. Problemy z modelami liniowymi wciąż nie są dla mnie jasne: Czy modele liniowe działają lepiej czy gorzej niż modele k-NN i k-Means dla tego samego numeru: wymiarów? A kiedy powiedziałeś, że kolinearność jest problemem dla modeli liniowych, czy sugerujesz, że bez (lub minimalnej) kolinearności, wysokie wymiary nie stanowią problemu dla modeli liniowych?

— Dileep Kumar Patchigolla,

Trudno jest oszacować, czy modele liniowe będą działać lepiej niż k-nn lub k-średnie dla dowolnego problemu. Jeśli twój problem można rozwiązać liniowo, postawiłbym swoje zakłady na model liniowy, a jeśli twoja przestrzeń jest nieco bardziej skomplikowana, wybrałbym k-nn. Kolinearność pogarsza problem przekleństwa wymiarowości, nawet bez kolinearności nadal obowiązuje przekleństwo wymiarowości. Środki K powinny cierpieć w takim samym stopniu jak k-nn, ponieważ oba są napędzane przez sąsiadów i generalnie używają tej samej funkcji odległości. W rzeczywistości trudno jest oszacować, jak zły jest ChZT. Mam nadzieję że to pomoże!

— Armen Aghajanyan

Jaka jest twoja definicja klątwy wymiarowej (CoD)? Twoja odpowiedź wydaje się sugerować, że modele liniowe najbardziej cierpią z powodu CoD, jest to mylące: będąc metodą globalną, modele liniowe cierpią znacznie mniej niż metody zlokalizowane, takie jak KNN.

— Matifou