Dotyczy dużej liczby cech lub wymiarów (zmiennych) danych. (W przypadku dużej liczby punktów danych użyj tagu [large-data]; jeśli problem dotyczy większej liczby zmiennych niż danych, użyj tagu [underdetermined]).
Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?
Słyszałem wiele razy o przekleństwie wymiarowości, ale jakoś wciąż nie jestem w stanie zrozumieć tego pomysłu, wszystko jest mgliste. Czy ktoś może to wyjaśnić w najbardziej intuicyjny sposób, tak jak wyjaśniłbyś to dziecku, aby ja (i inni zdezorientowani jak ja) mogłem to zrozumieć na dobre? EDYTOWAĆ: Teraz powiedzmy, że dziecko …
Wcześniej zapytałem o to na StackOverflow, ale wydaje się, że może być bardziej odpowiednie tutaj, biorąc pod uwagę, że nie otrzymało żadnych odpowiedzi na SO. To trochę na styku statystyki i programowania. Muszę napisać kod, aby wykonać PCA (Principal Component Analysis). Przejrzałem dobrze znane algorytmy i zaimplementowałem ten , który, …
Chcę użyć regresji Lasso lub regresji grzbietu dla modelu z ponad 50 000 zmiennych. Chcę to zrobić za pomocą pakietu oprogramowania w R. Jak mogę oszacować parametr skurczu ( λλ\lambda )? Edycje: Oto punkt, do którego doszedłem: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = …
Dużo czytałem o algorytmie sne do redukcji wymiarów. Jestem pod wielkim wrażeniem wydajności „klasycznych” zestawów danych, takich jak MNIST, w których osiąga wyraźne rozdzielenie cyfr ( patrz oryginalny artykuł ):ttt Użyłem go również do wizualizacji funkcji poznanych przez sieć neuronową, którą trenuję i byłem bardzo zadowolony z wyników. Tak więc, …
Przeprowadzam mały eksperyment z regresją LASSO w R, aby sprawdzić, czy jest w stanie znaleźć idealną parę predyktorów. Para jest zdefiniowana w następujący sposób: f1 + f2 = wynik Rezultatem jest z góry ustalony wektor o nazwie „wiek”. F1 i f2 są tworzone przez pobranie połowy wektora wieku i ustawienie …
Niektóre funkcje moich danych mają duże wartości, podczas gdy inne funkcje mają znacznie mniejsze wartości. Czy konieczne jest wyśrodkowanie + skalowanie danych przed zastosowaniem t-SNE, aby zapobiec odchyleniu w kierunku większych wartości? Korzystam z implementacji sklearn.manifold.TSNE w Pythonie z domyślną miarą odległości euklidesowej.
Rozumiem, co to jest „klątwa wymiarowości”, i zrobiłem kilka problemów związanych z optymalizacją wymiarów i znam wyzwanie możliwości wykładniczych. Wątpię jednak, czy „przekleństwo wymiarowości” istnieje w większości danych rzeczywistych (odłóżmy na chwilę zdjęcia lub filmy, myślę o danych takich jak dane demograficzne klientów i dane dotyczące zachowań zakupowych). Możemy gromadzić …
Próbuję przeczytać o badaniach w dziedzinie regresji wielowymiarowej; gdy jest większe niż , to znaczy p >> n . Wydaje się, że termin \ log p / n pojawia się często w odniesieniu do wskaźnika konwergencji dla estymatorów regresji.pppnnnp>>np>>np >> nlogp/nlogp/n\log p/n Na przykład tutaj równanie (17) mówi, że dopasowanie …
Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje …
Czy sensowne jest wykonanie PCA przed przeprowadzeniem losowej klasyfikacji lasu? Mam do czynienia z wielowymiarowymi danymi tekstowymi i chcę zrobić redukcję funkcji, aby uniknąć przekleństwa wymiarowości, ale czy losowe lasy już nie zmniejszają wymiarów?
Nasz profesor nie zajmuje się matematyką ani nawet geometryczną reprezentacją wielokrotnej regresji liniowej, co mnie nieco zdezorientowało. Z jednej strony jest to nadal nazywane wielokrotną regresją liniową , nawet w wyższych wymiarach. Z drugiej strony, jeśli mamy na przykład i możemy podłączyć dowolne wartości, które chcielibyśmy dla i X_2 , …
Czytam książkę Kevina Murphy'ego: Machine Learning - A probabilistic Perspective. W pierwszym rozdziale autor wyjaśnia przekleństwo wymiarowości i jest część, której nie rozumiem. Jako przykład autor stwierdza: Zastanów się, czy dane wejściowe są równomiernie rozmieszczone wzdłuż sześcianu jednostki D-wymiarowej. Załóżmy, że szacujemy gęstość etykiet klas, powiększając hiper sześcian wokół x, …
Jest to często cytowane, gdy wspomina się o przekleństwie wymiarowości i odchodzi (formuła z prawej strony zwana kontrastem względnym) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Wynik twierdzenia pokazuje, że różnica między maksymalnymi i minimalnymi odległościami do danego punktu zapytania nie rośnie tak …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.