Pytania otagowane jako high-dimensional

Dotyczy dużej liczby cech lub wymiarów (zmiennych) danych. (W przypadku dużej liczby punktów danych użyj tagu [large-data]; jeśli problem dotyczy większej liczby zmiennych niż danych, użyj tagu [underdetermined]).

8
Dlaczego odległość euklidesowa nie jest dobrym miernikiem w dużych wymiarach?
Czytałem, że „odległość euklidesowa nie jest dobrą odległością w dużych wymiarach”. Myślę, że to stwierdzenie ma coś wspólnego z przekleństwem wymiarowości, ale co dokładnie? Poza tym, co to są „wysokie wymiary”? Stosuję hierarchiczne grupowanie przy użyciu odległości euklidesowej ze 100 funkcjami. Do ilu funkcji można bezpiecznie korzystać z tych danych?




3
Czy redukcję wymiarów podczas wizualizacji należy uznać za „zamknięty” problem rozwiązany przez t-SNE?
Dużo czytałem o algorytmie sne do redukcji wymiarów. Jestem pod wielkim wrażeniem wydajności „klasycznych” zestawów danych, takich jak MNIST, w których osiąga wyraźne rozdzielenie cyfr ( patrz oryginalny artykuł ):ttt Użyłem go również do wizualizacji funkcji poznanych przez sieć neuronową, którą trenuję i byłem bardzo zadowolony z wyników. Tak więc, …


1
Czy dane powinny być wyśrodkowane i skalowane przed zastosowaniem t-SNE?
Niektóre funkcje moich danych mają duże wartości, podczas gdy inne funkcje mają znacznie mniejsze wartości. Czy konieczne jest wyśrodkowanie + skalowanie danych przed zastosowaniem t-SNE, aby zapobiec odchyleniu w kierunku większych wartości? Korzystam z implementacji sklearn.manifold.TSNE w Pythonie z domyślną miarą odległości euklidesowej.

4
Czy „przekleństwo wymiarowości” naprawdę istnieje w rzeczywistych danych?
Rozumiem, co to jest „klątwa wymiarowości”, i zrobiłem kilka problemów związanych z optymalizacją wymiarów i znam wyzwanie możliwości wykładniczych. Wątpię jednak, czy „przekleństwo wymiarowości” istnieje w większości danych rzeczywistych (odłóżmy na chwilę zdjęcia lub filmy, myślę o danych takich jak dane demograficzne klientów i dane dotyczące zachowań zakupowych). Możemy gromadzić …

1
Regresja wielowymiarowa: dlaczego wyjątkowy?
Próbuję przeczytać o badaniach w dziedzinie regresji wielowymiarowej; gdy jest większe niż , to znaczy p >> n . Wydaje się, że termin \ log p / n pojawia się często w odniesieniu do wskaźnika konwergencji dla estymatorów regresji.pppnnnp>>np>>np >> nlogp/nlog⁡p/n\log p/n Na przykład tutaj równanie (17) mówi, że dopasowanie …

1
Czy klątwa wymiarowa działa na niektóre modele bardziej niż na inne?
Miejsca, które czytałem o klątwie wymiarowej, wyjaśniają to przede wszystkim w odniesieniu do kNN, a ogólnie modeli liniowych. Regularnie widzę najlepszych rankingów w Kaggle korzystających z tysięcy funkcji w zbiorze danych, który prawie nie ma 100 000 punktów danych. Używają głównie drzew Boosted i NN. To, że wiele cech wydaje …



2
Czy wielokrotna regresja liniowa w 3 wymiarach jest płaszczyzną najlepszego dopasowania czy linią najlepszego dopasowania?
Nasz profesor nie zajmuje się matematyką ani nawet geometryczną reprezentacją wielokrotnej regresji liniowej, co mnie nieco zdezorientowało. Z jednej strony jest to nadal nazywane wielokrotną regresją liniową , nawet w wyższych wymiarach. Z drugiej strony, jeśli mamy na przykład i możemy podłączyć dowolne wartości, które chcielibyśmy dla i X_2 , …

4
Przekleństwo wymiarowości: klasyfikator kNN
Czytam książkę Kevina Murphy'ego: Machine Learning - A probabilistic Perspective. W pierwszym rozdziale autor wyjaśnia przekleństwo wymiarowości i jest część, której nie rozumiem. Jako przykład autor stwierdza: Zastanów się, czy dane wejściowe są równomiernie rozmieszczone wzdłuż sześcianu jednostki D-wymiarowej. Załóżmy, że szacujemy gęstość etykiet klas, powiększając hiper sześcian wokół x, …

1
Czy twierdzenie o względnym kontraście z Beyer i in. artykuł: „O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej” wprowadzający w błąd?
Jest to często cytowane, gdy wspomina się o przekleństwie wymiarowości i odchodzi (formuła z prawej strony zwana kontrastem względnym) limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxkd−DminkdDminkd→0limd→∞var(||Xd||kE[||Xd||k])=0,then:Dmaxdk−DmindkDmindk→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 Wynik twierdzenia pokazuje, że różnica między maksymalnymi i minimalnymi odległościami do danego punktu zapytania nie rośnie tak …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.