Pytania otagowane jako dimensionality-reduction

Odnosi się do technik zmniejszania dużej liczby zmiennych lub wymiarów łączonych przez dane do mniejszej liczby wymiarów przy jednoczesnym zachowaniu jak największej ilości informacji o danych. Najważniejsze metody obejmują PCA, MDS, Isomap itp. Dwie główne podklasy technik: ekstrakcja i wybór cech.

5
W jaki sposób najważniejsze główne komponenty mogą zachować moc predykcyjną zmiennej zależnej (a nawet prowadzić do lepszych prognoz)?
Załóżmy, że używam regresji . Dlaczego, wybierając najlepsze głównych składników , model zachowuje moc predykcyjną na ?Y∼XY∼XY \sim XkkkXXXYYY Rozumiem, że z punktu widzenia redukcji wymiarów / wyboru cech, jeśli są wektorami własnymi macierzy kowariancji X z najwyższymi wartościami własnymi k , to Xv_1, Xv_2 ... Xv_k są pierwszymi k …

2
Jak rozumieć „nieliniowy” jak w „nieliniowej redukcji wymiarowości”?
Próbuję zrozumieć różnice między metodami liniowej redukcji wymiarów (np. PCA) a metodami nieliniowymi (np. Izomapa). Nie do końca rozumiem, co oznacza (nie) liniowość w tym kontekście. Czytałem z Wikipedii, że Dla porównania, jeżeli PCA (algorytm liniowej redukcji wymiarów) zostanie zastosowany do zredukowania tego samego zestawu danych do dwóch wymiarów, uzyskane …

3
Czy redukcję wymiarów podczas wizualizacji należy uznać za „zamknięty” problem rozwiązany przez t-SNE?
Dużo czytałem o algorytmie sne do redukcji wymiarów. Jestem pod wielkim wrażeniem wydajności „klasycznych” zestawów danych, takich jak MNIST, w których osiąga wyraźne rozdzielenie cyfr ( patrz oryginalny artykuł ):ttt Użyłem go również do wizualizacji funkcji poznanych przez sieć neuronową, którą trenuję i byłem bardzo zadowolony z wyników. Tak więc, …

2
Na czym polega „regresja o zmniejszonej randze”?
Czytałem Elementy uczenia statystycznego i nie mogłem zrozumieć, o co chodzi w rozdziale 3.7 „Skurcz i wybór wielu wyników”. Mówi o RRR (regresja o zmniejszonej rangi) i mogę jedynie zrozumieć, że założenie dotyczy uogólnionego wielowymiarowego modelu liniowego, w którym współczynniki są nieznane (i należy je oszacować), ale wiadomo, że nie …

1
Dlaczego dla
W PCA, gdy liczba wymiarów jest większa (lub nawet równa) liczbie próbek N , dlaczego jest tak, że będziesz mieć co najwyżej N - 1 niezerowe wektory własne? Innymi słowy, pozycja macierzy kowariancji wśród wymiarów d ≥ N wynosi N - 1 .dddNNNN−1N−1N-1d≥Nd≥Nd\ge NN−1N−1N-1 Przykład: Twoje próbki to wektoryzowane obrazy …

1
t-SNE kontra MDS
Czytałem ostatnio kilka pytań na temat t-SNE ( t-Distributed Stochastic Neighbor Embedding ), a także odwiedziłem kilka pytań na temat MDS ( skalowanie wielowymiarowe ). Często stosuje się je analogicznie, więc wydaje się, że dobrym pomysłem jest sprawienie, by pytanie zawierało wiele pytań oddzielnie (lub w porównaniu do PCA ). …

3
PCA, gdy wymiarowość jest większa niż liczba próbek
Natknąłem się na scenariusz, w którym mam 10 sygnałów / osobę na 10 osób (czyli 100 próbek) zawierających 14000 punktów danych (wymiarów), które muszę przekazać klasyfikatorowi. Chciałbym zmniejszyć wymiarowość tych danych, a PCA wydaje się być na to dobrym sposobem. Jednak udało mi się znaleźć tylko przykłady PCA, w których …

4
Dlaczego mieszane dane stanowią problem dla algorytmów klastrowych opartych na euklidesie?
Większość klasycznych algorytmów grupowania i zmniejszania wymiarów (grupowanie hierarchiczne, analiza głównych składników, średnie k, samoorganizujące się mapy ...) są zaprojektowane specjalnie dla danych liczbowych, a ich dane wejściowe są postrzegane jako punkty w przestrzeni euklidesowej. Jest to oczywiście problem, ponieważ wiele rzeczywistych pytań obejmuje mieszane dane: na przykład, jeśli studiujemy …

4
Analiza funkcjonalnego głównego elementu (FPCA): o co w tym wszystkim chodzi?
Funkcjonalna analiza głównych składników (FPCA) to coś, na co natknąłem się i nigdy nie zrozumiałem. O co w tym wszystkim chodzi? Patrz „Badanie funkcjonalnej analizy głównych składników” autorstwa Shang, 2011 i cytuję: PCA napotyka poważne trudności w analizie danych funkcjonalnych z powodu „klątwy wymiarowości” (Bellman 1961). „Klątwa wymiarowości” pochodzi od …

1
W jaki sposób LDA, technika klasyfikacji, służy również jako technika redukcji wymiarów, jak PCA
W tym artykule autor łączy liniową analizę dyskryminacyjną (LDA) z analizą głównych składników (PCA). Przy mojej ograniczonej wiedzy nie jestem w stanie śledzić, w jaki sposób LDA może być nieco podobny do PCA. Zawsze uważałem, że LDA jest formą algorytmu klasyfikacji, podobną do regresji logistycznej. Będę wdzięczny za pomoc w …

5
Czy są jakieś wersje T-SNE do przesyłania strumieniowego danych?
Rozumiem t-SNE i aproksymację Barnesa-Huta, że ​​wszystkie punkty danych są wymagane, aby wszystkie oddziaływania sił mogły być obliczone w tym samym czasie, a każdy punkt można dostosować na mapie 2d (lub niższych wymiarach). Czy są jakieś wersje T-sne, które mogą skutecznie radzić sobie z przesyłaniem danych? Więc jeśli moje obserwacje …

1
Czy dane powinny być wyśrodkowane i skalowane przed zastosowaniem t-SNE?
Niektóre funkcje moich danych mają duże wartości, podczas gdy inne funkcje mają znacznie mniejsze wartości. Czy konieczne jest wyśrodkowanie + skalowanie danych przed zastosowaniem t-SNE, aby zapobiec odchyleniu w kierunku większych wartości? Korzystam z implementacji sklearn.manifold.TSNE w Pythonie z domyślną miarą odległości euklidesowej.

4
Czy „przekleństwo wymiarowości” naprawdę istnieje w rzeczywistych danych?
Rozumiem, co to jest „klątwa wymiarowości”, i zrobiłem kilka problemów związanych z optymalizacją wymiarów i znam wyzwanie możliwości wykładniczych. Wątpię jednak, czy „przekleństwo wymiarowości” istnieje w większości danych rzeczywistych (odłóżmy na chwilę zdjęcia lub filmy, myślę o danych takich jak dane demograficzne klientów i dane dotyczące zachowań zakupowych). Możemy gromadzić …

4
Zmienne „normalizujące” dla SVD / PCA
Załóżmy, że mamy mierzalnych zmiennych, , wykonujemy liczbę pomiarów, a następnie chcemy przeprowadzić rozkład wyników w liczbie pojedynczej na wynikach, aby znaleźć osie największej wariancji dla punktów w przestrzeni wymiarowej. ( Uwaga: załóżmy, że środki zostały już odjęte, więc dla wszystkich .)N.N.N( a1, a2), … , AN.)(za1,za2),…,zaN.)(a_1, a_2, \ldots, a_N)M.> …

2
Kiedy łączymy redukcję wymiarowości z klastrowaniem?
Próbuję przeprowadzić klastrowanie na poziomie dokumentu. Skonstruowałem macierz częstotliwości termin-dokument i próbuję zgrupować te wektory o dużych wymiarach za pomocą k-średnich. Zamiast bezpośredniego grupowania, najpierw zastosowałem dekompozycję wektora osobliwego LSA (Latent Semantic Analysis) w celu uzyskania macierzy U, S, Vt, wybrałem odpowiedni próg za pomocą wykresu piargowego i zastosowałem grupowanie …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.