Pytania otagowane jako dimensionality-reduction

Odnosi się do technik zmniejszania dużej liczby zmiennych lub wymiarów łączonych przez dane do mniejszej liczby wymiarów przy jednoczesnym zachowaniu jak największej ilości informacji o danych. Najważniejsze metody obejmują PCA, MDS, Isomap itp. Dwie główne podklasy technik: ekstrakcja i wybór cech.

1
Metoda Nystroem dla aproksymacji jądra
Czytałem o metodzie Nyström do aproksymacji jądra niskiej rangi. Ta metoda jest zaimplementowana w scikit-learn [1] jako metoda rzutowania próbek danych na przybliżenie niskiego rzędu mapowania cech jądra. Zgodnie z moją najlepszą wiedzą, biorąc pod uwagę zestaw szkoleniowy i funkcję jądra, generuje przybliżenie niskiego rzędu macierzy jądra poprzez zastosowanie SVD …



8
Wizualizacja danych wielowymiarowych
Mam próbki dwóch klas, które są wektorami w przestrzeni wielowymiarowej i chcę je narysować w 2D lub 3D. Wiem o technikach zmniejszania wymiarów, ale potrzebuję naprawdę prostego i łatwego w użyciu narzędzia (w Matlabie, Pythonie lub wcześniej .exe). Zastanawiam się też, czy reprezentacja w 2D będzie „znacząca”? (Na przykład, jak …

3
Jakie są założenia analizy czynnikowej?
Chcę sprawdzić, czy naprawdę zrozumiałem [klasyczną, liniową] analizę czynnikową (FA), zwłaszcza założenia przyjęte przed (i być może po) FA. Niektóre dane powinny być początkowo skorelowane i istnieje między nimi możliwa liniowa zależność. Po przeprowadzeniu analizy czynnikowej dane są zwykle rozkładane (rozkład dwuwymiarowy dla każdej pary) i nie ma korelacji między …

2
Jaka jest zaleta zmniejszenia wymiarów predyktorów na potrzeby regresji?
Jakie są zastosowania lub zalety technik regresji redukcji wymiarów (DRR) lub technik nadzorowanej redukcji wymiarów (SDR) w porównaniu z tradycyjnymi technikami regresji (bez żadnej redukcji wymiarowości)? Ta klasa technik znajduje nisko wymiarową reprezentację zestawu cech dla problemu regresji. Przykłady takich technik obejmują krojenie regresji odwrotnej, główny kierunek Hesji, oszacowanie średniej …

7
Technika redukcji danych w celu identyfikacji typów krajów
Prowadzę wstępny kurs z geografii ekonomicznej. Aby pomóc moim studentom w lepszym zrozumieniu rodzajów krajów obecnych we współczesnej gospodarce światowej i docenieniu technik ograniczania danych, chcę skonstruować zadanie, które stworzy typologię różnych rodzajów krajów (np. wartość dodana MFG długa żywotność; eksporter zasobów naturalnych o wysokich dochodach średni i średni oczekiwany …

2
Jak określić parametry dla t-SNE w celu zmniejszenia wymiarów?
Jestem bardzo nowy w osadzaniu słów. Chcę wyobrazić sobie, jak wyglądają dokumenty po nauce. Czytałem, że t-SNE jest podejściem do tego. Mam 100 000 dokumentów o 250 wymiarach jako rozmiarze osadzenia. Dostępnych jest również kilka pakietów. Jednak w przypadku t-SNE nie wiem, ile iteracji, wartość alfa lub wartość zdolności pertraktacyjnych …


2
Dlaczego PCA maksymalizuje całkowitą wariancję projekcji?
Christopher Bishop pisze w swojej książce Pattern Recognition and Machine Learning dowód, że każdy kolejny główny składnik maksymalizuje wariancję projekcji do jednego wymiaru, po tym jak dane zostaną rzutowane do przestrzeni ortogonalnej na wcześniej wybrane komponenty. Inne pokazują podobne dowody. Dowodzi to jednak tylko, że każdy kolejny element jest najlepszym …

4
Czy „losowa projekcja” ściśle nie jest projekcją?
Obecne implementacje algorytmu losowej projekcji zmniejszają wymiarowość próbek danych poprzez mapowanie ich z do przy użyciu macierzy projekcji d \ razy k R, której wpisy znajdują się w odpowiednim rozkładzie (na przykład z \ matematyka N (0,1) ):RdRd\mathbb R^dRkRk\mathbb R^kd×kd×kd\times kRRRN(0,1)N(0,1)\mathcal N(0,1) x′=1k√xRx′=1kxRx^\prime = \frac{1}{\sqrt k}xR Dogodnie istnieją teoretyczne dowody …

3
Kiedy użyjesz PCA zamiast LDA w klasyfikacji?
Czytam ten artykuł na temat różnicy między zasadową analizą składową a analizą wielokrotnych dyskryminacji (liniowa analiza dyskryminacyjna) i próbuję zrozumieć, dlaczego kiedykolwiek używałbyś PCA zamiast MDA / LDA. Wyjaśnienie podsumowano w następujący sposób: z grubsza mówiąc w PCA staramy się znaleźć osie o maksymalnych wariancjach, w których dane są najbardziej …

1
Czy możliwa jest nawet PCA na dużą skalę?
Klasycznym sposobem analizy głównych składowych (PCA) jest wykonanie macierzy danych wejściowych, których kolumny mają zerową średnią (wtedy PCA może „maksymalizować wariancję”). Można to łatwo osiągnąć poprzez centrowanie kolumn. Jednak gdy matryca wejściowa jest rzadka, matryca środkowa będzie już rzadsza i - jeśli matryca jest bardzo duża - nie będzie już …

1
t-SNE z mieszanymi zmiennymi ciągłymi i binarnymi
Obecnie badam wizualizację danych wielowymiarowych za pomocą t-SNE. Mam pewne dane z mieszanymi zmiennymi binarnymi i ciągłymi, a dane wydają się zbyt łatwo grupować dane binarne. Oczywiście jest to oczekiwane w przypadku danych skalowanych (od 0 do 1): odległość euklidesowa zawsze będzie największa / najmniejsza między zmiennymi binarnymi. Jak należy …

1
R regresja liniowa zmienna kategorialna „ukryta” wartość
To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.