Pytania otagowane jako dimensionality-reduction

Odnosi się do technik zmniejszania dużej liczby zmiennych lub wymiarów łączonych przez dane do mniejszej liczby wymiarów przy jednoczesnym zachowaniu jak największej ilości informacji o danych. Najważniejsze metody obejmują PCA, MDS, Isomap itp. Dwie główne podklasy technik: ekstrakcja i wybór cech.

1
Jaki jest związek między częściową najmniejszą liczbą kwadratów, regresją zredukowaną i regresją składowych głównych?
Czy regresja zredukowana rangi i regresja głównych składników to tylko szczególne przypadki częściowych najmniejszych kwadratów? Ten samouczek (strona 6, „Porównanie celów”) stwierdza, że ​​kiedy wykonujemy częściowe najmniejsze kwadraty bez rzutowania X lub Y (tj. „Nie częściowy”), staje się odpowiednio regresją zmniejszoną rangą lub regresją składowych głównych. Podobne oświadczenie znajduje się …

4
Które zmienne wyjaśniają, które komponenty PCA i odwrotnie?
Korzystanie z tych danych: head(USArrests) nrow(USArrests) Mogę zrobić PCA w następujący sposób: plot(USArrests) otherPCA <- princomp(USArrests) Mogę pobrać nowe komponenty otherPCA$scores oraz odsetek wariancji wyjaśniony przez składniki z summary(otherPCA) Ale co jeśli chcę wiedzieć, które zmienne są w większości wyjaśnione przez które główne składniki? I odwrotnie: czy np. PC1 lub …

2
Metody łączenia / zmniejszania kategorii w danych porządkowych lub nominalnych?
Próbuję znaleźć sposób na zmniejszenie liczby kategorii w danych nominalnych lub porządkowych. Powiedzmy na przykład, że chcę zbudować model regresji na zbiorze danych, który ma wiele czynników nominalnych i porządkowych. Chociaż nie mam problemów z tym krokiem, często spotykam się z sytuacjami, w których nominalna cecha jest bez obserwacji w …


3
Wybór hiperparametrów za pomocą T-SNE do klasyfikacji
W specyficznym problemie, z którym pracuję (konkurs) mam następujące ustawienie: 21 funkcji (numerycznie na [0,1]) i wyjście binarne. Mam około 100 K. wierszy. Ustawienie wydaje się być bardzo głośne. Ja i inni uczestnicy stosujemy generowanie funkcji przez jakiś czas, a osadzanie t-rozproszonego stochastycznego sąsiada okazało się w tym otoczeniu dość …

1
Nadzorowana redukcja wymiarów
Mam zestaw danych składający się z 15K próbek znakowanych (z 10 grup). Chcę zastosować redukcję wymiarowości do 2 wymiarów, które uwzględnią znajomość etykiet. Kiedy używam „standardowych” nienadzorowanych technik redukcji wymiarów, takich jak PCA, wykres rozproszenia wydaje się nie mieć nic wspólnego ze znanymi etykietami. Czy to, czego szukam, ma imię? …


1
Algebra LDA. Siła dyskryminacji Fishera zmiennej i liniowej analizy dyskryminacyjnej
Widocznie, analiza Fishera ma jednocześnie na celu maksymalizację rozdziału między klasami, przy jednoczesnym zminimalizowaniu dyspersji wewnątrz klasy. Przydatną miarą mocy dyskryminacyjnej zmiennej jest zatem wielkość przekątna: .bja ja/ Wja jaBii/WiiB_{ii}/W_{ii} http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html I rozumieć, że wielkość ( p x p) z Między ( B ), a W klasie ( W ) …


1
Wyjaśnić kroki algorytmu LLE (lokalne osadzanie liniowe)?
Rozumiem, że podstawowa zasada algorytmu dla LLE składa się z trzech kroków. Znajdowanie sąsiedztwa każdego punktu danych za pomocą niektórych miar, takich jak k-nn. Znajdź wagi dla każdego sąsiada, które oznaczają wpływ sąsiada na punkt danych. Skonstruuj osadzanie danych w małych wymiarach na podstawie obliczonych wag. Ale matematyczne wyjaśnienie kroków …

1
Jakie jest znaczenie osi w t-SNE?
Obecnie próbuję owinąć głowę wokół matematyki t-SNE . Niestety, wciąż jest jedno pytanie, na które nie potrafię odpowiedzieć zadowalająco: Jakie jest rzeczywiste znaczenie osi na wykresie t-SNE? Gdybym miał przedstawić prezentację na ten temat lub zamieścić ją w jakiejkolwiek publikacji: Jak odpowiednio oznaczyć osie? PS: Czytam to pytanie Reddita, ale …

5
Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


4
Wykonywanie PCA tylko z matrycą odległości
Chcę utworzyć klaster ogromnego zestawu danych, dla którego mam tylko pary odległości. Wdrożyłem algorytm k-medoidów, ale jego uruchomienie trwa zbyt długo, dlatego chciałbym zacząć od zmniejszenia wymiaru mojego problemu przez zastosowanie PCA. Jednak jedynym sposobem, w jaki znam tę metodę, jest zastosowanie macierzy kowariancji, której nie mam w swojej sytuacji. …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.