Pytania otagowane jako dimensionality-reduction

Odnosi się do technik zmniejszania dużej liczby zmiennych lub wymiarów łączonych przez dane do mniejszej liczby wymiarów przy jednoczesnym zachowaniu jak największej ilości informacji o danych. Najważniejsze metody obejmują PCA, MDS, Isomap itp. Dwie główne podklasy technik: ekstrakcja i wybór cech.


1
Jak odwrócić PCA i zrekonstruować oryginalne zmienne z kilku głównych składników?
Do zmniejszenia wymiarów można zastosować analizę głównych składników (PCA). Po przeprowadzeniu takiej redukcji wymiarowości, w jaki sposób można w przybliżeniu zrekonstruować oryginalne zmienne / cechy z niewielkiej liczby głównych składników? Alternatywnie, w jaki sposób można usunąć lub odrzucić kilka głównych składników z danych? Innymi słowy, jak odwrócić PCA? Biorąc pod …


4
Wyjaśnienie PCA i proporcji wariancji
Ogólnie, co należy rozumieć przez powiedzenie, że część wariancji w analizie takiej jak PCA jest wyjaśniona przez pierwszy główny składnik? Czy ktoś może to wyjaśnić intuicyjnie, ale również podać dokładną matematyczną definicję tego, co oznacza „wyjaśniona wariancja” w kategoriach analizy głównego składnika (PCA)?xxx Dla prostej regresji liniowej r-kwadrat linii najlepszego …

2
Jaka jest różnica między wybielaniem ZCA a wybielaniem PCA?
Jestem zdezorientowany co do wybielania ZCA i normalnego wybielania (które uzyskuje się poprzez podzielenie głównych składników przez pierwiastki kwadratowe wartości własnych PCA). Z tego co mi wiadomo, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, gdzie to wektory własne PCA.UU\mathbf U Jakie są zastosowania wybielania ZCA? Jakie są różnice między wybielaniem …

6
Zasada zwijania zmiennych jakościowych na wielu poziomach?
Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym? Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major …

3
Czy PCA będzie działać dla typów danych boolowskich (binarnych)?
Chcę zmniejszyć wymiarowość układów wyższego rzędu i uchwycić większość kowariancji na polu najlepiej dwuwymiarowym lub jednowymiarowym. Rozumiem, że można to zrobić za pomocą analizy głównych składników, i używałem PCA w wielu scenariuszach. Jednak nigdy nie użyłem go z typami danych boolowskich i zastanawiałem się, czy warto robić PCA z tym …

2
Kiedy t-SNE wprowadza w błąd?
Cytując jednego z autorów: t-Distributed Stochastic Neighbor Embedding (t-SNE) to ( nagradzana ) technika redukcji wymiarowości, która szczególnie dobrze nadaje się do wizualizacji wysokowymiarowych zestawów danych. Brzmi więc całkiem nieźle, ale tak mówi Autor. Kolejny cytat autora (dotyczy: wspomnianego wyżej konkursu): Co zabrałeś z tego konkursu? Zawsze najpierw zwizualizuj swoje …

3
Dlaczego t-SNE nie jest stosowany jako technika redukcji wymiarów do grupowania lub klasyfikacji?
W ostatnim zadaniu powiedziano nam, abyśmy używali PCA na cyfrach MNIST, aby zmniejszyć wymiary z 64 (8 x 8 obrazów) do 2. Następnie musieliśmy grupować cyfry za pomocą Gaussian Mixture Model. PCA wykorzystujące tylko 2 główne komponenty nie daje wyraźnych klastrów, w wyniku czego model nie jest w stanie wytworzyć …

1
Jaki jest intuicyjny powód wykonywania rotacji w analizie czynnikowej / PCA i jak wybrać odpowiedni obrót?
Moje pytania Jaki jest intuicyjny powód wykonywania rotacji czynników w analizie czynnikowej (lub komponentach w PCA)? Rozumiem, że jeśli zmienne są prawie jednakowo ładowane w najlepszych komponentach (lub czynnikach), to oczywiście trudno jest odróżnić komponenty. W takim przypadku można użyć rotacji, aby uzyskać lepsze rozróżnienie komponentów. Czy to jest poprawne? …

1
W jaki sposób PCA pomógłby w analizie skupień metodą k-średnich?
Kontekst : Chcę podzielić obszary mieszkalne miasta na grupy na podstawie ich cech społeczno-ekonomicznych, w tym gęstości zabudowy, gęstości zaludnienia, powierzchni zieleni, ceny mieszkań, liczby szkół / ośrodków zdrowia / ośrodków opieki dziennej itp. Chcę zrozumieć, na ile różnych grup można podzielić dzielnice mieszkaniowe i jakie są ich unikalne cechy. …

1
Redukcja wymiarów (SVD lub PCA) na dużej, rzadkiej matrycy
/ edit: Dalsze działania teraz możesz użyć irlba :: prcomp_irlba / edit: śledzenie mojego własnego posta. irlbama teraz argumenty „środkowy” i „skalowany”, które pozwalają go używać do obliczania podstawowych składników, np .: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Mam dużą różnorodność Matrixfunkcji, których chciałbym użyć w algorytmie …

5
Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
Jak zrobić zmniejszenie wymiarów w R.
Mam macierz, w której (i, j) mówi mi, ile razy przeglądałem stronę j. Istnieje 27 000 osób i 95 000 stron. Chciałbym mieć garść „wymiarów” lub „aspektów” w przestrzeni stron, które odpowiadałyby zestawom stron często oglądanych razem. Moim ostatecznym celem jest wtedy, aby móc obliczyć, jak często przeglądałem strony, które …

2
Dlaczego LDA Python scikit-learn LDA nie działa poprawnie i jak oblicza LDA przez SVD?
Użyłem liniowej analizy dyskryminacyjnej (LDA) z scikit-learnbiblioteki uczenia maszynowego (Python) do redukcji wymiarów i byłem trochę ciekawy wyników. Zastanawiam się teraz, czym scikit-learnzajmuje się LDA, aby wyniki wyglądały inaczej niż np. Ręczne podejście lub LDA wykonane w R. Byłoby wspaniale, gdyby ktoś mógł dać mi tutaj jakieś spostrzeżenia. Zasadniczo najbardziej …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.