Pytania otagowane jako pca

Analiza głównego składnika (PCA) jest techniką liniowej redukcji wymiarów. Zmniejsza wielowymiarowy zestaw danych do mniejszego zestawu skonstruowanych zmiennych, zachowując możliwie jak najwięcej informacji (tak dużą wariancję). Te zmienne, zwane głównymi składnikami, są liniowymi kombinacjami zmiennych wejściowych.


2
Czy można stosować analizę głównych składników w odniesieniu do cen akcji / danych niestacjonarnych?
Czytam przykład podany w książce Machine Learning for Hackers . Najpierw rozwinę ten przykład, a następnie omówię moje pytanie. Przykład : Pobiera zestaw danych na 10 lat z 25 cenami akcji. Uruchamia PCA w cenie 25 akcji. Porównuje główny składnik z indeksem Dow Jones. Obserwuje bardzo silne podobieństwo między PC …

1
Co należy rozumieć przez zachowanie przez PCA jedynie dużych par odległości?
Obecnie czytam technikę wizualizacji t-SNE i wspomniano, że jedną z wad stosowania analizy głównych składników (PCA) do wizualizacji danych wielowymiarowych jest to, że zachowuje ona jedynie duże parowe odległości między punktami. Znaczące punkty, które są daleko od siebie w przestrzeni wielowymiarowej, również pojawią się daleko od siebie w niskiej przestrzeni …

1
Czy możliwa jest nawet PCA na dużą skalę?
Klasycznym sposobem analizy głównych składowych (PCA) jest wykonanie macierzy danych wejściowych, których kolumny mają zerową średnią (wtedy PCA może „maksymalizować wariancję”). Można to łatwo osiągnąć poprzez centrowanie kolumn. Jednak gdy matryca wejściowa jest rzadka, matryca środkowa będzie już rzadsza i - jeśli matryca jest bardzo duża - nie będzie już …

1
Dlaczego wszystkie składniki PLS razem wyjaśniają tylko część wariancji oryginalnych danych?
Mam zestaw danych składający się z 10 zmiennych. Uruchomiłem częściowe najmniejsze kwadraty (PLS), aby przewidzieć pojedynczą zmienną odpowiedzi na podstawie tych 10 zmiennych, wyodrębniłem 10 składników PLS, a następnie obliczyłem wariancję każdego składnika. Na podstawie oryginalnych danych wziąłem sumę wariancji wszystkich zmiennych, która wynosi 702. Następnie podzieliłem wariancję każdego ze …

1
Czy PCA jest nadal wykonywane przez składową macierz kowariancji, gdy wymiarowość jest większa niż liczba obserwacji?
Mam macierz , zawierającą moje próbek w przestrzeni wymiarowej . Chcę teraz zakodować własną analizę głównych składników (PCA) w Matlabie. I poniżać do pierwszy.20×10020×10020\times100N = 20 D = 100 X X 0XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 Czytam z czyjegoś kodu, że w takich scenariuszach, w których mamy więcej wymiarów niż obserwacji, nie rozkładamy już …
10 pca 

2
Zastosowanie PCA do testowania danych do celów klasyfikacji
Niedawno dowiedziałem się o cudownym PCA i zrobiłem przykład opisany w dokumentacji scikit-learn . Chcę wiedzieć, jak mogę zastosować PCA do nowych punktów danych do celów klasyfikacji. Po wizualizacji PCA w płaszczyźnie dwuwymiarowej (oś x, y) widzę, że prawdopodobnie mogę narysować linię, aby oddzielić punkty danych, tak aby jedna strona …

1
Mylić z wizualnym wyjaśnieniem wektorów własnych: w jaki sposób wizualnie różne zestawy danych mogą mieć te same wektory własne?
Wiele podręczników statystycznych zapewnia intuicyjną ilustrację tego, czym są wektory własne macierzy kowariancji: Wektory u i z tworzą wektory własne (cóż, osie własne). To ma sens. Ale jedną rzeczą, która mnie myli, jest to, że wydobywamy wektory własne z macierzy korelacji , a nie z surowych danych. Ponadto surowe zestawy …

2
Jakie są dobre wskaźniki do oceny jakości dopasowania PCA, aby wybrać liczbę komponentów?
Co jest dobrym miernikiem do oceny jakości analizy głównych składników (PCA)? Wykonałem ten algorytm na zbiorze danych. Moim celem było ograniczenie liczby funkcji (informacje były bardzo zbędne). Wiem, że odsetek zachowanych odchyleń jest dobrym wskaźnikiem tego, ile informacji przechowujemy. Czy istnieją inne wskaźniki informacyjne, których mogę użyć, aby upewnić się, …


1
Jak interpretować ten dwupłat PCA pochodzący z ankiety na temat obszarów, którymi ludzie są zainteresowani?
Kontekst: Zapytałem setki uczestników ankiety, jak bardzo są zainteresowani wybranymi obszarami (według pięciopunktowej skali Likerta, gdzie 1 wskazuje „nie zainteresowany”, a 5 wskazuje „zainteresowany”). Potem spróbowałem PCA. Poniższy obraz przedstawia dwa pierwsze główne elementy. Kolory są używane dla płci, a strzałki PCA są oryginalnymi zmiennymi (tj. Zainteresowaniami). Zauważyłem to: Kropki …

3
Wybór liczby głównych komponentów do zachowania
Jedną z metod, która została mi zasugerowana, jest spojrzenie na wykres piargowy i sprawdzenie „łokcia” w celu ustalenia prawidłowej liczby komputerów do użycia. Ale jeśli wykres nie jest jasny, czy R ma obliczenia w celu ustalenia liczby? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 



Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.