Pytania otagowane jako dimensionality-reduction

Redukcja wymiarowości odnosi się do technik redukcji wielu zmiennych do mniejszej liczby przy jednoczesnym zachowaniu jak największej ilości informacji. Jedną z głównych metod jest [tag pca]

11
Co to jest redukcja wymiarowości? Jaka jest różnica między wyborem funkcji a ekstrakcją?
Z wikipedii, redukcja wymiarów lub redukcja wymiarów to proces zmniejszania liczby rozważanych zmiennych losowych, który można podzielić na wybór cech i ekstrakcję cech. Jaka jest różnica między wyborem funkcji a ekstrakcją funkcji? Jaki jest przykład zmniejszenia wymiarów w zadaniu przetwarzania języka naturalnego?

6
Jak zrobić SVD i PCA z dużymi danymi?
Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …

6
Techniki uczenia maszynowego do szacowania wieku użytkowników na podstawie ulubionych stron na Facebooku
Mam bazę danych z mojej aplikacji na Facebooku i staram się używać uczenia maszynowego do szacowania wieku użytkowników na podstawie tego, co lubią na Facebooku. Istnieją trzy kluczowe cechy mojej bazy danych: rozkład wieku w moim zestawie szkoleniowym (łącznie 12 tys. użytkowników) jest przekrzywiony w stosunku do młodszych użytkowników (tj. …


1
Czy wymiary t-sne są znaczące?
Czy są jakieś znaczenia dla wymiarów osadzania t-sne? Podobnie jak w przypadku PCA, mamy poczucie maksymalizacji wariancji transformacji liniowej, ale czy dla t-sne jest intuicja oprócz tylko przestrzeni, którą definiujemy do mapowania i minimalizacji odległości KL?

4
Popraw szybkość implementacji t-sne w pythonie dla dużych danych
Chciałbym zmniejszyć wymiarowość na prawie 1 milionach wektorów, każdy o 200 wymiarach ( doc2vec). Używam do tego TSNEimplementacji z sklearn.manifoldmodułu, a głównym problemem jest złożoność czasu. Mimo method = barnes_hutto szybkość obliczeń jest wciąż niska. Czasami nawet kończy się pamięć. Używam go na 48-rdzeniowym procesorze z 130G RAM. Czy istnieje …

3
Najbliżsi sąsiedzi szukają danych o bardzo dużych wymiarach
Mam dużą rzadką macierz użytkowników i przedmiotów, które lubią (rzędu 1 mln użytkowników i 100 000 przedmiotów, z bardzo niskim poziomem rzadkości). Badam sposoby, w jakie mogę na nim przeprowadzić wyszukiwanie kNN. Biorąc pod uwagę rozmiar mojego zbioru danych i niektóre wstępne testy, które przeprowadziłem, zakładam, że metoda, której użyję, …

5
Wybór funkcji a ekstrakcja funkcji. Którego użyć, kiedy?
Wyodrębnianie funkcji i wybór funkcji zasadniczo zmniejszają wymiarowość danych, ale ekstrakcja funkcji sprawia, że ​​dane są bardziej rozdzielne, jeśli mam rację. Która technika byłaby lepsza od drugiej i kiedy? Myślałem, ponieważ ponieważ wybór funkcji nie modyfikuje oryginalnych danych i ich właściwości, zakładam, że użyjesz wyboru funkcji, gdy ważne jest, aby …

1
Czy bliższe punkty można uznać za bardziej podobne w wizualizacji T-SNE?
Rozumiem z artykułu Hintona, że ​​T-SNE wykonuje dobrą robotę, utrzymując lokalne podobieństwa i przyzwoitą pracę, zachowując globalną strukturę (klasterizacja). Nie jestem jednak pewien, czy punkty pojawiające się bliżej w wizualizacji 2D t-sne można założyć jako „bardziej podobne” punkty danych. Używam danych z 25 funkcjami. Jako przykład, obserwując poniższy obrazek, mogę …

2
Dane wielowymiarowe: jakie przydatne techniki należy znać?
Z powodu różnych przekleństw wymiarowych dokładność i szybkość wielu popularnych technik predykcyjnych obniżają się w przypadku danych o dużych wymiarach. Jakie są najbardziej przydatne techniki / triki / heurystyki, które pomagają skutecznie radzić sobie z danymi wielowymiarowymi? Na przykład, Czy niektóre metody statystyczne / modelujące działają dobrze na wielowymiarowych zestawach …

3
Dlaczego autokodery do redukcji wymiarów są symetryczne?
W żadnym wypadku nie jestem ekspertem od autoencoderów ani sieci neuronowych, więc wybacz mi, jeśli to głupie pytanie. W celu zmniejszenia wymiarów lub wizualizacji klastrów w danych wielowymiarowych możemy użyć autoenkodera, aby utworzyć (stratną) reprezentację dwuwymiarową poprzez sprawdzenie wyniku warstwy sieci z 2 węzłami. Na przykład w poniższej architekturze sprawdzilibyśmy …

4
Jedna alternatywa kodowania na gorąco dla dużych wartości jakościowych?
Cześć, mam ramkę danych z dużymi wartościami kategorialnymi ponad 1600 kategorii. Czy mogę znaleźć alternatywy, aby nie mieć ponad 1600 kolumn. Znalazłem to poniżej ciekawy link http://amunategui.github.io/feature-hashing/#sourcecode Ale konwertują na klasę / obiekt, którego nie chcę. Czy chcę, aby końcowy wynik był ramką danych, aby móc testować za pomocą różnych …


3
Czy są jakieś dobre gotowe modele językowe dla Pythona?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.