Redukcja wymiarowości odnosi się do technik redukcji wielu zmiennych do mniejszej liczby przy jednoczesnym zachowaniu jak największej ilości informacji. Jedną z głównych metod jest [tag pca]
Z wikipedii, redukcja wymiarów lub redukcja wymiarów to proces zmniejszania liczby rozważanych zmiennych losowych, który można podzielić na wybór cech i ekstrakcję cech. Jaka jest różnica między wyborem funkcji a ekstrakcją funkcji? Jaki jest przykład zmniejszenia wymiarów w zadaniu przetwarzania języka naturalnego?
Mam duży zestaw danych (około 8 GB). Chciałbym użyć uczenia maszynowego do jego analizy. Myślę więc, że powinienem użyć SVD, a następnie PCA, aby zmniejszyć wymiarowość danych w celu zwiększenia wydajności. Jednak MATLAB i Octave nie mogą załadować tak dużego zestawu danych. Jakich narzędzi mogę użyć do wykonania SVD z …
Mam bazę danych z mojej aplikacji na Facebooku i staram się używać uczenia maszynowego do szacowania wieku użytkowników na podstawie tego, co lubią na Facebooku. Istnieją trzy kluczowe cechy mojej bazy danych: rozkład wieku w moim zestawie szkoleniowym (łącznie 12 tys. użytkowników) jest przekrzywiony w stosunku do młodszych użytkowników (tj. …
Istnieje wiele technik wizualizacji zestawów danych o dużych wymiarach, takich jak T-SNE, izomapa, PCA, nadzorowany PCA itp. I przechodzimy przez ruchy rzutowania danych do przestrzeni 2D lub 3D, więc mamy „ładne zdjęcia” „. Niektóre z tych metod osadzania (uczenie się na wiele sposobów) opisano tutaj . Ale czy to „ładne …
Czy są jakieś znaczenia dla wymiarów osadzania t-sne? Podobnie jak w przypadku PCA, mamy poczucie maksymalizacji wariancji transformacji liniowej, ale czy dla t-sne jest intuicja oprócz tylko przestrzeni, którą definiujemy do mapowania i minimalizacji odległości KL?
Chciałbym zmniejszyć wymiarowość na prawie 1 milionach wektorów, każdy o 200 wymiarach ( doc2vec). Używam do tego TSNEimplementacji z sklearn.manifoldmodułu, a głównym problemem jest złożoność czasu. Mimo method = barnes_hutto szybkość obliczeń jest wciąż niska. Czasami nawet kończy się pamięć. Używam go na 48-rdzeniowym procesorze z 130G RAM. Czy istnieje …
Mam dużą rzadką macierz użytkowników i przedmiotów, które lubią (rzędu 1 mln użytkowników i 100 000 przedmiotów, z bardzo niskim poziomem rzadkości). Badam sposoby, w jakie mogę na nim przeprowadzić wyszukiwanie kNN. Biorąc pod uwagę rozmiar mojego zbioru danych i niektóre wstępne testy, które przeprowadziłem, zakładam, że metoda, której użyję, …
Wyodrębnianie funkcji i wybór funkcji zasadniczo zmniejszają wymiarowość danych, ale ekstrakcja funkcji sprawia, że dane są bardziej rozdzielne, jeśli mam rację. Która technika byłaby lepsza od drugiej i kiedy? Myślałem, ponieważ ponieważ wybór funkcji nie modyfikuje oryginalnych danych i ich właściwości, zakładam, że użyjesz wyboru funkcji, gdy ważne jest, aby …
Rozumiem z artykułu Hintona, że T-SNE wykonuje dobrą robotę, utrzymując lokalne podobieństwa i przyzwoitą pracę, zachowując globalną strukturę (klasterizacja). Nie jestem jednak pewien, czy punkty pojawiające się bliżej w wizualizacji 2D t-sne można założyć jako „bardziej podobne” punkty danych. Używam danych z 25 funkcjami. Jako przykład, obserwując poniższy obrazek, mogę …
Z powodu różnych przekleństw wymiarowych dokładność i szybkość wielu popularnych technik predykcyjnych obniżają się w przypadku danych o dużych wymiarach. Jakie są najbardziej przydatne techniki / triki / heurystyki, które pomagają skutecznie radzić sobie z danymi wielowymiarowymi? Na przykład, Czy niektóre metody statystyczne / modelujące działają dobrze na wielowymiarowych zestawach …
W żadnym wypadku nie jestem ekspertem od autoencoderów ani sieci neuronowych, więc wybacz mi, jeśli to głupie pytanie. W celu zmniejszenia wymiarów lub wizualizacji klastrów w danych wielowymiarowych możemy użyć autoenkodera, aby utworzyć (stratną) reprezentację dwuwymiarową poprzez sprawdzenie wyniku warstwy sieci z 2 węzłami. Na przykład w poniższej architekturze sprawdzilibyśmy …
Cześć, mam ramkę danych z dużymi wartościami kategorialnymi ponad 1600 kategorii. Czy mogę znaleźć alternatywy, aby nie mieć ponad 1600 kolumn. Znalazłem to poniżej ciekawy link http://amunategui.github.io/feature-hashing/#sourcecode Ale konwertują na klasę / obiekt, którego nie chcę. Czy chcę, aby końcowy wynik był ramką danych, aby móc testować za pomocą różnych …
Mam zestaw danych z ~ 1 milionami wierszy i ~ 500 tysięcy rzadkich funkcji. Chcę zmniejszyć wymiarowość do gdzieś rzędu gęstych funkcji 1K-5K. sklearn.decomposition.PCAnie działa na rzadkich danych i próbowałem użyć, sklearn.decomposition.TruncatedSVDale dość szybko pojawia się błąd pamięci. Jakie są moje opcje skutecznego zmniejszenia wymiarów na tej skali?
Prototypuję aplikację i potrzebuję modelu językowego, aby obliczyć zakłopotanie w przypadku niektórych wygenerowanych zdań. Czy istnieje jakiś wyuczony model języka w Pythonie, którego można łatwo używać? Coś prostego jak model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < …
Mam 200 punktów danych, które mają takie same wartości we wszystkich funkcjach. Po zmniejszeniu wymiaru t-SNE nie wyglądają już tak równo, tak jak poniżej: Dlaczego nie są w tym samym punkcie wizualizacji, a nawet wydają się być podzieleni na dwa różne klastry?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.