Statystyki i duże zbiory danych unsupervised-learning

1

Odległy nadzór: nadzorowany, częściowo nadzorowany, czy oba?

„Daleki nadzór” to schemat uczenia się, w którym klasyfikator uczy się, biorąc pod uwagę słabo oznakowany zestaw treningowy (dane treningowe są automatycznie oznaczane na podstawie heurystyki / zasad). Uważam, że zarówno nauczanie nadzorowane, jak i nauczanie częściowo nadzorowane może obejmować taki „zdalny nadzór”, jeśli ich oznaczone dane są heurystycznie / …

20 machine-learning data-mining dataset references unsupervised-learning

1

Jak zdefiniować liczbę klastrów w klastrowaniu K-oznacza?

Czy jest jakiś sposób na określenie optymalnej liczby klastrów, czy powinienem po prostu wypróbować różne wartości i sprawdzić poziomy błędów, aby wybrać najlepszą wartość?

19 clustering unsupervised-learning

4

Jak zrozumieć wady hierarchicznego grupowania?

Czy ktoś może wyjaśnić zalety i wady hierarchicznego grupowania? Czy klastrowanie hierarchiczne ma te same wady, co oznacza K? Jakie są zalety Hierarchical Clustering nad K? Kiedy powinniśmy używać środków K zamiast hierarchicznego grupowania i odwrotnie? Odpowiedzi na ten post wyjaśnia wady k oznacza bardzo dobrze. Jak zrozumieć wady K-średnich

19 clustering k-means unsupervised-learning hierarchical-clustering

3

Jak wybrać optymalną liczbę ukrytych czynników w nieujemnym rozkładzie macierzy?

Biorąc pod uwagę macierz , Faktoryzacja macierzy nieujemnej (NMF) znajduje dwie nieujemne macierze i ( tzn. ze wszystkimi elementami ) do reprezentowania rozłożonej macierzy jako:Vm×nVm×n\mathbf V^{m \times n}H k × n ≥0Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf V \approx \mathbf W\mathbf H, na przykład wymagając, aby nieujemne …

16 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Czy istnieje „regresja bez nadzoru”?

Jeśli mam rację, „klasyfikacja bez nadzoru” jest taka sama jak klastrowanie. Czy zatem istnieje „regresja bez nadzoru”? Dzięki!

15 regression unsupervised-learning

3

Co to jest mieszanie danych?

Termin ten pojawia się często w wątkach związanych z metodą . Czy łączenie określonej metody w eksploracji danych i uczeniu statystycznym? Nie mogę uzyskać odpowiedniego wyniku z Google. Wydaje się, że łączenie miesza wyniki z wielu modeli i daje lepszy wynik. Czy jest jakiś zasób, który pomaga mi dowiedzieć się …

15 machine-learning data-mining unsupervised-learning statistical-learning

4

Czym * jest * sztuczna sieć neuronowa?

Zagłębiając się w literaturę o sieciach neuronowych , identyfikujemy inne metody z topologiami neuromorficznymi (architektury podobne do „sieci neuronowej”). I nie mówię o uniwersalnym twierdzeniu o aproksymacji . Przykłady podano poniżej. Zastanawiam się: jaka jest definicja sztucznej sieci neuronowej? Wygląda na to, że jego topologia obejmuje wszystko. Przykłady: Jedną z …

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

4

Jak zmierzyć kształt klastra?

Wiem, że to pytanie nie jest dobrze zdefiniowane, ale niektóre gromady mają tendencję do bycia eliptycznymi lub leżą w przestrzeni o mniejszych wymiarach, podczas gdy inne mają kształty nieliniowe (w przykładach 2D lub 3D). Czy istnieje jakakolwiek miara nieliniowości (lub „kształtu”) klastrów? Zauważ, że w przestrzeni 2D i 3D nie …

14 unsupervised-learning clustering

3

Wybór hiperparametrów za pomocą T-SNE do klasyfikacji

W specyficznym problemie, z którym pracuję (konkurs) mam następujące ustawienie: 21 funkcji (numerycznie na [0,1]) i wyjście binarne. Mam około 100 K. wierszy. Ustawienie wydaje się być bardzo głośne. Ja i inni uczestnicy stosujemy generowanie funkcji przez jakiś czas, a osadzanie t-rozproszonego stochastycznego sąsiada okazało się w tym otoczeniu dość …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

4

Inicjalizowanie centrów K-średnich za pomocą losowych podpróbek zestawu danych?

Jeśli mam określony zestaw danych, jak mądre byłoby inicjowanie centrów klastrowych przy użyciu losowych próbek tego zestawu danych? Załóżmy na przykład, że chcę 5 clusters. Przyjmuję, 5 random samplespowiedzmy, size=20%oryginalny zestaw danych. Czy mogę wziąć średnią z każdej z 5 losowych próbek i użyć tych środków jako moich 5 początkowych …

13 clustering k-means unsupervised-learning

1

Czy jest jakaś różnica między odległym nadzorem, samokształceniem, samokontrolą uczenia się i słabym nadzorem?

Z tego co przeczytałem: Odległy nadzór : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label …

12 machine-learning terminology unsupervised-learning semi-supervised

4

Czy można porównać różne metody klastrowania w zbiorze danych bez prawdziwej prawdy poprzez wzajemną weryfikację?

Obecnie próbuję przeanalizować zestaw danych dokumentu tekstowego, który nie ma podstawowej prawdy. Powiedziano mi, że możesz użyć k-krotnego sprawdzania poprawności, aby porównać różne metody klastrowania. Jednak przykłady, które widziałem w przeszłości, wykorzystują podstawową prawdę. Czy istnieje sposób na użycie zestawu K-fold w tym zestawie danych do zweryfikowania moich wyników?

12 machine-learning clustering cross-validation unsupervised-learning

2

Zastosowanie uczenia maszynowego do filtrowania DDoS

Na kursie uczenia maszynowego Stanforda Andrew Ng wspomniał o stosowaniu ML w IT. Jakiś czas później, kiedy dostałem DDoS o średniej wielkości (około 20 tys. Botów) na naszej stronie, postanowiłem z nim walczyć za pomocą prostego klasyfikatora sieci neuronowej. Napisałem ten skrypt Pythona w około 30 minut: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos Wykorzystuje pyBrain …

12 classification neural-networks unsupervised-learning

5

Grupowanie SOM dla zmiennych nominalnych / kołowych

Zastanawiam się tylko, czy ktoś jest zaznajomiony z grupowaniem nominalnych danych wejściowych. Patrzyłem na SOM jako rozwiązanie, ale najwyraźniej działa tylko z funkcjami numerycznymi. Czy są jakieś rozszerzenia dla funkcji jakościowych? W szczególności zastanawiałem się nad „Dniami tygodnia” jako możliwymi funkcjami. Oczywiście możliwe jest przekonwertowanie go na funkcję numeryczną (tj. …

11 clustering unsupervised-learning self-organizing-maps

Pytania otagowane jako unsupervised-learning