Statystyki i duże zbiory danych classification

2

Przepraszam, jeśli jest to bardzo oczywiste pytanie, ale czytałem różne posty i nie mogę znaleźć dobrego potwierdzenia. Czy w przypadku klasyfikacji dokładność klasyfikatora = 1 poziom błędu testu ? Rozumiem, że dokładność to , ale moje pytanie dotyczy tego, jak dokładnie są one powiązane z dokładnością i poziomem błędu testu. …

14 classification terminology accuracy

3

PCA w przypadku danych tekstowych o dużych wymiarach przed losową klasyfikacją lasu?

Czy sensowne jest wykonanie PCA przed przeprowadzeniem losowej klasyfikacji lasu? Mam do czynienia z wielowymiarowymi danymi tekstowymi i chcę zrobić redukcję funkcji, aby uniknąć przekleństwa wymiarowości, ale czy losowe lasy już nie zmniejszają wymiarów?

14 classification pca random-forest dimensionality-reduction high-dimensional

2

Matematyka za drzewami klasyfikacji i regresji

Czy ktoś może wyjaśnić matematykę związaną z klasyfikacją w CART? Chcę zrozumieć, jak przebiegają dwa główne etapy. Na przykład przeszkoliłem klasyfikator CART na zestawie danych i użyłem testowego zestawu danych, aby oznaczyć jego predykcyjne działanie, ale: Jak wybiera się początkowy korzeń drzewa? Dlaczego i jak powstaje każda gałąź? Mój zestaw …

14 regression classification data-mining cart

4

Sprawdzanie, czy poprawa dokładności jest znacząca

Załóżmy, że mam algorytm, który dzieli rzeczy na dwie kategorie. Mogę zmierzyć dokładność algorytmu na powiedzmy 1000 rzeczy testowych - załóżmy, że 80% rzeczy jest poprawnie sklasyfikowanych. Załóżmy, że zmodyfikowałem algorytm w taki sposób, aby 81% rzeczy zostało poprawnie sklasyfikowanych. Czy statystyki mogą mi powiedzieć coś o tym, czy moje …

14 statistical-significance classification

4

Jak interpretować krzywą ROC?

Zastosowałem regresję logistyczną do moich danych na SAS i oto krzywa ROC i tabela klasyfikacji. Czuję się dobrze z liczbami w tabeli klasyfikacji, ale nie jestem pewien, co pokazuje krzywa ROC i obszar pod nią. Wszelkie wyjaśnienia byłyby bardzo mile widziane.

14 regression logistic classification roc

3

Jakie powinny być optymalne parametry dla klasyfikatora Random Forest?

Obecnie używam przybornika RF na MATLAB do binarnej klasyfikacji problemu Zestaw danych: 50000 próbek i ponad 250 funkcji Jaka powinna być liczba drzew i losowo wybrana funkcja na każdym podziale, aby rosły drzewa? czy jakikolwiek inny parametr może znacząco wpłynąć na wyniki?

14 machine-learning classification random-forest

2

Jak działa Naive Bayes ze zmiennymi ciągłymi?

Według mojego (bardzo podstawowego) zrozumienia Naive Bayes szacuje prawdopodobieństwa na podstawie częstotliwości klasowych każdej cechy w danych treningowych. Ale jak oblicza częstotliwość zmiennych ciągłych? A kiedy przewidujesz, jak klasyfikuje nową obserwację, która może nie mieć takich samych wartości jak żadna obserwacja w zestawie treningowym? Czy używa jakiegoś pomiaru odległości lub …

14 machine-learning classification bayesian naive-bayes

4

Czy można zastosować średni błąd kwadratowy do klasyfikacji?

Znam formułę średniej kwadratowej błędu i jak ją obliczyć. Kiedy mówimy o regresji, możemy obliczyć średni błąd kwadratu. Czy jednak możemy porozmawiać o MSE dla problemu klasyfikacji i jak go obliczyć?

14 classification error

1

Porównanie dwóch modeli, gdy krzywe ROC krzyżują się

Jednym z powszechnych mierników używanych do porównywania dwóch lub więcej modeli klasyfikacji jest wykorzystanie obszaru pod krzywą ROC (AUC) jako sposób na pośrednią ocenę ich wydajności. W takim przypadku model z większym AUC jest zwykle interpretowany jako działający lepiej niż model z mniejszym AUC. Ale według Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ …

13 machine-learning classification roc auc model-evaluation

4

Czy należy martwić się o wiele kolinearność przy stosowaniu modeli nieliniowych?

Powiedzmy, że mamy problem z klasyfikacją binarną z cechami głównie kategorycznymi. Do nauki tego używamy jakiegoś modelu nieliniowego (np. XGBoost lub Losowe lasy). Czy należy nadal martwić się wielokulturowością? Dlaczego? Jeśli odpowiedź na powyższe pytanie jest prawdziwa, jak należy z tym walczyć, biorąc pod uwagę, że używa się tego rodzaju …

13 classification random-forest multicollinearity xgboost

3

W jaki sposób można wykorzystać modele uczenia maszynowego (GBM, NN itp.) Do analizy przeżycia?

Wiem, że tradycyjne modele statystyczne, takie jak regresja Cox Proportional Hazards i niektóre modele Kaplana-Meiera, można wykorzystać do przewidywania dni do następnego wystąpienia zdarzenia, np. Niepowodzenia itp., Czyli analizy przeżycia pytania W jaki sposób można zastosować wersję regresji modeli uczenia maszynowego, takich jak GBM, sieci neuronowe itp., Aby przewidzieć dni …

13 machine-learning classification survival cox-model kaplan-meier

1

Jak wytrenować warstwę LSTM w sieci głębokiej

Używam sieci lstm i feed-forward do klasyfikowania tekstu. Przekształcam tekst w pojedyncze gorące wektory i wprowadzam każdy do lstm, dzięki czemu mogę podsumować jako pojedynczą reprezentację. Następnie przesyłam go do innej sieci. Ale jak mam trenować lstm? Chcę po prostu sklasyfikować tekst - czy powinienem go karmić bez szkolenia? Chcę …

13 classification neural-networks deep-learning lstm

2

Czy za pomocą pakietu Caret można uzyskać macierze pomyłek dla określonych wartości progowych?

Otrzymałem model regresji logistycznej (via train) dla odpowiedzi binarnej i uzyskałem macierz dezorientacji logistycznej przez confusionMatrixin caret. Daje mi to macierz dezorientacji modelu logistycznego, choć nie jestem pewien, jakiego progu używa się do jej uzyskania. Jak uzyskać macierz nieporozumień dla określonych wartości progowych za pomocą confusionMatrixin caret?

13 r classification roc caret confusion-matrix

2

Jak może działać perceptron wieloklasowy?

Nie mam żadnego tła z matematyki, ale rozumiem, jak działa prosty Perceptron i myślę, że rozumiem pojęcie hiperpłaszczyzny (wyobrażam sobie to geometrycznie jako płaszczyznę w przestrzeni 3D, która oddziela dwie chmury punktów, tak jak linia dzieli się dwie chmury punktów w przestrzeni 2D). Ale nie rozumiem, w jaki sposób jedna …

13 machine-learning classification linear-model multi-class

1

Powielanie tabeli 18.1 z „Elementów uczenia statystycznego”

Tabela 18.1 w Elementy uczenia statystycznego podsumowuje wydajność kilku klasyfikatorów w zestawie danych 14 klas. Porównuję nowy algorytm z lasso i elastyczną siecią dla takich problemów z klasyfikacją wieloklasową. Korzystając z glmnetwersji 1.5.3 (R 2.13.0), nie jestem w stanie odtworzyć punktu 7. ( wielomianowy L_1) w tabeli, w której podano …

13 classification lasso glmnet

Pytania otagowane jako classification