Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

3
Dlaczego naiwni klasyfikatorzy bayesowscy tak dobrze sobie radzą?
Klasyfikatory Naive Bayes są popularnym wyborem przy problemach z klasyfikacją. Istnieje wiele powodów, w tym: „Zeitgeist” - powszechna świadomość po sukcesie filtrów antyspamowych około dziesięć lat temu Łatwy do napisania Model klasyfikatora jest szybki w budowie Model można modyfikować za pomocą nowych danych treningowych bez konieczności jego odbudowywania Są jednak …

2
ImageNet: co to jest wskaźnik błędów w pierwszej i piątce?
W dokumentach klasyfikacyjnych ImageNet wskaźniki błędu 1 i 5 są ważnymi jednostkami do pomiaru sukcesu niektórych rozwiązań, ale jakie są te poziomy błędów? W ImageNet Classification with Deep Convolutional Neural Networks autorstwa Krizhevsky i in. każde rozwiązanie oparte na jednym CNN (strona 7) nie ma najwyższych 5 poziomów błędów, podczas …

3
Zastosuj osadzanie wyrazów do całego dokumentu, aby uzyskać wektor cech
Jak użyć osadzania wyrazów, aby zamapować dokument na wektor cech, odpowiedni do zastosowania w uczeniu nadzorowanym? Słowo osadzanie odwzorowuje każdy wyraz www w wektor v∈Rdv∈Rdv \in \mathbb{R}^d , gdzie ddd jest około niezbyt dużą ilość (na przykład 500). Popularne osadzanie słów to word2vec i Glove . Chcę zastosować nadzorowaną naukę …


3
SVM, Nadmierne dopasowanie, przekleństwo wymiarowości
Mój zestaw danych jest niewielki (120 próbek), jednak liczba funkcji jest duża i waha się od (1000-200 000). Chociaż dokonuję wyboru funkcji, aby wybrać podzbiór funkcji, może się ona nadal nadpisywać. Moje pierwsze pytanie brzmi: w jaki sposób SVM radzi sobie z nadmiernym dopasowaniem, jeśli w ogóle. Po drugie, kiedy …

2
Regresja logistyczna a LDA jako klasyfikatory dwuklasowe
Próbuję owinąć głowę wokół różnicy statystycznej między liniową analizą dyskryminacyjną a regresją logistyczną . Czy słusznie rozumiem, że w przypadku problemu klasyfikacji dwóch klas LDA przewiduje dwie funkcje gęstości normalnej (po jednej dla każdej klasy), które tworzą granicę liniową w miejscu ich przecięcia, podczas gdy regresja logistyczna przewiduje jedynie funkcję …

3
PCA i podział pociąg / test
Mam zestaw danych, dla którego mam wiele zestawów etykiet binarnych. Dla każdego zestawu etykiet uczę klasyfikatora, oceniając go poprzez walidację krzyżową. Chcę zmniejszyć wymiarowość za pomocą analizy głównych składników (PCA). Moje pytanie brzmi: Czy możliwe jest wykonanie PCA raz dla całego zestawu danych, a następnie użycie nowego zestawu danych o …

3
Jak interpretować macierz OOB i zamieszanie dla losowego lasu?
Mam od kogoś skrypt R do uruchomienia losowego modelu lasu. Zmodyfikowałem i uruchomiłem go z niektórymi danymi pracowników. Staramy się przewidzieć dobrowolne separacje. Oto kilka dodatkowych informacji: jest to model klasyfikacji, w którym 0 = pracownik został, 1 = pracownik został zakończony, obecnie obserwujemy tylko tuzin zmiennych predykcyjnych, dane są …

5
Darmowy zestaw danych do bardzo wysokiej klasyfikacji wymiarowej [zamknięty]
Jaki jest swobodnie dostępny zestaw danych do klasyfikacji z ponad 1000 cech (lub punktów próbkowania, jeśli zawiera krzywe)? Istnieje już wiki społeczności o wolnych zestawach danych: Lokalizowanie swobodnie dostępnych próbek danych Ale tutaj byłoby miło mieć bardziej szczegółową listę, z której można wygodniej korzystać , proponuję również następujące zasady: Jeden …

3
Dlaczego t-SNE nie jest stosowany jako technika redukcji wymiarów do grupowania lub klasyfikacji?
W ostatnim zadaniu powiedziano nam, abyśmy używali PCA na cyfrach MNIST, aby zmniejszyć wymiary z 64 (8 x 8 obrazów) do 2. Następnie musieliśmy grupować cyfry za pomocą Gaussian Mixture Model. PCA wykorzystujące tylko 2 główne komponenty nie daje wyraźnych klastrów, w wyniku czego model nie jest w stanie wytworzyć …

3
Jak interpretować średni spadek dokładności i średni spadek GINI w losowych modelach leśnych
Mam trudności ze zrozumieniem, jak interpretować dane wyjściowe o zmiennej ważności z pakietu Losowy las. Średni spadek dokładności jest zwykle opisywany jako „spadek dokładności modelu po permutacji wartości w każdej funkcji”. Czy to stwierdzenie o obiekcie jako całości, czy o określonych wartościach w obiekcie? W obu przypadkach, czy średni spadek …

3
Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?
Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

3
Co oznacza „słaby uczeń”?
Czy ktoś może mi powiedzieć, co oznacza wyrażenie „słaby uczeń”? Czy to ma być słaba hipoteza? Jestem zmieszany relacją między słabym uczniem a słabym klasyfikatorem. Czy oba są takie same, czy jest jakaś różnica? W algorytmie adaboost, T=10. Co to znaczy? Dlaczego wybieramy T=10?


6
Klasyfikacja statystyczna tekstu
Jestem programistą bez tła statystycznego i obecnie szukam różnych metod klasyfikacji dla dużej liczby różnych dokumentów, które chcę zaklasyfikować do wstępnie zdefiniowanych kategorii. Czytałem o kNN, SVM i NN. Mam jednak problemy z rozpoczęciem pracy. Jakie zasoby polecasz? Znam rachunek jednej zmiennej i rachunek wielu zmiennych całkiem dobrze, więc moja …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.