Pytania otagowane jako classification

Klasyfikacja statystyczna to problem identyfikacji subpopulacji, do której należą nowe obserwacje, w przypadku których tożsamość subpopulacji nie jest znana, na podstawie zestawu danych szkoleniowych zawierających obserwacje, których subpopulacja jest znana. Dlatego te klasyfikacje wykażą zmienne zachowanie, które można zbadać za pomocą statystyk.

1
Ocena klasyfikatorów: krzywe uczenia się vs krzywe ROC
Chciałbym porównać 2 różne klasyfikatory dla problemu klasyfikacji tekstów wieloklasowych, które wykorzystują duże zestawy danych szkoleniowych. Wątpię, czy powinienem użyć krzywych ROC, czy krzywych uczenia się, aby porównać 2 klasyfikatory. Z jednej strony krzywe uczenia się są przydatne do decydowania o wielkości zbioru danych szkoleniowych, ponieważ można znaleźć rozmiar zbioru …

4
Czy AUC prawdopodobieństwo prawidłowej klasyfikacji losowo wybranej instancji z każdej klasy?
Przeczytałem ten podpis w gazecie i nigdy nie widziałem AUC opisanego w ten sposób nigdzie indziej. Czy to prawda? Czy istnieje dowód lub prosty sposób, aby to zobaczyć? Ryc. 2 pokazuje dokładność predykcji zmiennych dychotomicznych wyrażonych jako obszar pod krzywą charakterystyczną dla działania odbiornika (AUC), co jest równoważne prawdopodobieństwu prawidłowej …

2
Czy f-Measure jest synonimem dokładności?
Rozumiem, że miara f (oparta na precyzji i przywołaniu) jest oszacowaniem dokładności klasyfikatora. Ponadto, gdy mamy niezrównoważony zestaw danych , f-miara jest ważniejsza od dokładności . Mam proste pytanie (które dotyczy bardziej prawidłowej terminologii niż technologii). Mam niezrównoważony zestaw danych i używam miary F w swoich eksperymentach. Mam zamiar napisać …


3
Kiedy użyjesz PCA zamiast LDA w klasyfikacji?
Czytam ten artykuł na temat różnicy między zasadową analizą składową a analizą wielokrotnych dyskryminacji (liniowa analiza dyskryminacyjna) i próbuję zrozumieć, dlaczego kiedykolwiek używałbyś PCA zamiast MDA / LDA. Wyjaśnienie podsumowano w następujący sposób: z grubsza mówiąc w PCA staramy się znaleźć osie o maksymalnych wariancjach, w których dane są najbardziej …

3
Przypadki użycia RBF SVM (vs regresja logistyczna i losowy las)
Obsługiwane maszyny wektorowe z jądrem funkcji podstawy radialnej to nadzorowany klasyfikator ogólnego przeznaczenia. Chociaż znam teoretyczne podstawy tych maszyn wirtualnych i ich mocne strony, nie znam przypadków, w których są one preferowaną metodą. Czy istnieje klasa problemów, dla których SVM RBF są lepsze od innych technik ML? (Pod względem punktacji …

4
Nadmierne dopasowanie za pomocą klasyfikatorów liniowych
Dzisiaj nasz profesor stwierdził w klasie, że „nadmierne dopasowanie do klasyfikatorów liniowych nie jest możliwe”. Uważam, że jest to błędne, ponieważ nawet klasyfikatory liniowe mogą być wrażliwe na wartości odstające w zestawie szkoleniowym - na przykład twardy margines Maszyna wsparcia wektorowego: Jeden pojedynczy hałaśliwy punkt danych może zmienić, która hiperpłaszczyzna …

2
Zastosowanie PCA do testowania danych do celów klasyfikacji
Niedawno dowiedziałem się o cudownym PCA i zrobiłem przykład opisany w dokumentacji scikit-learn . Chcę wiedzieć, jak mogę zastosować PCA do nowych punktów danych do celów klasyfikacji. Po wizualizacji PCA w płaszczyźnie dwuwymiarowej (oś x, y) widzę, że prawdopodobnie mogę narysować linię, aby oddzielić punkty danych, tak aby jedna strona …

1
Krzywe ROC dla niezrównoważonych zestawów danych
Rozważ macierz wejściową i wyjście binarne .XXXyyy Częstym sposobem pomiaru wydajności klasyfikatora jest użycie krzywych ROC. Na wykresie ROC przekątna jest wynikiem, który można uzyskać z losowego klasyfikatora. W przypadku niezrównoważonego wyjścia wydajność losowego klasyfikatora można poprawić, wybierając lub z różnymi prawdopodobieństwami.yyy000111 Jak wydajność takiego klasyfikatora można przedstawić na wykresie …

2
Jak zmienić próg klasyfikacji w R randomForests?
Cała literatura na temat modelowania rozmieszczenia gatunków sugeruje, że przy przewidywaniu obecności / nieobecności gatunku przy użyciu modelu, który generuje prawdopodobieństwa (np. RandomForests), ważny jest wybór progowej prawdopodobieństwa, według której można faktycznie sklasyfikować gatunek jako obecność lub nieobecność i należy nie zawsze polegają na domyślnej wartości 0,5. Potrzebuję w tym …

3
Jak wizualizować bayesowską dobroć do regresji logistycznej
Dla problemu bayesowskiej regresji logistycznej stworzyłem rozkład predykcyjny boczny. Próbuję z rozkładu predykcyjnego i otrzymuję tysiące próbek (0,1) dla każdej mojej obserwacji. Wizualizacja dobroci dopasowania jest mniej niż interesująca, na przykład: Ten wykres pokazuje 10 000 próbek + zaobserwowany punkt odniesienia (sposób w lewo można dostrzec czerwoną linię: tak, to …

1
Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?
Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
Skąd wziął się termin „nauczyć się modelu”
Często słyszałem, że tutaj górnicy danych używają tego terminu. Jako statystyk, który pracował nad problemami z klasyfikacją, znam pojęcie „trenuj klasyfikatora” i zakładam, że „ucz się modelu” oznacza to samo. Nie mam nic przeciwko określeniu „szkolić klasyfikatora”. To wydaje się przedstawiać ideę dopasowania modelu, ponieważ dane szkoleniowe są wykorzystywane do …

1
O korelacji kopenetycznej dla grupowania dendrogramu
Rozważ kontekst klastrowania dendrogramu. Nazwijmy pierwotne odmienności odległościami między jednostkami. Po skonstruowaniu dendrogramu definiujemy khenetyczną odmienność między dwoma osobami jako odległość między skupieniami, do których te osoby należą. Niektóre osoby uważają, że korelacja między pierwotnymi odmiennościami a kopenetycznymi odmiennościami (zwana korelacją kopenetyczną ) jest „wskaźnikiem przydatności” klasyfikacji. Brzmi dla mnie …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.