Statystyki i duże zbiory danych classification

3

ImageNet: co oznacza błąd w pierwszej piątce?

Jedną z metod oceny w konkursie ImageNet (klasyfikacja 1000 kategorii obrazów) jest błąd w pierwszej piątce, co to znaczy? Zobacz: http://www.image-net.org/challenges/LSVRC/

9 machine-learning classification computer-vision

1

Standaryzacja funkcji podczas korzystania z LDA jako etapu wstępnego przetwarzania

Jeśli do redukcji wymiarowości (lub transformacji po zmniejszeniu wymiarowości za pomocą PCA) stosuje się wieloklasową liniową analizę dyskryminacyjną (lub czasami czytam też analizę wielokrotnej dyskryminacji), rozumiem, że ogólnie „normalizacja Z-score” (lub standaryzacja) funkcje nie będą konieczne, nawet jeśli są mierzone w zupełnie innych skalach, prawda? Skoro LDA zawiera termin podobny …

9 classification data-transformation normalization standardization discriminant-analysis

1

próg klasyfikacji w RandomForest-sklearn

1) Jak mogę zmienić próg klasyfikacji (domyślnie jest to 0,5) w RandomForest w sklearn? 2) Jak mogę zaniżać próbkę w sklearn? 3) Mam następujący wynik z klasyfikatora RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 0.74 0.87 0.80 4144 śr. / …

9 classification random-forest precision-recall unbalanced-classes

3

Regresja logistyczna: maksymalizacja wyników pozytywnych - wyników fałszywych

Mam model regresji logistycznej (dopasowanie za pomocą glmnet w R z elastyczną regulacją sieci) i chciałbym zmaksymalizować różnicę między wartościami dodatnimi a fałszywymi. W tym celu przyszła mi do głowy następująca procedura: Dopasuj standardowy model regresji logistycznej Używając progu prognozy jako 0,5, zidentyfikuj wszystkie pozytywne prognozy Przypisz wagę 1 dla …

9 r regression logistic classification glmnet

2

Miara wydajności klasyfikatora, która łączy czułość i swoistość?

Mam dane z 2 klasami, na których przeprowadzam klasyfikację przy użyciu wielu klasyfikatorów. A zestawy danych są dobrze wyważone. Oceniając skuteczność klasyfikatorów, muszę wziąć pod uwagę, jak dokładny jest klasyfikator w określaniu nie tylko prawdziwych pozytywów, ale także prawdziwych negatywów. Dlatego jeśli użyję dokładności, a jeśli klasyfikator jest stronniczy w …

9 classification roc model-evaluation sensitivity-specificity

5

Jak zmierzyć wydajność klasyfikatora, gdy blisko 100% etykiet klasy należy do jednej klasy?

W moich danych mam zmienną klasy, oznaczoną jako CCC. Wartościami tej klasy są0,10,1{0, 1}(dwójkowy). Prawie wszystkie obserwacjeCCCwynoszą 0 (blisko 100%, a dokładniej 97%). Chciałbym przeprowadzić test „wydajności” na różnych modelach klasyfikacyjnych (może to być dokładność). Obawiam się, że jeśli mam model klasyfikacji, który zawsze klasyfikuje jakąkolwiek obserwację do klasy 0, …

9 classification binary-data model-evaluation

3

LDA vs. perceptron

Staram się wyczuć, jak LDA „pasuje” do innych nadzorowanych technik uczenia się. Przeczytałem już kilka postów na temat LDA na temat LDA. Znam już perceptron, ale dopiero teraz uczę się LDA. W jaki sposób LDA „pasuje” do rodziny nadzorowanych algorytmów uczenia się? Jakie mogą być jego wady w porównaniu z …

9 machine-learning classification discriminant-analysis supervised-learning

2

Którego jądra SVM należy użyć do problemu klasyfikacji binarnej?

Jestem początkującym, jeśli chodzi o obsługę maszyn wektorowych. Czy istnieją jakieś wytyczne, które mówią, które jądro (np. Liniowe, wielomianowe) najlepiej nadaje się do określonego problemu? W moim przypadku muszę klasyfikować strony internetowe według tego, czy zawierają one określone informacje, czy nie, tj. Mam problem z klasyfikacją binarną. Czy możesz ogólnie …

9 classification svm model-selection libsvm kernel-trick

1

Analiza przeżycia w celu przewidywania zdarzeń

Dla każdego rekordu w moich zestawach danych mam następujące informacje (X1 ,… ,Xm ,δ ,T )(X1 ,… ,Xm ,δ ,T ) (X_1 \ , \dots \ , X_m \ , \delta \ , T \ ) gdzie są funkcjami, wynosi 1, jeśli wystąpi zdarzenie docelowe, a 0 w przeciwnym razie, …

9 classification survival

2

Uczenie się na podstawie danych relacyjnych

Ustawienia Wiele algorytmów działa na jednej relacji lub tabeli, podczas gdy wiele rzeczywistych baz danych przechowuje informacje w wielu tabelach (Domingos, 2003). Pytanie Jakie typy algorytmów uczą się dobrze z wielu (relacyjnych) tabel. W szczególności interesują mnie algorytmy, które mają zastosowanie do zadań regresji i klasyfikacji (nie te zorientowane na …

9 regression machine-learning classification dataset

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

Klasyfikacja z jednym dominującym predyktorem

Mam problem z klasyfikacją ( klasy), rzędu 100 prawdziwych predyktorów, z których jeden wydaje się mieć znacznie większą moc wyjaśniającą niż jakikolwiek inny. Chciałbym głębiej zapoznać się z efektami innych zmiennych. Jednak standardowe techniki uczenia maszynowego (losowe lasy, maszyny SVM itp.) Wydają się być zatapiane przez jeden silny predyktor i …

9 machine-learning classification

2

Usuń duplikaty z zestawu treningowego do klasyfikacji

Powiedzmy, że mam kilka wierszy dotyczących problemu z klasyfikacją: X1, . . .XN., YX1,...XN,YX_1, ... X_N, Y Gdzie są cechami / predyktorami, a to klasa, do której należy kombinacja cech wiersza.X1, . . . ,XN.X1,...,XNX_1, ..., X_NYYY Wiele kombinacji cech i ich klas jest powtarzanych w zestawie danych, którego używam …

9 machine-learning classification data-mining logistic stratification

2

Najnowocześniejsze metody pozwalające znaleźć zero średnich części szeregu czasowego

Mam zaszumione szeregi czasowe, które muszę podzielić na te części ze średnią zerową i te części bez średniej zerowej. Znalezienie granic tak dokładnie, jak to możliwe, jest ważne (jasne, gdzie granica dokładnie leży, jest nieco subiektywne). Wydaje mi się, że można by do tego dostosować wariant cusum, ale ponieważ celem …

9 time-series classification mean change-point

4

Jak przeprowadzić wiele testów chi-kwadrat post-hoc na stole 2 X 3?

Mój zestaw danych obejmuje zarówno całkowitą śmiertelność, jak i przeżycie organizmu w trzech typach miejsc: przybrzeżnym, śródokanałowym i przybrzeżnym. Liczby w poniższej tabeli reprezentują liczbę witryn. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Chciałbym wiedzieć, czy liczba witryn, w których wystąpiła 100% śmiertelność, jest …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

Pytania otagowane jako classification