Interesuje mnie ręczne obliczanie pola pod krzywą (AUC) lub statystyki c dla binarnego modelu regresji logistycznej. Na przykład w zbiorze danych sprawdzania poprawności mam prawdziwą wartość zmiennej zależnej retencji (1 = zachowane; 0 = nie zachowane), a także przewidywany status retencji dla każdej obserwacji wygenerowanej przez moją analizę regresji przy …
Akaike Information Criterion (AIC) i c-statystyka (pole pod krzywą ROC) to dwie miary dopasowania modelu do regresji logistycznej. Mam problem z wyjaśnieniem, co się dzieje, gdy wyniki dwóch miar nie są spójne. Wydaje mi się, że mierzą nieco inne aspekty dopasowania modelu, ale jakie są te szczególne aspekty? Mam 3 …
Mam dwa klasyfikatory Odp .: naiwna sieć bayesowska B: drzewo (pojedynczo połączona) sieć bayesowska Pod względem dokładności i innych miar A wykonuje się stosunkowo gorzej niż B. Jednak gdy używam pakietów R ROCR i AUC do wykonania analizy ROC, okazuje się, że AUC dla A jest wyższe niż AUC dla …
Czy średnia precyzja (AP) to obszar pod krzywą Precyzja-przywołanie (AUC krzywej PR)? EDYTOWAĆ: oto komentarz na temat różnicy w AUC PR i AP. AUC jest uzyskiwane przez trapezoidalną interpolację precyzji. Alternatywnym i zwykle prawie równoważnym miernikiem jest średnia precyzja (AP), zwracana jako info.ap. Jest to średnia precyzji uzyskanej za każdym …
W dyskusji: jak wygenerować krzywą roc do klasyfikacji binarnej , myślę, że zamieszanie polegało na tym, że „klasyfikator binarny” (który jest dowolnym klasyfikatorem, który oddziela 2 klasy) był dla Yang tak zwany „dyskretny klasyfikator” (który produkuje wyjścia dyskretne 0/1 jak SVM), a nie ciągłe dane wyjściowe, takie jak klasyfikatory ANN …
Poniższy obraz pokazuje ciągłą krzywą współczynników fałszywie dodatnich w stosunku do rzeczywistych wartości dodatnich: Nie od razu jednak rozumiem, jak obliczane są te stawki. Jeśli metoda jest zastosowana do zestawu danych, ma ona określoną szybkość FP i określoną szybkość FN. Czy to nie znaczy, że każda metoda powinna mieć jeden …
Preambuła To jest długi post. Jeśli ponownie to czytasz, pamiętaj, że poprawiłem część pytania, chociaż materiał tła pozostaje taki sam. Dodatkowo uważam, że opracowałem rozwiązanie problemu. To rozwiązanie pojawia się na dole wpisu. Dzięki CliffAB za wskazanie, że moje oryginalne rozwiązanie (edytowane z tego postu; zobacz historię edycji tego rozwiązania) …
Używam klasyfikatora, który zwraca prawdopodobieństwa. Aby obliczyć AUC, używam pakietu pROC R. Prawdopodobieństwa wyjściowe z klasyfikatora są następujące: probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probspokazuje prawdopodobieństwo zaliczenia do klasy „1”. Jak pokazano, klasyfikator sklasyfikował wszystkie próbki w klasie „1”. Prawdziwy wektor etykiety to: truel=c(1, 1, 1, …
Mam wątpliwości co do tego, który miernik wydajności zastosować, obszar pod krzywą ROC (TPR jako funkcja FPR) lub obszar pod krzywą precyzja-przywołanie (precyzja jako funkcja przywołania). Moje dane są niezrównoważone, tzn. Liczba negatywnych wystąpień jest znacznie większa niż pozytywnych. Korzystam z prognozy wyjściowej weka, próbka to: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 …
Skonstruowałem krzywą ROC dla systemu diagnostycznego. Pole pod krzywą zostało następnie oszacowane nieparametrycznie na AUC = 0,89. Kiedy próbowałem obliczyć dokładność przy optymalnym ustawieniu progu (punkt najbliższy punktowi (0, 1)), dostałem dokładność układu diagnostycznego na 0,8, czyli mniej niż AUC! Kiedy sprawdziłem dokładność przy innym ustawieniu progu, który jest daleki …
Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
Próbuję użyć funkcji „ gęstości ” w R do oszacowania gęstości jądra. Mam pewne trudności z interpretacją wyników i porównywaniem różnych zestawów danych, ponieważ wydaje się, że obszar pod krzywą niekoniecznie jest 1. Dla każdej funkcji gęstości prawdopodobieństwa (pdf) musimy mieć obszar ∫ ∞ - ∞ ϕ ( x ) …
Przeszkoliłem dwa modele (klasyfikatory binarne przy użyciu h2o AutoML) i chcę wybrać jeden do użycia. Mam następujące wyniki: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 auci loglosskolumny są metryki cross-validation (tylko krzyż walidacja wykorzystuje dane szkolenie). …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.