Odpowiedzi:
Pula wskaźników błędów, które możesz wybrać, różni się między klasyfikacją a regresją. W tym ostatnim próbujesz przewidzieć jedną ciągłą wartość, a za pomocą klasyfikacji przewidujesz dyskretne klasy, takie jak „zdrowy” lub „niezdrowy”. Z przytoczonych przykładów błąd średniej kwadratowej pierwiastka miałby zastosowanie do regresji, a AUC do klasyfikacji z dwiema klasami.
Pozwól, że dam ci trochę więcej szczegółów na temat klasyfikacji. Wspominałeś AUC jako miarę, która jest obszarem pod krzywą ROC, który zwykle stosuje się tylko do problemów z klasyfikacją binarną dla dwóch klas. Chociaż istnieją sposoby konstruowania krzywej ROC dla więcej niż dwóch klas, tracą one prostotę krzywej ROC dla dwóch klas. Ponadto krzywe ROC można skonstruować tylko wtedy, gdy wybrany klasyfikator generuje pewien wynik związany z każdą prognozą. Na przykład regresja logistyczna da ci prawdopodobieństwa dla każdej z dwóch klas. Oprócz swojej prostoty krzywe ROC mają tę zaletę, że nie wpływa na nie stosunek między instancjami oznaczonymi pozytywnie i negatywnie w twoich zestawach danych i nie zmuszają cię do wyboru progu. Niemniej jednak zaleca się nie tylko spojrzenie na samą krzywą ROC, ale także inne wizualizacje. Polecam rzucić okiem na krzywe precyzji przywołania i krzywe kosztów.jeden prawdziwy pomiar błędu, wszystkie mają swoją siłę i słabości.
Pomocna w tym zakresie jest literatura:
Jeśli twój klasyfikator nie zapewnia jakiegoś wyniku, musisz wrócić do podstawowych miar, które można uzyskać z macierzy pomieszania zawierającej liczbę prawdziwie pozytywnych, fałszywie pozytywnych, prawdziwych negatywów i fałszywych negatywów. Wspomniane wizualizacje (ROC, przywołanie precyzji, krzywa kosztów) opierają się na tych tabelach uzyskanych przy użyciu innego progu wyniku klasyfikatora. Najbardziej popularną miarą w tym przypadku jest prawdopodobnie miara F1
Pozwól, że dodam jeszcze kilka przemyśleń do już istniejących odpowiedzi.
w zależności od projektu badania ogólna część prawidłowo lub źle sklasyfikowanych próbek może być odpowiednim podsumowaniem lub nie, a wnioski, które można z tego wyciągnąć, będą również zależeć od projektu badania: Czy dane z testu odzwierciedlają wcześniejsze prawdopodobieństwa (rozpowszechnienie) zajęcia? Dla populacji, w której ma być używany twój klasyfikator? Czy zostało zebrane w sposób warstwowy? Jest to ściśle związane z faktem, że większość użytkowników klasyfikatora bardziej interesują się wartościami predykcyjnymi, ale czułość i swoistość są znacznie łatwiejsze do zmierzenia.
Pytasz o ogólne wytyczne. Jedną ogólną wskazówką jest to, że musisz wiedzieć
Myślę, że nie będziesz w stanie znaleźć przydatnych danych, jeśli nie będziesz w stanie odpowiedzieć na te pytania.
To trochę tak, jakby nie było też darmowego lunchu podczas walidacji klasyfikatora.
Oczekiwany poziom błędu błędnej klasyfikacji to metoda, której najczęściej używałem i którą widziałem. AUC ROC jest miarą zestawu reguł klasyfikacji. Jeśli chodzi o porównanie konkretnego klasyfikatora z innym, AUC nie jest właściwe. Pewna forma błędu klasyfikacji ma największy sens, ponieważ najbardziej bezpośrednio reprezentuje działanie reguły klasyfikacji.
Wiele wysiłku włożono w znalezienie dobrych oszacowań poziomu błędu klasyfikacji ze względu na duże odchylenie szacunków dotyczących ponownej substytucji i dużą zmienność pomijania. Uruchomiono estymatory rozruchowe i gładkie. Zobacz na przykład artykuł Efrona w JASA 1983 na temat ulepszeń bootstrapu w stosunku do weryfikacji krzyżowej.
Oto raport techniczny Uniwersytetu Stanforda z 1995 roku autorstwa Efrona i Tibshirami, podsumowujący literaturę, w tym niektóre z moich własnych prac.