AIC i statystyka c próbują odpowiedzieć na różne pytania. (W ostatnich latach poruszono także pewne problemy ze statystyką c, ale przejdę do tego na bok)
Z grubsza mówiąc:
- AIC mówi ci, jak dobrze twój model pasuje do określonego kosztu błędnej klasyfikacji.
- AUC mówi ci, jak dobry byłby Twój model średnio przy wszystkich kosztach błędnej klasyfikacji.
Kiedy obliczasz AIC, traktujesz swoją logistykę, podając prognozę powiedzmy 0,9 jako prognozę 1 (tj. Bardziej prawdopodobne 1 niż 0), jednak nie musi tak być. Możesz wziąć swój wynik logistyczny i powiedzieć „cokolwiek powyżej 0,95 to 1, wszystko poniżej to 0”. Dlaczego miałbyś to zrobić? Zapewniłoby to, że możesz przewidzieć tylko jeden, gdy jesteś naprawdę pewny siebie. Twój współczynnik fałszywie dodatnich będzie naprawdę bardzo niski, ale twój fałszywy ujemny będzie gwałtowny. W niektórych sytuacjach nie jest to złe - jeśli masz zamiar oskarżyć kogoś o oszustwo, prawdopodobnie najpierw naprawdę chcesz być naprawdę pewien. Ponadto, jeśli śledzenie pozytywnych wyników jest bardzo drogie, nie chcesz ich zbyt wielu.
Dlatego dotyczy kosztów. Koszt jest klasyfikowany jako 1 jako 0, a koszt klasyfikowany jako 0. Zazwyczaj (zakładając, że użyto domyślnej konfiguracji) AIC dla regresji logistycznej odnosi się do szczególnego przypadku, gdy obie błędne klasyfikacje są jednakowe kosztowny. Oznacza to, że regresja logistyczna zapewnia najlepszą ogólną liczbę poprawnych prognoz, bez preferencji dla wartości dodatnich lub ujemnych.
Wykorzystywana jest krzywa ROC, ponieważ wykreśla ona wartość rzeczywistą dodatnią względem wartości fałszywie dodatniej, aby pokazać, jak działałby klasyfikator, gdyby zastosował ją przy różnych kosztach. Statystyka c powstaje, ponieważ każda krzywa ROC, która leży dokładnie nad inną, jest wyraźnie dominującym klasyfikatorem. Dlatego intuicyjny jest pomiar obszaru pod krzywą jako miara tego, jak dobry jest ogólnie klasyfikator.
Zasadniczo, jeśli znasz swoje koszty przy montażu modelu, użyj AIC (lub podobnego). Jeśli dopiero konstruujesz wynik, ale nie określasz progu diagnostycznego, potrzebne są podejścia AUC (z następującym zastrzeżeniem dotyczącym samego AUC).
Więc co jest nie tak z c-statystyka / AUC / Gini?
Przez wiele lat AUC było standardowym podejściem i jest nadal szeroko stosowane, jednak istnieje z tym wiele problemów. Jedną z rzeczy, która sprawiła, że była szczególnie atrakcyjna, było to, że odpowiada testowi Wilcoxa w szeregach klasyfikacji. Oznacza to, że mierzy się prawdopodobieństwo, że wynik losowo wybranego członka jednej klasy będzie wyższy niż losowo wybrany członek innej klasy. Problem polega na tym, że prawie nigdy nie jest to użyteczna miara.
Najważniejsze problemy z AUC zostały opublikowane przez Davida Handa kilka lat temu. (Patrz odnośniki poniżej) Istotą problemu jest to, że podczas gdy AUC osiąga średnią wszystkich kosztów, ponieważ oś X krzywej ROC to Fałszywy wskaźnik dodatni, waga przypisywana różnym systemom kosztów różni się między klasyfikatorami. Jeśli więc obliczysz AUC dla dwóch różnych regresji logicznych, nie będzie to oznaczało „tego samego” w obu przypadkach. Oznacza to, że porównywanie modeli opartych na AUC nie ma sensu.
Hand zaproponował alternatywne obliczenia przy użyciu stałej wagi kosztów i nazwał to miarą H - w pakiecie o nazwie R hmeasure
wykona się to obliczenie i uważam, że AUC do porównania.
Niektóre odniesienia do problemów z AUC:
Kiedy obszar pod krzywą charakterystyczną pracy odbiornika jest odpowiednią miarą wydajności klasyfikatora? DJ Hand, C. Anagnostopoulos Pattern Recognition Letters 34 (2013) 492–495
(Uważam, że jest to szczególnie dostępne i przydatne wyjaśnienie)