Tak, możesz zastąpić modele regresji logistycznej. Ale najpierw chciałbym poruszyć kwestię AUC (Obszar pod krzywą charakterystyczną dla odbiornika): Nigdy nie ma uniwersalnych zasad dotyczących AUC.
AUC to prawdopodobieństwo, że losowo pobrana próbka dodatnia (lub przypadek) będzie miała wyższą wartość markera niż ujemna (lub kontrolna), ponieważ AUC jest matematycznie równoważne statystyce U.
To, czym nie jest AUC, to znormalizowana miara dokładności predykcyjnej. Zdarzenia wysoce deterministyczne mogą mieć AUC o wartości predykcyjnej pojedynczej równej 95% lub wyższej (np. W kontrolowanej mechatronice, robotyce lub optyce), niektóre złożone wielowymiarowe modele prognozowania ryzyka logistycznego mają AUC o wartości 64% lub mniejszej, takie jak przewidywanie ryzyka raka piersi, i są one odpowiednio wysoki poziom dokładności predykcyjnej.
Rozsądną wartość AUC, podobnie jak w przypadku analizy mocy, określa się wstępnie, gromadząc wiedzę na temat tła i celów badania apriori . Lekarz / inżynier opisuje, czego chcą, a Ty, statystyki, decydujesz o docelowej wartości AUC dla modelu predykcyjnego. Następnie rozpoczyna się dochodzenie.
Rzeczywiście możliwe jest zastąpienie modelu regresji logistycznej. Oprócz zależności liniowej (jeśli macierz modelu ma niewystarczającą rangę), możesz również mieć idealną zgodność, lub to jest wykres dopasowanych wartości w stosunku do Y doskonale rozróżnia przypadki i kontrole. W takim przypadku parametry nie są zbieżne, ale po prostu znajdują się gdzieś w przestrzeni granicznej, która daje prawdopodobieństwo . Czasami jednak AUC wynosi 1 przypadkowo.∞
Istnieje inny rodzaj błędu, który powstaje w wyniku dodania zbyt wielu predyktorów do modelu, a to jest małe odchylenie próbki. Zasadniczo iloraz szans logarytmicznych modelu regresji logistycznej dąży do uzyskania tendencyjnego współczynnika ze względu na nieupadalność współczynnika szans i zerową liczbę komórek. Wnioskuje się, że jest to obsługiwane przy użyciu warunkowej regresji logistycznej w celu kontrolowania zmiennych mylących i precyzyjnych w analizach warstwowych. Jednak w przewidywaniach jesteś SooL. Nie ma uogólnionej prognozy, gdy masz p ≫ n π ( 1 - π ) , ( π = Prob ( Y = 1 )2 βp ≫ n π( 1 - π)π= Prob ( Y= 1 )), ponieważ masz zagwarantowane modelowanie „danych”, a nie „trendu” w tym momencie. Przewidywanie wysokowymiarowych (dużych ) wyników binarnych jest lepsze w przypadku metod uczenia maszynowego. Zrozumienie liniowej analizy dyskryminacyjnej, częściowych najmniejszych kwadratów, prognoz najbliższego sąsiada, wzmocnienia i losowych lasów byłoby bardzo dobrym miejscem do rozpoczęcia.p