Przebudowa modelu regresji logistycznej

28

Czy można zastąpić model regresji logistycznej? Widziałem wideo z informacją, że jeśli mój obszar pod krzywą ROC jest większy niż 95%, to jest bardzo prawdopodobne, że będzie on nadmiernie dopasowany, ale czy można zastąpić model regresji logistycznej?

logistic overfitting regression-strategies

— carlosedubarreto
źródło

1

Czy możesz powiedzieć, który film, a przynajmniej dać trochę więcej kontekstu?

— Glen_b

2

Jasne @Glen_b, film był taki: link Komentarz był o 40min. Mówiło to: kiedy ROC ma AUC między 0,5 a 0,6, było słabo. Jeśli między 0,6 a 0,7 jest poniżej średniej. Jeśli pomiędzy 0,7 a 0,75 to średnia / Dobra. To między 0,75 a 0,8 to dobrze. Jeśli między 0,8 a 0,9, jest doskonały. Jeśli jest wyższy niż 0,9, jest podejrzany, a jeśli jest wyższy niż 0,95, jest przeregulowany. Uważam, że to wyjaśnienie jest bardzo łatwe do zrozumienia, ale prawda? Ponieważ szukam czegoś, co mogłoby podtrzymać tę myśl, ale nie znajduję.

— carlosedubarreto

I Glen_B, wyjaśnienie udzielone przez @AdamO wydaje się, że wyjaśnienie, które widziałem na wideo, nie było dokładnie właściwe, ale może źle zrozumiałem wyjaśnienie Adama. Te statystyki są bardzo złożone, ale bardzo miło się w to zagłębiam. :)

— carlosedubarreto

Myślę, że wyjaśnienie AdamO jest dobre (głosowałem za nim), ale pytania powinny mieć charakter stały; późniejszy czytelnik (np. ktoś z podobnym pytaniem) może chcieć kontekstu wiedzy o tym, co zostało powiedziane. Myślę, że twój opis w komentarzu daje wystarczający kontekst dla większości ludzi, a link zrobi resztę. Więc dziękuję! Sprawiłeś, że twoje pytanie jest bardziej przydatne.

— Glen_b

Wielkie dzięki @Glen_b, uczę się, jak korzystać z tego wspaniałego narzędzia, które mamy (to forum). Podczas zadawania nowych pytań będę mieć na uwadze Twoją wskazówkę.

— carlosedubarreto

36

Tak, możesz zastąpić modele regresji logistycznej. Ale najpierw chciałbym poruszyć kwestię AUC (Obszar pod krzywą charakterystyczną dla odbiornika): Nigdy nie ma uniwersalnych zasad dotyczących AUC.

AUC to prawdopodobieństwo, że losowo pobrana próbka dodatnia (lub przypadek) będzie miała wyższą wartość markera niż ujemna (lub kontrolna), ponieważ AUC jest matematycznie równoważne statystyce U.

To, czym nie jest AUC, to znormalizowana miara dokładności predykcyjnej. Zdarzenia wysoce deterministyczne mogą mieć AUC o wartości predykcyjnej pojedynczej równej 95% lub wyższej (np. W kontrolowanej mechatronice, robotyce lub optyce), niektóre złożone wielowymiarowe modele prognozowania ryzyka logistycznego mają AUC o wartości 64% lub mniejszej, takie jak przewidywanie ryzyka raka piersi, i są one odpowiednio wysoki poziom dokładności predykcyjnej.

Rozsądną wartość AUC, podobnie jak w przypadku analizy mocy, określa się wstępnie, gromadząc wiedzę na temat tła i celów badania apriori . Lekarz / inżynier opisuje, czego chcą, a Ty, statystyki, decydujesz o docelowej wartości AUC dla modelu predykcyjnego. Następnie rozpoczyna się dochodzenie.

Rzeczywiście możliwe jest zastąpienie modelu regresji logistycznej. Oprócz zależności liniowej (jeśli macierz modelu ma niewystarczającą rangę), możesz również mieć idealną zgodność, lub to jest wykres dopasowanych wartości w stosunku do Y doskonale rozróżnia przypadki i kontrole. W takim przypadku parametry nie są zbieżne, ale po prostu znajdują się gdzieś w przestrzeni granicznej, która daje prawdopodobieństwo . Czasami jednak AUC wynosi 1 przypadkowo. $\infty$

Istnieje inny rodzaj błędu, który powstaje w wyniku dodania zbyt wielu predyktorów do modelu, a to jest małe odchylenie próbki. Zasadniczo iloraz szans logarytmicznych modelu regresji logistycznej dąży do uzyskania tendencyjnego współczynnika ze względu na nieupadalność współczynnika szans i zerową liczbę komórek. Wnioskuje się, że jest to obsługiwane przy użyciu warunkowej regresji logistycznej w celu kontrolowania zmiennych mylących i precyzyjnych w analizach warstwowych. Jednak w przewidywaniach jesteś SooL. Nie ma uogólnionej prognozy, gdy masz , ( $2\beta$ $p \gg n \pi(1-\pi)$ $\pi = \mbox{Prob}(Y=1)$ ), ponieważ masz zagwarantowane modelowanie „danych”, a nie „trendu” w tym momencie. Przewidywanie wysokowymiarowych (dużych ) wyników binarnych jest lepsze w przypadku metod uczenia maszynowego. Zrozumienie liniowej analizy dyskryminacyjnej, częściowych najmniejszych kwadratów, prognoz najbliższego sąsiada, wzmocnienia i losowych lasów byłoby bardzo dobrym miejscem do rozpoczęcia. $p$

— AdamO
źródło

Kiedy mówisz

, myślę, że masz na myśli proporcję czasu, w którym y = 1? A nie suma razy, że y = 1?

y

$y$

— generic_user

To było mylące, p jest liczbą parametrów w modelu, teraz używam

do proporcji. Dzięki za zwrócenie na to uwagi.

π

$\pi$

— AdamO,

Jak określić odpowiednią wartość AUC, do której należy dążyć?

— Kevin H. Lin,

1

@ KevinH.Lin Zależy to od charakteru pytania. Im więcej włączysz odpowiedniej kontekstowo wiedzy, tym lepiej. Byłoby to występowanie lub obciążenie chorobą lub stanem chorobowym, które model ocenia, wydajność istniejących (konkurencyjnych) modeli, kompromisy w zakresie opłacalności oraz polityki związane z przyjęciem nowych praktyk i / lub zaleceń. Nic w tym nie jest czarno-białe, ale podobnie jak wiele innych rzeczy, musisz przekonująco argumentować, aby przekonać i uzasadnić wartość AUC, którą ty, jako statystyk, wstępnie określasz.

— AdamO,

1

@ KevinH.Lin Nie sądzę, aby jakakolwiek prawidłowa odpowiedź była tak jasna i zwięzła, jak ta, której wydajesz się chcieć. To jak pytanie: „Jaki samochód powinienem kupić?” :) Sugeruję przejrzenie artykułów, które badały AUC w odpowiednim obszarze badawczym, który Cię interesuje. Pracowałem głównie w modelach prognozowania ryzyka raka piersi i poprzez prace Tice, Gail i Barlow, między innymi, zauważyłem, że AUC wynosząca 0,65 jest bardzo atrakcyjna dla modeli prognozowania populacyjnych, których częstość występowania wynosi mniej niż 1-20 przypadków incydentów na 5000 osobolat narażonych na ryzyko przy użyciu 7 czynników ryzyka mających RR btn 1,5 i 3.

— AdamO

6

Krótko mówiąc… przebudowany model regresji logistycznej ma dużą wariancję, co oznacza zmiany granic decyzji w dużej mierze dla niewielkiej zmiany zmiennej wielkości. rozważ następujący obraz, ponieważ najbardziej odpowiedni jest przeładowany model logistyczny, jego granice decyzyjne mają duże nie. wzlotów i upadków, podczas gdy środkowy model jest po prostu sprawny, ma umiarkowaną wariancję i umiarkowane odchylenie. lewy jest niedopasowany, ma duże odchylenie, ale bardzo mniej wariancji. jeszcze jedna rzecz: Model zbyt mocnego regresu ma zbyt wiele funkcji, podczas gdy model underfit ma bardzo mało. funkcji.

— użytkownik110267
źródło

8

Dodaj odniesienie do obrazu (w rzeczywistości kurs Andrew Ng).

— Alexander Rodin

5

Możesz dopasować się dowolną metodą, nawet jeśli pasuje do całej populacji (jeśli populacja jest skończona). Istnieją dwa ogólne rozwiązania tego problemu: (1) ukarane oszacowanie maksymalnego prawdopodobieństwa (regresja kalenicy, siatka elastyczna, lasso itp.) Oraz (2) zastosowanie informacyjnych priorów z modelem bayesowskim.

$Y$ $Y$ $Y$ $Y$

— Frank Harrell
źródło

4

Czy istnieje jakiś model, pomijając regresję logistyczną, że nie można się przeregulować?

Nadmierne dopasowanie powstaje zasadniczo dlatego, że pasuje się do próby, a nie całej populacji. Artefakty z twojej próbki mogą wydawać się cechami populacji i nie są, a zatem nadmiernym bólem.

Jest to podobne do kwestii zewnętrznej ważności. Korzystając tylko z próbki, próbujesz uzyskać model, który zapewnia najlepszą wydajność w rzeczywistej populacji, której nie możesz zobaczyć.

Jasne, niektóre formy modeli lub procedury są bardziej prawdopodobne niż inne, ale żaden model nigdy nie jest naprawdę odporny na nadmierne dopasowanie, prawda?

Nawet walidacja poza próbą, procedury regularyzacji itp. Mogą jedynie uchronić przed nadmiernym dopasowaniem, ale nie ma srebrnej kuli. W rzeczywistości, jeśli ktoś ma oszacować swoje zaufanie w tworzeniu rzeczywistej prognozy na podstawie dopasowanego modelu, zawsze należy założyć, że rzeczywiście doszło do pewnego stopnia przeregulowania.

W jakim stopniu mogą się różnić, ale nawet model zweryfikowany na zbędnym zestawie danych rzadko daje wydajność w stanie dzikim, która odpowiada temu, co zostało uzyskane na zbiorze danych podtrzymujących. A nadmierne dopasowanie to duży czynnik sprawczy.

— ciekawy kot
źródło

0

To, co robimy z Rocem, aby sprawdzić, czy nie jest za dużo, polega na losowym oddzieleniu zestawu danych podczas szkolenia i oceny oraz porównaniu AUC między tymi grupami. Jeśli AUC jest „znacznie” (nie ma też ogólnej zasady) większego treningu, może wystąpić przeregulowanie.

— María Frances Gaska
źródło