Filozoficzne pytanie dotyczące regresji logistycznej: dlaczego nie trenuje się optymalnej wartości progowej?

13

Zwykle w regresji logistycznej dopasowujemy model i uzyskujemy prognozy dotyczące zestawu treningowego. Następnie weryfikujemy krzyżowo te prognozy treningowe (coś takiego jak tutaj ) i decydujemy o optymalnej wartości progowej na podstawie czegoś takiego jak krzywa ROC.

Dlaczego nie uwzględnimy weryfikacji krzyżowej progu w rzeczywistym modelu i nie przeszkolimy tego od początku do końca?

— StatsSorceress
źródło

19

Z modelem nie jest trenowany próg, ponieważ regresja logistyczna nie jest klasyfikatorem (por. Dlaczego regresja logistyczna nie jest nazywana klasyfikacją logistyczną? ). Jest to model do oszacowania parametru , który reguluje zachowanie rozkładu Bernoulliego. To znaczy, zakładasz, że rozkład odpowiedzi, zależny od zmiennych towarzyszących, to Bernoulli, więc chcesz oszacować, w jaki sposób parametr kontrolujący tę zmienną zmienia się w funkcji zmiennych towarzyszących. Jest to tylko model bezpośredniego prawdopodobieństwa . Oczywiście może być później stosowany jako klasyfikator, a czasem jest w pewnych kontekstach, ale nadal jest modelem prawdopodobieństwa. $p$

— gung - Przywróć Monikę
źródło

1

Ok, rozumiem tę część teorii (dziękuję za to wymowne wyjaśnienie!), Ale dlaczego nie możemy uwzględnić aspektu klasyfikacji w modelu? To znaczy, dlaczego nie możemy znaleźć p, a następnie znaleźć progu i ćwiczyć wszystko od początku do końca, aby zminimalizować jakąś stratę?

— StatsSorceress

4

Na pewno dało (@ Sycorax odpowiedź przemawia do tej możliwości). Ponieważ jednak nie jest to sam LR, a raczej pewne ad hoc powiększenie, sam musisz kodować pełny schemat optymalizacji. Uwaga BTW, że Frank Harrell wskazał, że proces doprowadzi do tego, co według wielu standardów może być uznane za gorszy model.

— Gung - Przywróć Monikę

1

Hmm Przeczytałem zaakceptowaną odpowiedź w powiązanym pytaniu tutaj i zgadzam się z nią teoretycznie, ale czasami w aplikacjach do klasyfikacji maszynowej nie dbamy o względne typy błędów, dbamy tylko o „poprawną klasyfikację”. W takim razie, czy mógłbyś trenować od początku do końca, jak to opisuję?

— StatsSorceress

4

Jak powiedziałem, bardzo możesz skonfigurować własną optymalizację, która będzie trenować model i wybierać próg jednocześnie. Musisz po prostu zrobić to sam, a ostateczny model prawdopodobnie będzie gorszy według większości standardów.

— gung - Przywróć Monikę

1

@StatsSorceress „... czasami w klasyfikacji uczenia maszynowego ...”. Czasami należy kłaść duży nacisk . Trudno wyobrazić sobie projekt, w którym dokładność jest prawidłową odpowiedzią. Z mojego doświadczenia wynika, że zawsze wiąże się to z precyzją i przywołaniem klasy mniejszości.

— Wayne

15

Jest tak, ponieważ optymalny próg jest nie tylko funkcją prawdziwej dodatniej stopy (TPR), fałszywie dodatniej stopy (FPR), dokładności lub cokolwiek innego. Innym kluczowym składnikiem jest koszt i wypłata poprawnych i błędnych decyzji .

Jeśli twoim celem jest przeziębienie, twoją odpowiedzią na pozytywny test jest przepisanie dwóch aspiryny, a koszt prawdziwego nieleczonego wyniku dodatniego to niepotrzebne bóle głowy na dwa dni, to twój próg optymalnej decyzji (nie klasyfikacji!) Jest dość inaczej niż jeśli twoim celem jest jakaś zagrażająca życiu choroba, a twoją decyzją jest (a) jakaś stosunkowo prosta procedura, taka jak wycięcie wyrostka robaczkowego, lub (b) poważna interwencja, taka jak miesiące chemioterapii! I zauważ, że chociaż twoja zmienna docelowa może być binarna (chora / zdrowa), twoje decyzje mogą mieć więcej wartości (odeślij do domu z dwiema aspirynami / przeprowadź więcej testów / przyjdź do szpitala i obserwuj / działaj natychmiast).

Konkluzja: jeśli znasz swoją strukturę kosztów i wszystkie różne decyzje, z pewnością możesz bezpośrednio wyszkolić system wspomagania decyzji (DSS), który obejmuje klasyfikację lub prognozę probabilistyczną. Chciałbym jednak zdecydowanie argumentować, że dyskretyzacja prognoz lub klasyfikacji za pomocą progów nie jest właściwym sposobem na osiągnięcie tego.

Zobacz także moją odpowiedź na wcześniejszy wątek „Próg prawdopodobieństwa klasyfikacji” . Albo moja odpowiedź . Lub tamten .

— Stephan Kolassa
źródło

4

Pomijając obawy filozoficzne, spowodowałoby to trudności obliczeniowe.

Powodem jest to, że funkcje z ciągłą wydajnością są stosunkowo łatwe do optymalizacji. Poszukaj kierunku, w którym funkcja się zwiększa, a następnie idź w tę stronę. Jeśli zmienimy naszą funkcję straty, aby uwzględnić etap „odcięcia”, nasza moc wyjściowa stanie się dyskretna, a zatem nasza funkcja straty również będzie dyskretna. Teraz, gdy zmieniamy parametry naszej funkcji logistycznej „trochę” i wspólnie zmieniamy wartość odcięcia o „trochę”, nasza strata daje identyczną wartość, a optymalizacja staje się trudna. Oczywiście nie jest to niemożliwe (istnieje optymalizacja dyskretna ), ale optymalizacja ciągła jest zdecydowanie lepszałatwiejszy problem do rozwiązania, gdy optymalizujesz wiele parametrów. Dogodnie, gdy model logistyczny zostanie dopasowany, znalezienie optymalnej wartości odcięcia, choć nadal jest dyskretnym problemem wynikowym, jest teraz tylko w jednej zmiennej, a my możemy po prostu przeprowadzić wyszukiwanie siatki lub inne takie, które są całkowicie wykonalne w jednej zmiennej.

— Scott
źródło

3

Bez względu na model podstawowy możemy opracować rozkład próbkowania TPR i FPR na poziomie progowym. Oznacza to, że możemy scharakteryzować zmienność TPR i FPR przy pewnym progu i możemy wrócić do pożądanego kompromisu poziomu błędu.

Krzywa ROC jest nieco zwodnicza, ponieważ jedyną rzeczą, którą kontrolujesz, jest próg, jednak wykres wyświetla TPR i FPR, które są funkcjami progu. Co więcej, zarówno TPR, jak i FPR są statystykami , więc podlegają kaprysom losowego próbkowania. Oznacza to, że jeśli powtórzysz procedurę (powiedzmy przez walidację krzyżową), możesz wymyślić inny FPR i TPR przy określonej wartości progowej.

Jeśli jednak możemy oszacować zmienność w TPR i FPR, powtórzenie procedury ROC nie jest konieczne. Po prostu wybieramy próg taki, aby punkty końcowe przedziału ufności (z pewną szerokością) były akceptowalne. To znaczy, wybierz model tak, aby FPR był prawdopodobnie poniżej pewnego określonego przez badacza maksimum i / lub TPR był prawdopodobnie powyżej pewnego określonego przez badacza minimum. Jeśli Twój model nie może osiągnąć celów, musisz zbudować lepszy model.

Oczywiście, jakie wartości TPR i FPR są dopuszczalne w twoim użyciu, będą zależały od kontekstu.

Aby uzyskać więcej informacji, zobacz Krzywe ROC dla danych ciągłych autorstwa Wojtka J. Krzanowskiego i Davida J. Handa.

— Sycorax mówi Przywróć Monikę
źródło

To tak naprawdę nie odpowiada na moje pytanie, ale jest to bardzo ładny opis krzywych ROC.

— StatsSorceress

W jaki sposób to nie odpowiada na twoje pytanie? Jakie jest twoje pytanie, jeśli nie pytasz, jak wybrać próg klasyfikacji?

— Sycorax mówi Przywróć Monikę

2

Nie znam żadnej procedury statystycznej, która działałaby w ten sposób. Dlaczego to kwadratowe koło jest dobrym pomysłem? Jaki problem rozwiązuje?

— Sycorax mówi Przywróć Monikę

1

„Jak wybrać próg w sposób, który skraca czas szkolenia?” wygląda na zupełnie inne pytanie niż w twoim oryginalnym poście.

— Sycorax mówi Przywróć Monikę

1

Niezależnie od tego nie rozumiem, jak to oszczędza czas. Wykonanie krzywej ROC nie jest najdroższą częścią szacowania modelu, więc przeniesienie wyboru progu do etapu optymalizacji wydaje się ad hoc i nie jest konieczne.

— Sycorax mówi Przywróć Monikę

-2

Zwykle w badaniach biomedycznych nie używamy zestawu szkoleniowego - po prostu stosujemy regresję logistyczną w pełnym zbiorze danych, aby zobaczyć, które predyktory są znaczącymi czynnikami ryzyka dla wyniku, na który patrzymy; lub spojrzeć na jeden predyktor będący przedmiotem zainteresowania, kontrolując wpływ innych możliwych predyktorów na wynik.
Nie jestem do końca pewien, co rozumiesz przez wartości progowe, ale istnieją różne parametry, które można próbować zoptymalizować: AUC, wartości odcięcia dla dychotomizacji ciągłej zmiennej predykcyjnej, dodatnie i ujemne wartości predykcyjne, przedziały ufności i wartości p, fałszywie dodatnie i fałszywie ujemne wskaźniki. Regresja logistyczna analizuje populację badanych i ocenia siłę i kierunek przyczynowy czynników ryzyka, które przyczyniają się do wyniku zainteresowania tą populacją. Można także „odwrócić”, że tak powiem, i określić ryzyko danej osoby w związku z jej czynnikami ryzyka. Regresja logistyczna przypisuje każdej osobie ryzyko wyniku na podstawie ich indywidualnych czynników ryzyka, a domyślnie wynosi 0,5. Jeśli temat ” Prawdopodobieństwo uzyskania wyniku (na podstawie wszystkich danych i podmiotów w twoim modelu) wynosi 0,5 lub więcej, przewiduje, że będzie on miał wynik; jeśli poniżej 0,5, to przewiduje, że nie. Możesz jednak dostosować ten poziom odcięcia, na przykład, aby oznaczyć większą liczbę osób, które mogą być narażone na ryzyko wyniku, aczkolwiek za cenę przewidywania przez model więcej fałszywych trafień. Możesz dostosować ten poziom odcięcia, aby zoptymalizować decyzje dotyczące badań przesiewowych, aby przewidzieć, które osoby powinny na przykład mieć dalsze badania lekarskie; oraz do skonstruowania dodatniej wartości predykcyjnej, ujemnej wartości predykcyjnej oraz współczynników fałszywie ujemnych i fałszywie dodatnich dla testu przesiewowego opartego na modelu regresji logistycznej. Możesz opracować model na połowie swojego zestawu danych i przetestować go na drugiej połowie, ale nie Naprawdę muszę (a dzięki temu zmniejszysz swoje dane „treningowe” o połowę, a tym samym zmniejszysz moc znajdowania znaczących predyktorów w modelu). Więc tak, możesz „trenować wszystko od końca do końca”. Oczywiście w badaniach biomedycznych chciałbyś sprawdzić to na innej populacji, inny zestaw danych przed stwierdzeniem, że twoje wyniki można uogólnić na większą populację. Innym podejściem jest zastosowanie podejścia typu ładowania początkowego, w którym uruchamiasz swój model na podpróbce populacji badanej, a następnie zastępujesz badanych z powrotem do puli i powtarzasz z inną próbką wiele razy (zwykle 1000 razy). Jeśli uzyskasz znaczące wyniki przez zalecaną większość czasu (np. 95% czasu), wówczas twój model można uznać za zatwierdzony --- przynajmniej na podstawie własnych danych. Ale znowu, im mniejsza populacja badawcza, na której działa Twój model, tym mniej prawdopodobne jest, że niektóre predyktory będą statystycznie znaczącymi czynnikami ryzyka dla wyniku. Jest to szczególnie prawdziwe w przypadku badań biomedycznych z ograniczoną liczbą uczestników.
Wykorzystanie połowy danych do „wytrenowania” modelu, a następnie „sprawdzenie” jego w drugiej połowie jest niepotrzebnym obciążeniem. Nie robisz tego dla testów t lub regresji liniowej, więc po co to robić w regresji logistycznej? Wystarczy, że powie „tak, to działa”, ale jeśli użyjesz pełnego zestawu danych, i tak to określisz. Podział danych na mniejsze zestawy danych wiąże się z ryzykiem niewykrycia znaczących czynników ryzyka w populacji badanej (LUB populacji weryfikacyjnej), gdy są one faktycznie obecne, ze względu na małą wielkość próby, zbyt wiele predyktorów dla wielkości badania i możliwość że twoja „próbka walidacyjna” nie pokaże żadnych skojarzeń z przypadku. Logika podejścia „pociągnij, a następnie zweryfikuj” wydaje się polegać na tym, że jeśli czynniki ryzyka określone jako znaczące nie są wystarczająco silne, nie będą one miały znaczenia statystycznego, gdy zostaną modelowane na losowo wybranej połowie twoich danych. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, podobnie jak w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. być statystycznie znaczący, gdy jest wzorowany na losowo wybranej połowie twoich danych. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. być statystycznie znaczący, gdy jest wzorowany na losowo wybranej połowie twoich danych. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. Ale ta losowo wybrana próbka może nie wykazać żadnego związku przypadkiem lub dlatego, że jest zbyt mała, aby czynnik (czynniki) ryzyka były statystycznie istotne. Ale to wielkość czynników ryzyka ORAZ ich znaczenie statystyczne decydują o ich znaczeniu iz tego powodu najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. s wielkości czynników ryzyka ORAZ ich istotności statystycznej, która decyduje o ich znaczeniu, dlatego najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania. s wielkości czynników ryzyka ORAZ ich istotności statystycznej, która decyduje o ich znaczeniu, dlatego najlepiej jest użyć pełnego zestawu danych do zbudowania modelu. Znaczenie statystyczne będzie mniej znaczące przy mniejszych rozmiarach próby, jak ma to miejsce w przypadku większości testów statystycznych. Przeprowadzanie regresji logistycznej jest sztuką prawie tak samo jak nauką statystyczną. Istnieją różne podejścia i różne parametry do optymalizacji w zależności od projektu badania.

— Jeremy
źródło