Funkcje rankingowe w regresji logistycznej


10

Użyłem regresji logistycznej. Mam sześć funkcji, chcę poznać ważne cechy tego klasyfikatora, które wpływają na wynik bardziej niż inne cechy. Użyłem Information Gain, ale wygląda na to, że nie zależy to od zastosowanego klasyfikatora. Czy istnieje metoda uszeregowania cech według ich ważności na podstawie określonego klasyfikatora (np. Regresji logistycznej)? każda pomoc byłaby bardzo mile widziana.


3
Regresja logistyczna nie jest klasyfikatorem. Proszę ponownie napisać pytanie, aby odzwierciedlić, że regresja logistyczna jest modelem bezpośredniego oszacowania prawdopodobieństwa.
Frank Harrell,

1
Pomijając kwestię podniesioną przez FrankHarrella, czy spojrzałeś na wartości p swoich szacowanych współczynników? Zdecydowanie nie jest to najlepszy sposób rankingu funkcji, ale może dać ci punkt wyjścia.
usεr11852

9
Jasne, regresja logistyczna polega na szacowaniu prawdopodobieństwa, a nie na jawnym klasyfikowaniu rzeczy, ale kogo to obchodzi? Celem jest często decyzja, która klasa jest najbardziej prawdopodobna, i nie ma nic złego w nazywaniu jej klasyfikatorem, jeśli do tego używasz.
dsaxton

Odpowiedzi:


5

Myślę, że odpowiedzią, której szukasz, może być algorytm Boruta . Jest to metoda otoki, która bezpośrednio mierzy znaczenie funkcji w sensie „wszystkie trafności” i jest zaimplementowana w pakiecie R , który wytwarza ładne wykresy, takie jak ta fabuła tam, gdzie ważność dowolnej cechy jest na osi y i jest porównywana z null narysowano tutaj na niebiesko. Ten post na blogu opisuje to podejście i polecam przeczytanie go jako bardzo przejrzystego wstępu.


Niezła sugestia (+1). Myślę, że to trochę przesada w tej aplikacji, ale mimo to dobry dodatek. I na pewno docenią, że będzie to również zrobić w sytuacjach. Czy znasz jakieś porównawcze badania przeglądowe, w których porównano je z innymi algorytmami klasyfikacji? p>>n
usεr11852

@ usεr11852 Nie, nie wiem. Właśnie zetknąłem się z tym sam w ciągu ostatniego tygodnia.
czytnik babelproof

Hmmm ... OK, Boruta wydaje się bardzo obiecujący, ale zawsze sceptycznie podchodzę do wspaniałych nowych algorytmów, dopóki nie zobaczę ich jako części większego badania i nie zobaczę przypadków, w których nie osiągają doskonałości ( brak twierdzenia o darmowym obiedzie ).
usεr11852

Ciekawy pomysł, ale nie związany z regresją logistyczną.
Frank Harrell

„Boruta to metoda wyboru funkcji, a nie metoda rankingu funkcji” Zobacz najczęściej zadawane pytania na stronie głównej pakietu
steadyfish

3

R2) 3 ]. Innym popularnym podejściem jest uśrednianie zamówień (LMG, 1980) [ 2 ].

Nie ma zbyt dużej zgody co do tego, jak uszeregować zmienne pod kątem regresji logistycznej. Dobry przegląd tego tematu znajduje się w [ 1 ], opisuje on adaptacje technik regresji liniowej względnej ważności za pomocą Pseudo- do regresji logistycznej.R2)

Lista popularnych podejść do oceny znaczenia funkcji w modelach regresji logistycznej to:

  1. Pseudo logistyczne korelacji częściowej (za pomocą pseudo- )R2)
  2. Adekwatność: proporcja pełnego prawdopodobieństwa logarytmu modelu, którą można wyjaśnić indywidualnie dla każdego predyktora
  3. Zgodność: Wskazuje zdolność modelu do rozróżnienia między zmiennymi odpowiedzi pozytywnej i negatywnej. Dla każdego predyktora konstruowany jest osobny model, a ocena ważności jest przewidywanym prawdopodobieństwem prawdziwych wyników dodatnich na podstawie samego tego predyktora.
  4. Wartość informacyjna: Wartości informacyjne określają ilościowo informację o wyniku uzyskaną z predyktora. Opiera się on na analizie kolejno każdego predyktora, bez uwzględnienia innych predyktorów.

Bibliografia:

  1. O pomiarze względnego znaczenia zmiennych objaśniających w regresji logistycznej
  2. Względne znaczenie regresorów liniowych w R.
  3. Względne znaczenie i wartość, Barry Feldman (metoda PMD)

0

minw,bja=1nlog(1+exp(-yjafaw,b(xja)))+λw2)
xjayjajawbfaw,b(xja) . Ostatnim terminem w problemie minimalizacji jest termin regularyzacji, który między innymi kontroluje uogólnienie modelu.

xx , dość łatwo jest zobaczyć, które zmienne są ważniejsze: te, które są większe w stosunku do innych lub (po stronie ujemnej) mniejsze w stosunku do pozostałych. Najbardziej wpływają na stratę.

1

minw,bja=1nlog(1+exp(-yjafaw,b(xja)))+λ|w|

λw

Mam nadzieję, że to pomoże. Zapytaj, czy masz dodatkowe pytania.


4
LR nie jest schematem klasyfikacyjnym. Każde użycie klasyfikacji jest etapem szacowania po zdefiniowaniu funkcji użyteczności / kosztu. Ponadto PO nie pytał o oszacowanie kar za maksymalne prawdopodobieństwo. Aby dostarczyć dowodów na względne znaczenie zmiennych w regresji, bardzo łatwo jest użyć bootstrapu, aby uzyskać limity ufności dla szeregu dodanych informacji predykcyjnych dostarczanych przez każdy predyktor. Przykład pojawia się w rozdziale 4 Strategii modelowania regresji, których notatki online i kod R są dostępne na stronie biostat.mc. vanderbilt.edu/RmS#Materials
Frank Harrell

4
Prof. Harrell, proszę. Oczywiste jest, że podchodzimy do tego z dwóch różnych stron. Ty od statystycznego, a ja od uczenia maszynowego. Szanuję cię, twoje badania i twoją karierę, ale masz bardzo swobodę w formułowaniu własnej odpowiedzi i pozwala PO zdecydować, która z nich będzie dla niego lepsza odpowiedź na jego pytanie. Chciałbym się uczyć, więc naucz mnie swojego podejścia, ale nie każ mi kupować twojej książki.
pAt84

1
Po prostu zauważę, że regresja logistyczna została opracowana przez statystę DR Coxa w 1958 r., Dekady przed istnieniem uczenia maszynowego. Należy również zauważyć, że sformułowana przez ciebie „funkcja straty” (być może lepiej nazywana funkcją celu?) Nie ma żadnego związku z klasyfikacją. A co sugerowało ci, że moje obszerne notatki i pliki audio dostępne online ze wszystkimi informacjami, o których wspomniałem, kosztują cokolwiek?
Frank Harrell,

2
Poparłem oba wstępne komentarze, ponieważ oba podnoszą ważne punkty. Późniejsze komentarze trochę jak drobna
kłótnia

4
PS Próbując znaleźć bardziej przejrzysty sposób na powiedzenie tego, optymalizacja przewidywania / szacowania prowadzi do optymalnych decyzji, ponieważ funkcja użyteczności jest stosowana w drugim etapie i może być niezwiązana z predyktorami. Optymalizacja prognozowania / szacowania nie optymalizuje klasyfikacji i na odwrót. Optymalizacja klasyfikacji polega na użyciu dziwnej funkcji narzędzia, która jest dostosowana do danego zestawu danych i może nie mieć zastosowania do nowych zestawów danych. Ludzie, którzy naprawdę chcą zoptymalizować klasyfikację (niezalecane), mogą zastosować metodę, która całkowicie pomija oszacowanie / prognozowanie.
Frank Harrell
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.