Zastąpienie zmiennych WoE (waga dowodu) w regresji logistycznej


14

To pytanie dotyczy praktyki lub metody stosowanej przez niektórych moich kolegów. Podczas tworzenia modelu regresji logistycznej widziałem, jak ludzie zastępują zmienne kategoryczne (lub zmienne ciągłe, które są binowane) ich odpowiednią wagą dowodu (WoE). Podobno ma to na celu ustanowienie monotonicznej relacji między regresorem a zmienną zależną. O ile rozumiem, po wykonaniu modelu zmienne w równaniu NIE są zmiennymi w zbiorze danych. Zamiast tego zmienne w równaniu mają teraz znaczenie lub wagę zmiennych w segregacji zmiennej zależnej !

Moje pytanie brzmi: w jaki sposób interpretujemy teraz model lub współczynniki modelu? Na przykład dla następującego równania:

log(p1p)=β0+β1x1

możemy powiedzieć, że jest względnym wzrostem współczynnika nieparzystego dla wzrostu o 1 jednostkę zmiennej x 1 .exp(β1) x1

Ale jeśli zmienna zostanie zastąpiona przez jej WoE, wówczas interpretacja zostanie zmieniona na: względny wzrost współczynnika nieparzystego dla 1 jednostki wzrostu IMPORTANCJI / WAGI zmiennej

Widziałem tę praktykę w Internecie, ale nigdzie nie znalazłem odpowiedzi na to pytanie. Ten link z tej społeczności jest powiązany z nieco podobnym zapytaniem, w którym ktoś napisał:

WoE pokazuje zależność liniową z logarytmem naturalnym ilorazu szans, który jest zmienną zależną w regresji logistycznej. Dlatego kwestia błędnej specyfikacji modelu nie pojawia się w regresji logistycznej, gdy używamy WoE zamiast rzeczywistych wartości zmiennej.

Ale wciąż nie rozumiem. Pomóż mi zrozumieć, czego mi brakuje.


exp(β1)x1x1

β0

Szanse są p / (1-p), więc jeśli p (x) = exp (𝛽0 + 𝛽1x) ip (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) zauważ, że p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) i wreszcie iloraz szans p (x + 1) / p (x) = exp (𝛽1) zgodnie z danymi stats.stackexchange.com/users/7290/gung
hwrd

Odpowiedzi:


12

Metoda WoE składa się z dwóch etapów:

1 - aby podzielić (ciągłą) zmienną na kilka kategorii lub zgrupować (dyskretną) zmienną na kilka kategorii (w obu przypadkach zakładasz, że wszystkie obserwacje w jednej kategorii mają „taki sam” wpływ na zmienną zależną)
2 - aby obliczyć WoE wartość dla każdej kategorii (wówczas oryginalne wartości x są zastępowane wartościami WoE)

Transformacja WoE ma (co najmniej) trzy pozytywne skutki:
1) Może przekształcić zmienną niezależną, dzięki czemu ustali związek monotoniczny ze zmienną zależną. W rzeczywistości robi więcej niż to - aby zabezpieczyć relację monotoniczną wystarczyłoby „przekodować” ją do dowolnej uporządkowanej miary (na przykład 1,2,3,4 ...), ale transformacja WoE faktycznie porządkuje kategorie według „logistyki” „skala, która jest naturalna dla regresji logistycznej
2) W przypadku zmiennych o zbyt wielu (rzadko zaludnionych) wartościach dyskretnych można je pogrupować w kategorie (gęsto zaludnione), a WoE można wykorzystać do wyrażenia informacji dla całej kategorii
3) Wpływ (jednoczynnikowy) każdej kategorii na zmienną zależną można po prostu porównać między kategoriami i zmiennymi, ponieważ WoE jest wartością znormalizowaną (na przykład można porównać WoE osób zamężnych z WoE pracowników fizycznych)

Ma także (co najmniej) trzy wady:
1) Utrata informacji (zmienność) z powodu grupowania do kilku kategorii
2) Jest to miara „jednowymiarowa”, więc nie uwzględnia korelacji między zmiennymi niezależnymi
3) Łatwo jest manipulować (zastępować) efekt zmiennych zgodnie ze sposobem tworzenia kategorii

Konwencjonalnie, beta regresji (gdzie x zastąpiono WoE) nie są interpretowane per se, ale są mnożone przez WoE w celu uzyskania „wyniku” (na przykład beta dla zmiennej „stanu cywilnego” można pomnożyć przez WoE grupę „żonaci”, aby zobaczyć liczbę żonatych; beta dla zmiennego „zawodu” można pomnożyć przez WoE „pracowników fizycznych”, aby zobaczyć wynik pracowników fizycznych. to jeśli jesteś zainteresowany wynikami pracowników fizycznych w związku małżeńskim, zsumujesz te dwa wyniki i zobaczysz, jaki wpływ ma to na wynik). Im wyższy wynik, tym większe prawdopodobieństwo wyniku równego 1.


1
(+1) Dlaczego przekodowanie predyktora ma monotoniczną relację z odpowiedzią?
Scortchi - Przywróć Monikę

1
@Scortchi Mogę wymyślić przykład - niezależną zmienną jest wysokość ludzi (mierzona w cm), ludzie robią zakupy na ładne ubrania, zmienna zależna byłaby zdarzeniem binarnym - niezależnie od tego, czy mogą kupować odpowiednie i wygodne ubrania. podobno bardzo mali i bardzo wysocy ludzie będą mieli trudności z zakupem odpowiedniej odzieży, podczas gdy ludzie pośrodku mogliby to zrobić z łatwością. Dzięki prostej (bez interakcji i transformacji) regresji można było jedynie modelować, że prawdopodobieństwo zakupu odpowiedniej odzieży albo wzrasta, albo maleje wraz z wzrostem ludzi
Brano Cuchran

1
Ludzie zwykle nie stosują niemonotonicznych przekształceń predyktorów - zresztą i tak nie w modelowaniu empirycznym. Włączenie interakcji może usunąć lub wprowadzić warunkowe związki niemonotoniczne, podobnie jak inne predyktory. Ale reprezentowanie predyktora z funkcją bazową wielomianu lub splajnu jest prostym sposobem na ich uwzględnienie; a innym jest binowanie go i odtąd traktowanie go jako kategorycznego, przy użyciu np. kodowania na poziomie odniesienia. Ostatnia przynajmniej jest znacznie prostsza niż ta transformacja WoE; nikt nie podziela szkody ...
Scortchi - Przywróć Monikę

1
... wnioskowanie i interpretowalność wynikające z definiowania predyktora pod względem odpowiedzi; i wszystkie pozwalają na modelowanie niemonotonicznej zależności warunkowej, nawet gdy relacja marginalna jest monotoniczna (lub odwrotnie). Przypuszczam, że chodzi mi o to, że transformacja WoE wydaje mi się rozwiązaniem w poszukiwaniu problemu. Czy istnieje klasa sytuacji, w których daje lepsze przewidywania niż metody powszechnie stosowane? - choć to pytanie jest inne niż to, na które tu odpowiedziałeś (być może stats.stackexchange.com/q/166816/17230 ).
Scortchi - Przywróć Monikę

Co jeśli masz już dane kategoryczne? to czy jedyną zaletą jest „ustanowienie monotonicznego związku”? Wygląda na to, że kluczowy element WoE jest faktycznie w procesie binowania
information_interchange

7

Racjonalne zastosowanie WOE w regresji logistycznej polega na wygenerowaniu tak zwanego Semi-Naive Bayesian Classifier (SNBC). Początek tego postu na blogu wyjaśnia całkiem dobrze: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Parametry beta w modelu to liniowe odchylenie każdego naiwnego efektu (inaczej ciężar dowodu) ze względu na obecność innych predyktorów i można je interpretować jako liniową zmianę szans logarytmicznych poszczególnych predyktorów z powodu obecności inne predyktory.


1

Waga dowodu (WoE) jest potężną techniką do przeprowadzania transformacji i selekcji zmiennych. Jest szeroko stosowany w punktacji kredytowej do mierzenia podziału dobrych i złych klientów (zmienne). Zalety :: - Obsługuje brakujące wartości Obsługuje wartości odstające od transformacji w oparciu o wartość logarytmiczną rozkładu. Nie ma potrzeby stosowania zmiennych zastępczych, stosując odpowiednią technikę binowania, można ustalić związek monotoniczny między niezależnymi i zależnymi.

mono_bin () = używane dla zmiennych numerycznych. char_bin () = używany dla zmiennych znakowych.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.