Dlaczego należy wykonać transformację WOE predyktorów jakościowych w regresji logistycznej?


10

Kiedy użyteczne jest przekształcanie zmiennych kategorialnych według wagi dowodu (WOE)?

Przykład można zobaczyć w transformacji WOE

(Tak na odpowiedź , i kategorycznym predyktora z kategoriach & sukcesów poza n_j prób w j th kategorii tej predykcyjnych, Biada j th Kategoria ta jest zdefiniowana jakok y j n j j jykyjotnjotjotj

logyjjkyjjk(njyj)njyj

a transformacja polega na kodowaniu każdej kategorii predyktora jakościowego za pomocą WOE w celu utworzenia nowego predyktora ciągłego).

Chciałbym dowiedzieć się, dlaczego transformacja WOE pomaga regresji logistycznej. Jaka jest teoria?

Odpowiedzi:


6

W podanym przez ciebie przykładzie predyktor jakościowy jest reprezentowany przez pojedynczą zmienną ciągłą przyjmującą wartość dla każdego poziomu równą zaobserwowanym szansom logarytmicznym odpowiedzi na tym poziomie (plus stała):

logyjnjyj+logjk(njyj)jkyj

To zaciemnienie nie służy żadnemu celowi, o którym myślę: otrzymasz taką samą przewidywaną odpowiedź, jakbyś użył zwykłego kodowania pozornego; ale stopnie swobody są błędne, unieważniając kilka użytecznych form wnioskowania na temat modelu.

W regresji wielokrotnej, z kilkoma kategorycznymi predyktorami do transformacji, przypuszczam, że obliczylibyśmy WOE dla każdego z wykorzystaniem krańcowych szans logarytmicznych. To zmieni przewidywane odpowiedzi; ale ponieważ nie bierze się pod uwagę pomieszania - warunkowe kursy logarytmiczne nie są liniową funkcją krańcowych kursów logarytmicznych - nie widzę żadnego powodu, aby przypuszczać, że jest to poprawa, a problemy wnioskowania pozostają.


Czy możesz wyjaśnić, dlaczego stopnie swobody są błędne w WOE? To tylko transformacja, prawda? A co, gdybyśmy mieli kilka zmiennych kategorycznych i otrzymalibyśmy WOE dla każdej z nich po kolei? Z mojego doświadczenia wynika, że ​​gdy masz wiele zmiennych kategorialnych, niektóre segmenty między różnymi zmiennymi bardzo się pokrywają i zaczynasz widzieć pewne współczynniki, które są nieistotne. A także musisz mieć przy sobie kilka współczynników.
adam

1
(1) Transformacja, która zależy od oceny stosunku predyktorów do reakcji - coś, co należy pozostawić regresji. Tak więc np. Statystyka testu współczynnika prawdopodobieństwa nie będzie miała takiego samego rozkładu jak w przypadku, gdy transformacja jest z góry określona. (2) Dobra uwaga! - regresja wielokrotna w WOE nie będzie równoważna z regresją zmienną fikcyjną (chyba że modele są nasycone). (3) Co z tego? (4) Współczynniki nie są większe niż WOE.
Scortchi - Przywróć Monikę

Wydaje mi się, że WoE to pozostałość po czasach, w których obliczenia stanowiły większy problem niż dzisiaj. Więc może, z predyktorami jakościowymi z WIELU poziomami, konwersja na zmienną numeryczną była świetnym pomysłem!
kjetil b halvorsen

1

Klasyfikacja zgrubna przy użyciu miary ciężaru dowodu (WoE) ma następującą zaletę - WoE wykazuje liniowy związek z logarytmem naturalnym ilorazu szans, który jest zmienną zależną w regresji logistycznej.
Dlatego kwestia błędnej specyfikacji modelu nie pojawia się w regresji logistycznej, gdy używamy WoE zamiast rzeczywistych wartości zmiennej.

ln(p/1-p)αβW.omi(V.zar1)γW.omi(V.zar2))ηW.omi(V.zar3))

Źródło: W jednym z PPT mój trener pokazał mi podczas szkolenia w firmie.


2
„błędna specyfikacja modelu nie pojawia się w regresji logistycznej, gdy używamy WoE zamiast rzeczywistych wartości zmiennej”. Czy możesz to wyjaśnić / udowodnić matematycznie?
adam

Nie pochodzę z analizy ryzyka, ale wydaje się, że tak mówi strona 131313 tej książki, books.google.co.in/…
Srikanth Guhan

Również ten link twierdzi to samo, choć bez matematyki jest wyjaśnione analyticbridge.com/forum/topics/...
Srikanth Guhan

1
Dzięki za linki, ale oczywiście nie jest prawdą, że krańcowe szanse na log, do których WoE jest proporcjonalny, mają liniowy związek z warunkowymi szansami na log, których dotyczy regresja logistyczna. Mylące się z innymi predyktorami mogą nawet powodować różne kategorie porządkowania WoE.
Scortchi - Przywróć Monikę

1

Transformacje WOE pomagają, gdy masz zarówno dane liczbowe, jak i jakościowe, które musisz połączyć, i brakuje wartości, z których chcesz wyodrębnić informacje. Konwersja wszystkiego na WOE pomaga „ujednolicić” wiele różnych typów danych (nawet brakujących danych) w tej samej skali szansy na log. Ten post na blogu wyjaśnia rzeczy całkiem dobrze: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Krótko mówiąc, regresja logistyczna z WOE powinna być (i jest) nazywana Semi-Naive Bayesian Classifier (SNBC). Jeśli próbujesz zrozumieć algorytm, nazwa SNBC jest dla mnie znacznie bardziej pouczająca.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.