To pytanie dotyczy praktyki lub metody stosowanej przez niektórych moich kolegów. Podczas tworzenia modelu regresji logistycznej widziałem, jak ludzie zastępują zmienne kategoryczne (lub zmienne ciągłe, które są binowane) ich odpowiednią wagą dowodu (WoE). Podobno ma to na celu ustanowienie monotonicznej relacji między regresorem a zmienną zależną. O ile rozumiem, po wykonaniu modelu zmienne w równaniu NIE są zmiennymi w zbiorze danych. Zamiast tego zmienne w równaniu mają teraz znaczenie lub wagę zmiennych w segregacji zmiennej zależnej !
Moje pytanie brzmi: w jaki sposób interpretujemy teraz model lub współczynniki modelu? Na przykład dla następującego równania:
możemy powiedzieć, że jest względnym wzrostem współczynnika nieparzystego dla wzrostu o 1 jednostkę zmiennej x 1 .
Ale jeśli zmienna zostanie zastąpiona przez jej WoE, wówczas interpretacja zostanie zmieniona na: względny wzrost współczynnika nieparzystego dla 1 jednostki wzrostu IMPORTANCJI / WAGI zmiennej
Widziałem tę praktykę w Internecie, ale nigdzie nie znalazłem odpowiedzi na to pytanie. Ten link z tej społeczności jest powiązany z nieco podobnym zapytaniem, w którym ktoś napisał:
WoE pokazuje zależność liniową z logarytmem naturalnym ilorazu szans, który jest zmienną zależną w regresji logistycznej. Dlatego kwestia błędnej specyfikacji modelu nie pojawia się w regresji logistycznej, gdy używamy WoE zamiast rzeczywistych wartości zmiennej.
Ale wciąż nie rozumiem. Pomóż mi zrozumieć, czego mi brakuje.