Moje pytanie brzmi: czy musimy dopasować zestaw danych, aby upewnić się, że wszystkie zmienne mają tę samą skalę, między [0,1], przed dopasowaniem regresji logistycznej. Formuła jest następująca:
Mój zestaw danych ma 2 zmienne, opisują to samo dla dwóch kanałów, ale głośność jest inna. Powiedzmy, że jest to liczba odwiedzin klientów w dwóch sklepach, tu chodzi o to, czy klient dokonuje zakupów. Ponieważ klient może odwiedzić oba sklepy lub dwa razy pierwszy sklep, raz drugi sklep, zanim dokona zakupu. ale łączna liczba wizyt klientów w pierwszym sklepie jest 10 razy większa niż w drugim sklepie. Kiedy dopasuję tę regresję logistyczną, bez standaryzacji coef(store1)=37, coef(store2)=13
; jeśli ujednolicę dane, to coef(store1)=133, coef(store2)=11
. Coś takiego. Które podejście ma większy sens?
Co się stanie, jeśli dopasuję model drzewa decyzyjnego? Wiem, że modele struktury drzew nie potrzebują standaryzacji, ponieważ sam model jakoś to dostosuje. Ale sprawdzanie z wami wszystkimi.
C
zmiany współczynnika regularyzacji . Musisz więc wybrać C
po ujednoliceniu danych.