Niektóre z moich predyktorów są w bardzo różnych skalach - czy muszę je przekształcić przed dopasowaniem modelu regresji liniowej?

Chciałbym uruchomić regresję liniową na wielowymiarowym zestawie danych. Istnieją różnice między różnymi wymiarami pod względem ich wielkości. Na przykład wymiar 1 ogólnie ma zakres wartości [0, 1], a wymiar 2 ma zakres wartości [0, 1000].

Czy muszę wykonać transformację, aby zakresy danych dla różnych wymiarów były w tej samej skali? Jeśli tak, czy istnieją jakieś wskazówki dotyczące tego rodzaju transformacji?

regression multiple-regression linear-model

— pytanie bitowe
źródło

Odpowiedzi:

Zmienne przesunięcia / skalowania nie wpłyną na ich korelację z odpowiedzią

Aby zobaczyć, dlaczego tak jest, załóżmy, że korelacja między i jest . Zatem korelacja między i jest $Y$ $X$ $\rho$ $Y$ $(X-a)/b$

\frac{c o v (Y, (X - a) / b)}{S D ((X - a) / b) \cdot S D (Y)} = \frac{c o v (Y, X / b)}{S D (X / b) \cdot S D (Y)} = \frac{\frac{1}{b} \cdot c o v (Y, X)}{\frac{1}{b} S D (X) \cdot S D (Y)} = ρ

$\frac{ {\rm cov}(Y,(X-a)/b) }{ {\rm SD}((X-a)/b) \cdot {\rm SD}(Y) } = \frac{ {\rm cov}(Y,X/b) }{ {\rm SD}(X/b) \cdot {\rm SD}(Y) } = \frac{ \frac{1}{b} \cdot {\rm cov}(Y,X) }{ \frac{1}{b}{\rm SD}(X) \cdot {\rm SD}(Y) } = \rho$

co wynika z definicji korelacji i trzech faktów:

${\rm cov}(Y, X+a) = {\rm cov}(Y,X) + \underbrace{{\rm cov}(Y,a)}_{=0} = {\rm cov}(Y,X)$
${\rm cov}(Y,aX) = a {\rm cov}(Y,X)$
${\rm SD}(aX) = a \cdot {\rm SD}(X)$

Dlatego pod względem dopasowania modelu (np. lub dopasowane wartości) przesunięcie lub skalowanie zmiennych (np. Umieszczenie ich w tej samej skali) nie zmieni modelu $R^2$ , ponieważ współczynniki regresji liniowej są powiązane z korelacjami między zmiennymi. Zmieni to jedynie skalę współczynników regresji , o których należy pamiętać, interpretując wynik, jeśli zdecydujesz się na transformację predyktorów.

Edycja: Powyższe założyło, że mówisz o zwykłej regresji z przechwyceniem. Jeszcze kilka punktów związanych z tym (dzięki @cardinal):

Przechwytywanie może się zmieniać podczas przekształcania zmiennych i, jak wskazuje @cardinal w komentarzach, współczynniki zmienią się, gdy przesuniesz zmienne, jeśli pominiesz przechwytywanie z modelu, chociaż zakładam, że tego nie robisz, chyba że masz dobry powód (patrz np. ta odpowiedź ).
Jeśli w jakiś sposób regulujesz swoje współczynniki (np. Lasso, regresja grzbietu), wówczas centrowanie / skalowanie wpłynie na dopasowanie. Na przykład, jeśli penalizujesz (kara regresji grzbietu), nie możesz odzyskać równoważnego dopasowania po standaryzacji, chyba że wszystkie zmienne były w tej samej skali, tj. nie ma stałej wielokrotności, która odzyska tę samą karę. $\sum \beta_{i}^{2}$

Odnośnie kiedy / dlaczego badacz może chcieć przekształcić predyktory

Powszechną okolicznością (omawianą w kolejnej odpowiedzi @Paul) jest to, że badacze znormalizują swoje predyktory, aby wszystkie współczynniki były w tej samej skali. W takim przypadku rozmiar oszacowań punktowych może dać przybliżone wyobrażenie o tym, które predyktory mają największy wpływ po ustabilizowaniu wielkości liczbowej predyktora.

Innym powodem, dla którego badacz może chcieć skalować bardzo duże zmienne, jest to, że współczynniki regresji nie są w bardzo małej skali. Na przykład, jeśli chcesz przyjrzeć się wpływowi wielkości populacji kraju na wskaźnik przestępczości (nie możesz wymyślić lepszego przykładu), możesz zmierzyć wielkość populacji w milionach, a nie w jej pierwotnych jednostkach, ponieważ współczynnik może być jak . $.00000001$

— Makro
źródło

Dwie krótkie uwagi: Chociaż początek postu jest poprawny, pomija się fakt, że centrowanie będzie miało wpływ, jeśli nie będzie przechwytywania. :) Po drugie, wyśrodkowanie i przeskalowanie ma ważne skutki, jeśli zastosujemy regularyzację. Chociaż PO może tego nie rozważać, prawdopodobnie warto o tym pamiętać.

— kardynał

Niezmienność przeskalowania jest również łatwa do zauważenia, jeśli nie masz nic przeciwko notacji macierzowej. Przy pełnej wartości (dla uproszczenia) . Teraz, jeśli zastąpimy przez gdzie jest przekątna, otrzymamy

X

$X$

\hat{y} = X (X^{'} X)^{- 1} X^{'} y

$\hat y = X (X'X)^{-1} X'y$

X

$X$

X D

$X D$

D

$D$

\tilde{y} = (X D) ((X D)^{'} X D)^{- 1} (X D)^{'} y = X D (D X^{'} X D)^{- 1} D X^{'} y = X (X^{'} X)^{- 1} X^{'} y = \hat{y} .

$\tilde y = (X D) ((XD)'XD)^{-1} (XD)'y = X D(D X'X D)^{-1} D X'y = X (X'X)^{-1} X'y = \hat y\>.$

— kardynał

@ cardinal, postanowiłem wspomnieć o tym, że jeśli twoje szacunki są uregulowane, centrowanie / skalowanie może mieć wpływ. Początkowo stawiałem opór, ponieważ myślałem, że rozpocznie się długa dygresja, która może dezorientować tych, którzy nie są zaznajomieni z regularyzacją, ale stwierdziłam, że mogę zająć się tym stosunkowo mało miejsca. Dzięki--

— Makro

Nie wszystkie moje komentarze muszą koniecznie sugerować, że odpowiedź powinna zostać zaktualizowana. Wiele razy po prostu lubię wstawiać uwagi pomocnicze pod miłymi odpowiedziami, aby dać kilka przemyśleń na temat powiązanych pomysłów, które mogą być interesujące dla przechodnia. (+1)

— kardynał

Coś funky dzieje się przy liczeniu głosów. Po raz kolejny głosowałem za tym, pisząc mój wcześniejszy komentarz i nie „wziął”. Hmm

— kardynał

Tak zwana „normalizacja” jest powszechną procedurą dla większości metod regresji. Istnieją dwa sposoby:

Odwzoruj każdą zmienną na granice [-1, 1] (mapminmax w MatLab.
Usuń średnią z każdej zmiennej i podziel na jej standardowe odchylenie (mapstd w MatLab), tzn. Faktycznie „normalizuj”. Jeśli prawdziwe znaczenie odchylenia jest nieznane, po prostu weź przykładowe cechy: lub gdzie , , i ${\tilde{X}}_{i j} = \frac{X_{i j} - μ_{i}}{σ_{i}}$ $\tilde{X}_{ij}=\frac{X_{ij}-\mu_i}{\sigma_i}$ ${\tilde{X}}_{i j} = \frac{X_{i j} - \bar{X_{i}}}{s t d (X_{i})}$ $\tilde{X}_{ij}=\frac{X_{ij} - \overline{X_i}}{std({X_i})}$ $E[X_i] = \mu$ $E[X_i^2-E[X_i]^2]=\sigma^2$ $\overline{X_i}=\frac{1}{N}\sum_{j=1}^{N}X_{ij}$ $std({X_i}) = \sqrt{\frac{1}{N}\sum_{j=1}^{N}(X_{ij}^2 -\overline{X_{i}}^2)}$

Ponieważ regresja liniowa jest bardzo wrażliwa na zakresy zmiennych, generalnie sugerowałbym normalizację wszystkich zmiennych, jeśli nie masz wcześniejszej wiedzy na temat zależności i oczekujesz, że wszystkie zmienne będą relatywnie ważne.

To samo dotyczy zmiennych odpowiedzi, chociaż nie jest to dla nich bardzo ważne.

Po co przeprowadzać normalizację lub standaryzację? Głównie w celu określenia względnego wpływu różnych zmiennych w modelu. Można to osiągnąć, jeśli wszystkie zmienne są w tych samych jednostkach.

Mam nadzieję że to pomoże!

— Paweł
źródło

Co masz na myśli mówiąc, że regresja liniowa jest bardzo wrażliwa na zakresy zmiennych ? Dla każdego z x1,x2,ytych dwóch poleceń: summary(lm(y~x1+x2))$r.sqoraz summary(lm(y~scale(x1)+scale(x2)))$r.sq- wartości , gdy nie ustandaryzujesz współczynników, a kiedy to zrobisz - podaj tę samą wartość, wskazując równoważne dopasowanie.

R^{2}

$R^2$

— Makro

Nie byłem całkowicie poprawny w formule. miałem na myśli wygłupienie. Regresja byłaby zawsze taka sama (w sensie ), jeśli wykonujesz tylko liniowe transformacje danych. Ale jeśli chcesz ustalić, które zmienne są krytyczne, a które prawie głośne, ważna jest skala. Po prostu dobrze jest znormalizować zmienne i zapomnieć o ich oryginalnych skalach. Zatem regresja jest „sensowna” pod względem zrozumienia względnych wpływów.

R^{2}

$\mathbf{R^2}$

— Paul,

Dzięki za wyjaśnienie, ale które zmienne są krytyczne, a które są prawie hałaśliwe, o skali często decyduje wartość , która również nie zmieni się podczas standaryzacji (oczywiście z wyjątkiem przechwytywania). Zgadzam się z twoją tezą, że zapewnia to lepszą interpretację surowych szacunków współczynników.

p

$p$

— Makro