Regresja liniowa i skalowanie danych


10

Poniższy wykres pokazuje współczynniki uzyskane z regresją liniową (ze mpgzmienną docelową i wszystkimi innymi jako predyktorami).

Dla zestawu danych mtcars ( tu i tutaj ) zarówno ze skalowaniem danych, jak i bez:

wprowadź opis zdjęcia tutaj

Jak interpretować te wyniki? Zmienne hpi dispsą ważne tylko wtedy, gdy dane są skalowane. Czy ami qsecrównie ważne czy jest amważniejsza niż qsec? Jaką zmienną należy powiedzieć, że są ważnymi wyznacznikami mpg?

Dzięki za wgląd.


Jeśli nie masz nic przeciwko, czy możesz po prostu uruchomić kilka różnych modeli i sprawdzić, które funkcje są naprawdę ważne? Skalowanie danych jest wykonywane, gdy mamy naprawdę bardzo różne skale dla różnych kolumn i różnią się one znacznie, z twojego wykresu (ładne wykresy), jest całkiem jasne, że skalowanie pomogło modelowi znaleźć rzeczywiste informacje o mnie, ponieważ bez skalowania, model nie ma innej opcji, jak tylko przypisać większą wagę zmiennej, która ma duże skale, pod warunkiem, że to, co przewidujesz, jest również trochę wysoką liczbą.
Aditya

Dziękujemy za komentarz na temat działki. Nie jestem pewien, co rozumiesz przez „uruchamianie kilku różnych modeli”. Czy możesz dowiedzieć się, które cechy są naprawdę ważne, korzystając z innych technik, takich jak sieć neuronowa, dzięki czemu można następnie porównać z wynikami regresji liniowej.
rnso

Przepraszam za to, że wiadomo, co miałem na myśli to wypróbować różne ml algorytmy oparte jak drzewa etc i porównać wszystkie swoje Importances fabularnych ..
Aditya

Odpowiedzi:


4

Fakt, że współczynniki hp i disp są niskie, gdy dane są nieskalowane, i wysoki, gdy dane są skalowane, oznacza, że ​​zmienne te pomagają wyjaśnić zmienną zależną, ale ich wielkość jest duża, więc współczynniki w przypadku nieskalowanym muszą być niskie.

Jeśli chodzi o „ważność”, powiedziałbym, że bezwzględna wartość współczynników w przypadku skalowanym jest dobrą miarą ważności, bardziej niż w przypadku nieskalowanym, ponieważ tam wielkość zmiennej jest również istotna i powinna nie.

Oczywiście ważniejszą zmienną jest wt.


4

Nie można tak naprawdę mówić o znaczeniu w tym przypadku bez standardowych błędów; skalowane są według zmiennych i współczynników. Ponadto, każdy współczynnik jest uwarunkowany innymi zmiennymi w modelu, a kolinearność faktycznie wydaje się zwiększać znaczenie hp i disp.

Zmienne skalowania nie powinny w ogóle zmieniać znaczenia wyników. Rzeczywiście, kiedy przestawię regresję (z takimi, jakimi są zmienne i znormalizuję ją, odejmując średnią i dzieląc przez błędy standardowe), każde oszacowanie współczynnika (oprócz stałej) miało dokładnie taką samą statystykę t jak przed skalowaniem, a Test F o ogólnym znaczeniu pozostał dokładnie taki sam.

Oznacza to, że nawet jeśli wszystkie zmienne zostały przeskalowane tak, aby miały średnią zero i wariancję 1, nie ma jednego standardowego błędu dla każdego ze współczynników regresji, więc po prostu patrząc na wielkość każdego współczynnika w znormalizowana regresja wciąż wprowadza w błąd co do znaczenia.

Jak wyjaśnił David Masip, pozorna wielkość współczynników ma odwrotny związek z wielkością punktów danych. Ale nawet gdy współczynniki disp i hp są ogromne, nadal nie różnią się znacząco od zera.

W rzeczywistości hp i disp są ze sobą silnie skorelowane, r = 0,79, więc standardowe błędy tych współczynników są szczególnie wysokie w stosunku do wielkości współczynnika, ponieważ są tak współliniowe. W tej regresji robią dziwne przeciwwagę, dlatego ktoś ma współczynnik dodatni, a drugi ujemny; wydaje się, że to przypadek nadmiernego dopasowania i nie wydaje się znaczący.

Dobrym sposobem na sprawdzenie, które zmienne wyjaśniają największą zmienność mpg, jest (skorygowany) R-kwadrat. Jest to dosłownie procent wariancji y, co tłumaczy się zmiennością zmiennych x. (Skorygowany kwadrat R zawiera niewielką karę za każdą dodatkową zmienną x w równaniu, aby zrównoważyć przeregulowanie.)

Dobrym sposobem na sprawdzenie, co jest ważne - w świetle innych zmiennych - jest przyjrzenie się zmianie skorygowanego kwadratu R, kiedy pominiesz tę zmienną z regresji. Ta zmiana jest procentem wariancji zmiennej zależnej, którą ten czynnik wyjaśnia, po utrzymaniu stałej innych zmiennych. (Formalnie można sprawdzić, czy pominięte zmienne mają znaczenie za pomocą testu F ; w ten sposób działają stopniowe regresje dla wyboru zmiennych).

Aby to zilustrować, uruchomiłem pojedyncze regresje liniowe dla każdej ze zmiennych osobno, przewidując mpg. Sama zmienna wt wyjaśnia 75,3% wariancji mpg, a żadna pojedyncza zmienna nie wyjaśnia więcej. Jednak wiele innych zmiennych jest skorelowanych z wt i wyjaśnia niektóre z tych samych wariantów. (Użyłem solidnych błędów standardowych, które mogą prowadzić do niewielkich różnic w obliczeniach błędu standardowego i istotności, ale nie wpłyną na współczynniki lub R-kwadrat.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

Gdy wszystkie zmienne są tam razem, R-kwadrat wynosi 0,869, a skorygowany R-kwadrat wynosi 0,807. Tak więc, dodanie 9 dodatkowych zmiennych, aby dołączyć do wt, wyjaśnia kolejne 11% wariantu (lub zaledwie 5% więcej, jeśli poprawimy na przeregulowanie). (Wiele zmiennych wyjaśniło niektóre z tych samych zmian mpg, które robi wt.). W tym pełnym modelu jedynym współczynnikiem o wartości p poniżej 20% jest wt, przy p = 0,089.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.