Pytanie o standaryzację w regresji kalenicowej

17

Cześć chłopaki, znalazłem jeden lub dwa artykuły, które używają regresji grzbietu (dla danych koszykówki). Zawsze kazano mi ustandaryzować moje zmienne, jeśli prowadziłem regresję grzbietu, ale po prostu kazano mi to zrobić, ponieważ grzbiet był wariantem skali (regresja grzbietu nie była tak naprawdę częścią naszego kursu, więc nasz wykładowca przejrzał ją).

Te artykuły, które przeczytałem, nie ustandaryzowały ich zmiennych, co trochę mnie zaskoczyło. Skończyły się one również dużymi wartościami lambda (około poziomu 2000–4000) poprzez krzyżową walidację, a powiedziano mi, że wynika to z braku standaryzacji zmiennych.

W jaki sposób pozostawienie niestandardowej zmiennej (zmiennych) prowadzi do wysokich wartości lambda, a także jakie są konsekwencje braku standaryzacji zmiennych w ogóle? Czy to naprawdę taka wielka sprawa?

Każda pomoc jest mile widziana.

regression standardization

— l_davies93
źródło

18

Regresja grzbietowa reguluje regresję liniową, nakładając karę na wielkość współczynników. W ten sposób współczynniki są zmniejszane do zera i do siebie. Ale kiedy tak się dzieje i jeśli zmienne niezależne nie mają tej samej skali, kurczenie się nie jest sprawiedliwe. Dwie niezależne zmienne o różnych skalach będą miały różny udział w elementach karanych, ponieważ element karny jest sumą kwadratów wszystkich współczynników. Aby uniknąć tego rodzaju problemów, bardzo często zmienne niezależne są wyśrodkowane i skalowane w celu uzyskania wariancji 1.

[Późniejsza edycja, aby odpowiedzieć na komentarz]

$height$

Termin penalizacji z lambda jest taki sam, jak wyrażenie funkcji straty kwadratowej w odniesieniu do sumy kwadratów współczynników mniejszych lub równych danej stałej. Oznacza to, że większa lambda daje dużo miejsca kwadratowej sumie współczynników, a niższa lambda mniejszą przestrzeń. Większa lub mniejsza przestrzeń oznacza większe lub mniejsze bezwzględne wartości współczynników.

Jeśli nie zastosujemy standaryzacji, dopasowanie modelu może wymagać dużych wartości bezwzględnych współczynników. Oczywiście możemy mieć naturalnie dużą wartość współczynnika, ze względu na rolę zmiennej w modelu. Mówię, że ta wartość może mieć sztucznie zawyżoną wartość z powodu braku skalowania. Skalowanie zmniejsza więc również potrzebę dużych wartości współczynników. Zatem optymalna wartość lambda byłaby zwykle mniejsza, co odpowiada mniejszej sumie kwadratowych wartości współczynników.

— rapaio
źródło

Dzięki. W jaki sposób standaryzacja nie doprowadziłaby do wyższego szacowanego błędu testu (poprzez krzyżową walidację), a zatem potrzebna byłaby wyższa lambda?

— l_davies93

Dołączyłem moją myśl do odpowiedzi

— rapaio

Wiem, że to stare pytanie, ale czy mógłbyś wyjaśnić, dlaczego parametr strojenia powinien się

— zwiększyć

1

Choć cztery lata później, mam nadzieję, że ktoś skorzysta na tym .... W moim rozumieniu, coeff jest to, ile zmian zmiennej docelowej dla zmiany jednostkowej zmiennej niezależnej (dy / dx). Załóżmy, że badamy związek między wagą a wzrostem, a waga jest mierzona w kg. Kiedy używamy Kilometrów do wysokości, możesz sobie wyobrazić, że większość punktów danych (dla wysokości człowieka) jest ściśle upakowana. Tak więc, dla niewielkiej ułamkowej zmiany wysokości nastąpi ogromna zmiana masy (zakładając wzrost masy wraz z wzrostem). Stosunek dy / dx będzie ogromny. Z drugiej strony, jeśli wysokość jest mierzona w milimetrach, dane będą rozłożone daleko i szeroko na atrybutach wysokości. Zmiana wysokości w jednostce nie spowoduje znaczącej zmiany masy dy / dx będzie bardzo mała, prawie bliska 0.

— użytkownik3358819
źródło