Uwzględnienie wielokoliniowości jest ważne w analizie regresji, ponieważ w skrajności bezpośrednio dowodzi , czy Twoje współczynniki są jednoznacznie identyfikowane w danych. W mniej poważnych przypadkach nadal może to popsuć szacunki współczynników; niewielkie zmiany danych wykorzystywanych do oszacowania mogą powodować dzikie wahania szacowanych współczynników. Mogą to być problematyczne z punktu widzenia wnioskowania: jeśli dwie zmienne są silnie skorelowane, wzrosty w jednej mogą zostać zrównoważone przez spadki w drugiej, więc połączony efekt ma się wzajemnie zanegować. Przy więcej niż dwóch zmiennych efekt może być jeszcze bardziej subtelny, ale jeśli prognozy są stabilne, często wystarcza to w aplikacjach uczenia maszynowego.
Zastanów się, dlaczego regulujemy w kontekście regresji: musimy ograniczyć model, aby nie był zbyt elastyczny. Zastosowanie prawidłowej ilości regularyzacji nieznacznie zwiększy błąd systematyczny w celu większego zmniejszenia wariancji. Klasycznym przykładem tego jest dodanie do regresji terminów wielomianowych i efektów interakcji: W przypadku zdegenerowanym równanie prognostyczne interpoluje punkty danych, ale prawdopodobnie będzie straszne przy próbie przewidzenia wartości niewidzialnych punktów danych. Zmniejszenie tych współczynników prawdopodobnie zminimalizuje lub całkowicie wyeliminuje niektóre z tych współczynników i poprawi uogólnienie.
Jednak losowy las może mieć parametr regularyzacji poprzez liczbę zmiennych próbkowanych przy każdym podziale: im lepsze podziały, tym większe mtry
(im więcej funkcji do wyboru; niektóre z nich są lepsze niż inne), ale to także sprawia, że każde drzewo jest bardziej skorelowane ze sobą, nieco łagodząc efekt dywersyfikacji szacowania wielu drzew w pierwszej kolejności. Ten dylemat zmusza do znalezienia właściwej równowagi, zwykle osiągniętej za pomocą walidacji krzyżowej. Co ważne, w przeciwieństwie do analizy regresji, żadna część losowego modelu lasu nie jest niszczona przez wysoce współliniowe zmienne: nawet jeśli dwie zmienne zapewniają tę samą czystość węzła potomnego, możesz wybrać jedną bez pogorszenia jakości wyniku.
Podobnie, dla czegoś takiego jak SVM, możesz dołączyć więcej predyktorów niż funkcji, ponieważ sztuczka jądra pozwala działać wyłącznie na wewnętrznym produkcie tych wektorów cech. Posiadanie większej liczby funkcji niż obserwacji byłoby problemem w regresjach, ale sztuczka jądra oznacza, że szacujemy tylko współczynnik dla każdego przykładu, podczas gdy parametr regularyzacji zmniejsza elastyczność rozwiązania - co jest zdecydowanie dobrą rzeczą, ponieważ szacowanie parametrów dlaCNNobserwacje w nieograniczony sposób zawsze będą tworzyć idealny model na danych testowych - a my zataczamy koło, wracając do scenariusza regresji grzbietu / LASSO / elastycznej siatki, w którym mamy ograniczoną elastyczność modelu jako sprawdzian w stosunku do zbyt optymistycznego modelu. Przegląd warunków KKT dla problemu SVM pokazuje, że rozwiązanie SVM jest unikalne, więc nie musimy się martwić problemami identyfikacyjnymi, które pojawiły się w przypadku regresji.
Na koniec rozważ faktyczny wpływ wielokoliniowości. Nie zmienia mocy predykcyjnej modelu (przynajmniej na danych treningowych), ale nie zgadza się z naszymi oszacowaniami współczynników. W większości aplikacji ML nie dbamy o same współczynniki, po prostu utratę naszych prognoz modelu, więc w tym sensie sprawdzenie VIF nie odpowiada na kolejne pytanie. (Ale jeśli niewielka zmiana danych spowoduje ogromną fluktuację współczynników [klasyczny objaw wielokoliniowości], może to również zmienić przewidywania, w którym to przypadku nam zależy - ale wszystko to [mamy nadzieję!] Charakteryzuje się, gdy przeprowadzić walidację krzyżową, która i tak jest częścią procesu modelowania.) Regresję łatwiej interpretować, ale interpretacja może nie być najważniejszym celem niektórych zadań.