Stabilność numeryczna i nadmierne dopasowanie są w pewnym sensie powiązane, ale różne są kwestie.
Klasyczny problem OLS:
Rozważ klasyczny problem najmniejszych kwadratów:
minimize(over b)(y−Xb)T(y−Xb)
Rozwiązaniem jest klasyczny . Chodzi o to, że według prawa wielkich liczb:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
Stąd szacunek OLS również zbiega się z . (W kategoriach algebry liniowej jest to rzut liniowy zmiennej losowej na rozpiętość liniową zmiennych losowych .)b^E[xx′]−1E[xy]yx1,x2,…,xk
Problemy?
Mechanicznie, co może pójść nie tak? Jakie są możliwe problemy?
- W przypadku małych próbek nasze szacunkowe próbki i mogą być słabe.E[xx′]E[xy]
- Jeśli kolumny są współliniowe (z powodu nieodłącznej kolinearności lub małej wielkości próbki), problem będzie miał ciąg rozwiązań! Rozwiązanie może nie być unikalne.
X
- Dzieje się tak, jeśli ma niedobór rangi.E[xx′]
- Dzieje się tak również wtedy, gdy ma niedobór rangi z powodu małej wielkości próby w stosunku do liczby problemów z regresorem.X′X
Problem (1) może prowadzić do przeuczenia, ponieważ oszacowanie zaczyna odzwierciedlać wzorce w próbie, których nie ma w populacji podstawowej. Oszacowanie może odzwierciedlać wzorce w i , które tak naprawdę nie istnieją w ib^1nX′X1nX′yE[xx′]E[xy]
Problem (2) oznacza, że rozwiązanie nie jest unikalne. Wyobraź sobie, że próbujemy oszacować cenę poszczególnych butów, ale pary butów są zawsze sprzedawane razem. To źle postawiony problem, ale powiedzmy, że i tak to robimy. Możemy wierzyć, że cena lewego buta plus cena prawego buta wynosi 50 USD , ale jak możemy wymyślić indywidualne ceny? Czy ustawienie ceny lewego buta i ceny prawego buta porządku? Jak możemy wybierać spośród wszystkich możliwości?pl=45pr=5
Przedstawiamy karę :L2
Teraz rozważ:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
Może to nam pomóc w przypadku obu rodzajów problemów. kara popycha naszą oszacowania do zera. Działa to skutecznie jako bayesowski, zanim rozkład wartości wartości współczynników zostanie wyśrodkowany wokół . To pomaga w przeuczeniu. Nasze szacunki odzwierciedlą zarówno dane, jak i nasze początkowe przekonania, że jest bliski zeru.L2b0b
L2 również zawsze pozwala nam znaleźć unikalne rozwiązanie źle postawionych problemów. Jeśli znamy cenę lewych i prawych butów łącznie na , rozwiązaniem, które minimalizuje również normę jest wybranie .$50L2pl=pr=25
Czy to magia? Nie. Regularyzacja to nie to samo, co dodawanie danych, które faktycznie pozwoliłyby nam odpowiedzieć na pytanie. w pewnym sensie przyjmuje pogląd, że jeśli brakuje danych, wybierz oszacowania bliższe .L20