To pytanie jest interesujące, ponieważ ujawnia pewne powiązania między teorią optymalizacji, metodami optymalizacji i metodami statystycznymi, które każdy zdolny użytkownik statystyki musi zrozumieć. Chociaż połączenia te są proste i łatwe do nauczenia, są subtelne i często pomijane.
Podsumowując niektóre pomysły z komentarzy do innych odpowiedzi, chciałbym zauważyć, że istnieją co najmniej dwa sposoby, dzięki którym „regresja liniowa” może dawać nie unikalne rozwiązania - nie tylko teoretycznie, ale w praktyce.
Brak możliwości identyfikacji
Po pierwsze, model nie jest możliwy do zidentyfikowania. Tworzy to wypukłą, ale niekoniecznie wypukłą funkcję celu, która ma wiele rozwiązań.
Rozważmy, na przykład, cofa się na i (z osią) dla danych . Jednym z rozwiązań jest . Innym jest . Aby zobaczyć, że musi istnieć wiele rozwiązań, sparametryzuj model trzema rzeczywistymi parametrami i terminem błędu w postacix pręd ( x , y , z ) ( 1 , - 1 , 0 ) , ( 2 , - 2 , - 1 ) , ( 3 , - 3 , - 2 ), z = 1 + R z = 1 - x ( λ , μ , ν ) εzxy( x , y, z)(1,−1,0),(2,−2,−1),(3,−3,−2)z^=1+yz^=1−x(λ,μ,ν)ε
z=1+μ+(λ+ν−1)x+(λ−ν)y+ε.
Suma kwadratów reszt upraszcza się
SSR=3μ2+ 24 μ ν+ 56 ν2).
(Jest to ograniczający przypadek funkcji obiektywnych, które pojawiają się w praktyce, takich jak omawiany w Czy empiryczny hessian estymatora M może być nieokreślony ? , w którym można czytać szczegółowe analizy i przeglądać wykresy funkcji.)
Ponieważ współczynniki kwadratów ( i ) są dodatnie, a wyznacznik jest dodatni, jest to dodatnia-pół-skończona postać kwadratowa w . Jest minimalizowany, gdy , ale może mieć dowolną wartość. Ponieważ funkcja celu nie zależy od , nie ma też jej gradientu (ani żadnych innych pochodnych). Dlatego każdy algorytm spadku gradientu - jeśli nie dokona żadnych arbitralnych zmian kierunku - ustawi wartość na dowolną wartość początkową.56 3 x 56 - ( 24 / 2 ) 2 = 24 ( μ , ν , λ ) μ = ν = 0 λ SSR λ λ3)563 x 56 - ( 24 / 2 )2)= 24( μ , ν, λ )μ = ν= 0λSSRλλ
Nawet jeśli gradient nie jest używany, rozwiązanie może się różnić. Na R
przykład istnieją dwa łatwe, równoważne sposoby określenia tego modelu: jako z ~ x + y
lub z ~ y + x
. Daje w wyniku pierwszych a drugi nadaje Ż = 1 + Y . z^= 1 - xz^= 1 + y
> x <- 1:3
> y <- -x
> z <- y+1
> lm(z ~ x + y)
Coefficients:
(Intercept) x y
1 -1 NA
> lm(z ~ y + x)
Coefficients:
(Intercept) y x
1 1 NA
( NA
Wartości należy interpretować jako zera, ale z ostrzeżeniem, że istnieje wiele rozwiązań. Ostrzeżenie było możliwe z powodu przeprowadzonych wstępnych analiz, R
które są niezależne od jego metody rozwiązania. Metoda opadania gradientu prawdopodobnie nie wykryłaby możliwości wielu rozwiązań, chociaż dobry ostrzegałby cię przed pewną niepewnością, że osiągnął optymalny poziom).
Ograniczenia parametrów
Ścisła wypukłość gwarantuje unikalne globalne optimum, pod warunkiem, że dziedzina parametrów jest wypukła. Ograniczenia parametrów mogą tworzyć domeny niewypukłe, prowadząc do wielu globalnych rozwiązań.
Bardzo prosty przykład stanowi problem oszacowania „średniej” dla danych - 1 , 1 z zastrzeżeniem ograniczenia | μ | ≥ 1 / 2 . Modeluje to sytuację, która jest swego rodzaju przeciwieństwem metod regularyzacji, takich jak Regresja Ridge'a, Lasso lub Elastyczna Sieć: nalega, aby parametr modelu nie stał się zbyt mały. (Na tej stronie pojawiły się różne pytania z pytaniem, jak rozwiązać problemy regresji przy takich ograniczeniach parametrów, co pokazuje, że pojawiają się one w praktyce).μ- 1 , 1| μ | ≥1 / 2
Istnieją dwa rozwiązania najmniejszych kwadratów w tym przykładzie, oba równie dobre. Można je znaleźć, minimalizując zastrzeżeniem ograniczenia | μ | ≥ 1 / 2 . Oba roztwory μ = ± 1 / 2 . Więcej niż jedno rozwiązanie może powstać z powodu ograniczenia parametru dokonuje domeny ľ ∈ ( - ∞ , - 1 / 2 ] ∪( 1 - μ )2)+ ( - 1 - μ )2)| μ | ≥1 / 2μ = ± 1 / 2 nonconvex:ľ ∈ ( - ∞ , - 1 / 2 ] ∪ [ 1 / 2 , ∞ )
Parabola jest wykresem (ściśle) wypukłej funkcji. Gęstą czerwona część jest częścią ograniczone do domeny : ma dwie najniższe punkty na ľ = ± 1 / 2 , gdzie suma kwadratów 5 / 2 . Reszta paraboli (pokazana jako kropkowana) jest usuwana przez ograniczenie, eliminując w ten sposób jego unikalne minimum.μμ = ± 1 / 25 / 2
Metoda gradientu zejście, chyba że byli gotowi do podjęcia dużych skoków, najprawdopodobniej znaleźć „unikalny” rozwiązanie , gdy zaczyna o dodatniej wartości i inaczej byłoby znaleźć „unikalny” rozwiązanie μ = - 1 / 2 , gdy zaczynając od wartości ujemnej.μ = 1 / 2μ = - 1 / 2
Ta sama sytuacja może wystąpić w przypadku większych zestawów danych i większych wymiarów (to znaczy z większą liczbą parametrów regresji, aby pasowały).