Bardzo często stwierdza się, że preferowanie minimalizacji reszt najmniejszych do kwadratu jest lepsze niż minimalizowanie reszt absolutnych z tego powodu, że jest on prostszy obliczeniowo . Ale może to również być lepiej z innych powodów. Mianowicie, jeśli założenia są prawdziwe (i nie jest to tak rzadkie), to zapewnia rozwiązanie, które jest (średnio) dokładniejsze.
Maksymalne prawdopodobieństwo
Regresję metodą najmniejszych kwadratów i regresję kwantową (wykonaną przez zminimalizowanie absolutnych reszt) można postrzegać jako maksymalizującą funkcję prawdopodobieństwa dla błędów rozkładu Gaussa / Laplace'a i są w tym sensie bardzo ze sobą powiązane.
Rozkład Gaussa:
fa( x ) = 12πσ2−−−−√e−(x−μ)22σ2
z maksymalnym prawdopodobieństwem logarytmicznym przy minimalizacji sumy kwadratów reszt
logL(x)=−n2log(2π)−nlog(σ)−12σ2∑i=1n(xi−μ)2sum of squared residuals
Rozkład Laplace'a:
f(x)=12be−|x−μ|b
z maksymalnym prawdopodobieństwem logarytmu przy minimalizacji sumy absolutnych reszt
logL(x)=−nlog(2)−nlog(b)−1b∑i=1n|xi−μ|suma absolutnych reszt
Uwaga: rozkład Laplace'a i suma absolutnych reszt odnosi się do mediany, ale można je uogólnić na inne kwantyle, nadając różną wagę resztom ujemnym i dodatnim.
Znany rozkład błędów
Kiedy znamy rozkład błędów (gdy założenia są prawdopodobnie prawdziwe), warto wybrać powiązaną funkcję prawdopodobieństwa. Minimalizacja tej funkcji jest bardziej optymalna.
μ
Tak więc, gdy błędy są rozkład normalny, średnia próbki jest lepszym estymatorem mediany rozkładu niż mediana próbki . Regresja najmniejszych kwadratów jest bardziej optymalnym estymatorem kwantyli. Jest to lepsze niż użycie najmniejszej sumy absolutnych reszt.
Ponieważ tak wiele problemów dotyczy normalnych błędów rozproszonych, bardzo popularna jest metoda najmniejszych kwadratów. Do pracy z innymi typami rozkładów można użyć Uogólnionego modelu liniowego . I metoda iteracyjnych najmniejszych kwadratów, którą można zastosować do rozwiązania GLM, działa również dla rozkładu Laplace'a (tj. Dla odchyleń bezwzględnych ), co jest równoważne znalezieniu mediany (lub w wersji uogólnionej innych kwantyli).
Nieznany rozkład błędów
Krzepkość
Mediana lub inne kwantyle mają tę zaletę, że są bardzo solidne pod względem rodzaju rozkładu. Rzeczywiste wartości nie mają większego znaczenia, a kwantyle dbają tylko o porządek. Niezależnie od tego, jaki jest rozkład, minimalizowanie absolutnych reszt (co jest równoważne znalezieniu kwantyli) działa bardzo dobrze.
Pytanie staje się tutaj złożone i szerokie i zależy od tego, jaki rodzaj wiedzy mamy lub nie mamy na temat funkcji dystrybucji. Na przykład rozkład może być w przybliżeniu normalny, ale tylko z pewnymi dodatkowymi wartościami odstającymi. Można temu zaradzić, usuwając wartości zewnętrzne. To usunięcie skrajnych wartości działa nawet w oszacowaniu parametru lokalizacji rozkładu Cauchy'ego, w którym skrócona średnia może być lepszym estymatorem niż mediana. Tak więc nie tylko dla idealnej sytuacji, w której założenia się utrzymują, ale także dla niektórych mniej idealnych aplikacji (np. Dodatkowe wartości odstające) mogą istnieć dobre solidne metody, które nadal wykorzystują pewną formę sumy kwadratów reszt zamiast reszt absolutnych.
Wyobrażam sobie, że regresja ze obciętymi resztami może być obliczeniowo znacznie bardziej złożona. Może to być w rzeczywistości regresja kwantylowa, która jest rodzajem regresji wykonywanej z tego powodu, że jest ona obliczeniowa prostsza (nie prostsza niż zwykłe najmniejsze kwadraty, ale prostsza niż skrócone najmniejsze kwadraty).
Biased / bezstronne
Kolejna kwestia jest stronnicza w stosunku do obiektywnych estymatorów. Powyżej opisałem oszacowanie maksymalnego prawdopodobieństwa dla średniej, tj. Rozwiązanie najmniejszych kwadratów, jako dobry lub preferowany estymator, ponieważ często ma on najniższą wariancję ze wszystkich obiektywnych estymatorów (gdy błędy są rozkładem normalnym). Ale tendencyjne estymatory mogą być lepsze (niższa oczekiwana suma błędu kwadratu).
To sprawia, że pytanie znów jest szerokie i złożone. Istnieje wiele różnych estymatorów i wiele różnych sytuacji do ich zastosowania. Zastosowanie dostosowanej sumy kwadratowej funkcji utraty resztek często działa dobrze w celu zmniejszenia błędu (np. Wszystkie rodzaje metod regularyzacji), ale może nie wymagać dobrej pracy we wszystkich przypadkach. Intuicyjnie nie jest dziwne, że skoro suma kwadratowej funkcji utraty resztek często działa dobrze dla wszystkich obiektywnych estymatorów, optymalne estymatory stronniczości są prawdopodobnie zbliżone do sumy kwadratowej funkcji straty reszt.