Dlaczego metody regresji metodą najmniejszych kwadratów i największej wiarygodności nie są równoważne, gdy błędy nie są zwykle rozkładane?


10

Tytuł mówi wszystko. Rozumiem, że najmniejsze kwadraty i maksymalne prawdopodobieństwo dadzą taki sam wynik dla współczynników regresji, jeśli błędy modelu są zwykle rozkładane. Ale co się stanie, jeśli błędy nie są zwykle dystrybuowane? Dlaczego te dwie metody nie są już równoważne?


Czy masz na myśli (a) użycie MLE, gdy założenie normalności nie jest spełnione, lub (b) użycie funkcji wiarygodności innej niż gaussowska?
Tim

(a) gdy założenie normalności nie jest spełnione
Shuklaswag,

Nawet jeśli założenie nie jest spełnione (tzn. Obserwowane wartości nie są rozkładem Gaussa) ... jeśli obliczasz MLE za pomocą funkcji prawdopodobieństwa Gaussa, to robisz to samo, co optymalizacja metodą najmniejszych kwadratów. Metody optymalizacji są matematycznie równoważne i niezależne od tego, czy założenie normalności było słuszne, czy nie.
Sextus Empiricus

Nawet przy normalnych rozkładach najmniejsze kwadraty narzucają stałą wariancję.
CodesInChaos

Odpowiedzi:


16

Krótka odpowiedź

Gęstość prawdopodobieństwa wieloczynnikowej zmiennej rozkładowej Gaussa , ze średnią jest związana z kwadratem euklidesa odległość między średnią a zmienną ( ), czyli innymi słowy suma kwadratów.x=(x1,x2,...,xn)μ=(μ1,μ2,...,μn)|μx|22


Długa odpowiedź

Jeśli pomnożysz wiele rozkładów Gaussa dla swoich błędów, przy założeniu równych odchyleń, otrzymasz sumę kwadratów.n

L(μj,xij)=P(xij|μj)=i=1n12πσ2exp[(xijμi)22σ2]=(12πσ2)nexp[i=1n(xijμi)22σ2]

lub w wygodnej formie logarytmicznej:

log(L(μj,xij))=nlog(12πσ2)12σ2i=1n(xijμj)2

Zatem optymalizacja celu zminimalizowania sumy kwadratów jest równa maksymalizacji prawdopodobieństwa (log) (tj. Iloczynu wielu rozkładów Gaussa lub wielowymiarowego rozkładu Gaussa).μ

Jest to zagnieżdżony kwadrat różnicy wewnątrz struktury wykładniczej, , którego inne rozkłady nie mają.(μx)exp[(xiμ)2]


Porównaj na przykład z przypadkiem dla rozkładów Poissona

log(L)=log(μjxijxij!exp[μj])=μjlog(xij!)+log(μj)xij

która ma maksimum, gdy zminimalizowane są:

μjlog(μj)xij

która jest inną bestią.


Ponadto (historia)

Historia rozkładu normalnego (ignorowanie przejścia deMoivre do tego rozkładu jako przybliżenia rozkładu dwumianowego) jest w rzeczywistości odkryciem rozkładu, które sprawia, że ​​MLE odpowiada metodzie najmniejszych kwadratów (a nie metodzie najmniejszych kwadratów, która jest metodą które mogą wyrażać MLE rozkładu normalnego, najpierw pojawiła się metoda najmniejszych kwadratów, a następnie rozkład Gaussa)

Zauważ, że Gauss, łącząc „metodę największego prawdopodobieństwa” z „metodą najmniejszych kwadratów”, wymyślił „rozkład Gaussa”, , jako jedyny rozkład błędów, który prowadzi nas do wykonaj to połączenie między dwiema metodami.ex2

Z przekładu Charlesa Henry'ego Davisa (Teoria ruchu ciał niebieskich poruszających się wokół Słońca w odcinkach stożkowych. Tłumaczenie „Theoria motus” Gaussa z dodatkiem) ...

Gauss definiuje:

W związku z tym prawdopodobieństwo przypisania do każdego błędu będzie wyrażone przez funkcję którą oznaczymy przez .ΔΔψΔ

(Italizacja wykonana przeze mnie)

I kontynuuje ( w sekcji 177 s. 258 ):

... stąd łatwo wywnioskować, że musi być stałą wielkością. które oznaczymy przez . Stąd mamy oznaczająca podstawę logarytmów hiperbolicznych przez i przyjmującψΔΔk

log ψΔ=12kΔΔ+Constant
ψΔ=xe12kΔΔ
e
Constant=logx

kończąc (po normalizacji i realizacji ) wk<0

ψΔ=hπehhΔΔ


Napisane przez StackExchangeStrike


Czy pamiętasz, skąd masz tę wiedzę? Czy mógłbyś dodać źródło do swojego postu? (Trudno mi znaleźć podręcznik, który wyjaśnia to dobrze.)
Joooeey

@Joooeey Dodałem tytuł źródła przetłumaczonych cytatów Gaussa, a także link do jednego z wielu źródeł online. Ten oryginalny tekst jest ciężki, ale w każdym opisie historii normalnej dystrybucji powinieneś napotkać lżejsze traktaty.
Sextus Empiricus

Funkcje prawdopodobieństwa pojawiają się w wielu miejscach. Jeśli szukasz źródeł, w których zdobyłem tę „wiedzę”, to mogę powiedzieć artykuł Pearsona z 1900 r. O teście chi-kwadrat, w którym rozkład normalny wielowymiarowy jest traktowany geometrycznie. Również Fisher kilkakrotnie używał reprezentacji geometrycznych (jest na przykład ten jeden artykuł z lat dwudziestych, o wydajności szacunków, w którym porównuje średni błąd kwadratu i średni błąd bezwzględny i gdzie mówi o powierzchniach w hiperprzestrzeni).
Sextus Empiricus

@Joooeey zrobiłem odniesienie do tego artykułu Fisher zanim tutaj . Moja odpowiedź tutaj wykorzystuje geometryczny punkt widzenia, aby wyprowadzić właściwość rozkładu t, również odnosi się do Fishera (uważam, że artykuł, w którym dowodzi rozkładu t-Gosseta, lub może nieco późniejszy artykuł).
Sextus Empiricus

5

Ponieważ MLE wywodzi się z założenia resztkowej normalnie rozłożonej.

Zauważ, że

minβ  Xβy2

Ma żadnego znaczenia probabilistyczny : wystarczy znaleźć , które minimalizują funkcję strat kwadratu. Wszystko jest deterministyczne i nie ma tam żadnych losowych składników.β

Zakładamy, że tam, gdzie pojawia się pojęcie prawdopodobieństwa i prawdopodobieństwa

y=Xβ+ϵ

Tam, gdzie rozważamy jako zmienną losową, a jest zwykle rozłożony.ϵyϵ


@Matthew Drury po co zmieniać notację macierzową i dodawać znak sumy?
Haitao Du

Uznałem, że będzie to jasne, ale jeśli twierdzisz, że stwierdzenie nie ma znaczenia probalistycznego, nie możesz użyć wyrażenia z symbolami, które najlepiej interpretować jako zmienne losowe. Problem optymalizacji, który poprawiasz, dotyczy stałych danych.
Matthew Drury,

5

Najmniejsze kwadraty i maksymalne dopasowanie (gaussowskie) prawdopodobieństwa są zawsze równoważne. Oznacza to, że są one minimalizowane przez ten sam zestaw współczynników.

Zmiana założenia dotyczącego błędów zmienia funkcję prawdopodobieństwa (maksymalizacja prawdopodobieństwa modelu jest równoważna maksymalizacji prawdopodobieństwa terminu błędu), a zatem funkcja nie będzie już minimalizowana przez ten sam zestaw współczynników.

Więc w praktyce oba są takie same, ale teoretycznie, kiedy zmaksymalizujesz inne prawdopodobieństwo, dojdziesz do innej odpowiedzi niż Najmniejsze kwadraty


„czy zawsze równoważny”?
nbro

0

Konkretny przykład: załóżmy, że bierzemy prostą funkcję błędu p (1) =. 9, p (-9) = .10. Jeśli weźmiemy dwa punkty, LS po prostu przejdzie przez nie linię. Z drugiej strony ML zakłada, że ​​oba punkty są o jedną jednostkę za wysoko, a zatem poprowadzi linię przez punkty przesunięte w dół na jednostkę.


2
Twój przykład jest niejasny; w szczególności trudno jest stwierdzić, jaki model próbujesz opisać lub dlaczego ML miałby dać wynik, o który się twierdzisz. Czy mógłbyś rozwinąć tę odpowiedź?
whuber

Model jest taki, że y = mx + b + błąd, gdzie błąd ma 90% szans na bycie +1 i 10% szans na bycie -9. Biorąc pod uwagę każdy zaobserwowany punkt, prawdziwy punkt ma 90% prawdopodobieństwa bycia o jedną jednostkę poniżej i 10% prawdopodobieństwa bycia dziewięcioma jednostkami powyżej. Dlatego ML daje do zrozumienia, że ​​prawdziwy punkt to jedna jednostka poniżej. Czego o tym nie rozumiesz?
Kumulacja

2
Twój komentarz jest pomocny, ale twoja odpowiedź wciąż nie opisuje modelu w żaden jasny lub zrozumiały sposób. Czy możesz włączyć to wyjaśnienie do samej odpowiedzi? To dobry przykład.
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.