Metoda maksymalnego prawdopodobieństwa vs. metoda najmniejszych kwadratów

Jaka jest główna różnica między oszacowaniem maksymalnego prawdopodobieństwa (MLE) a oszacowaniem metodą najmniejszych kwadratów (LSE)?

Dlaczego nie możemy użyć MLE do przewidywania wartości w regresji liniowej i odwrotnie? $y$

Każda pomoc na ten temat będzie bardzo mile widziana.

— evros
źródło

Możesz użyć MLE w regresji liniowej, jeśli chcesz. Może to mieć sens, jeśli rozkład błędów jest nienormalny, a Twoim celem jest uzyskanie „najbardziej prawdopodobnej” oceny, a nie takiej, która minimalizuje sumę kwadratów.

— Richard Hardy

Przy normalnym założeniu błędu, jak zwykle zakłada się w regresji liniowej, MLE i LSE są takie same!

— TrynnaDoStat

Wyszukaj na naszej stronie twierdzenie Gaussa-Markowa .

— whuber

dzięki za wszystkie odpowiedzi. To ma sens. Podczas szukania tego tematu w sieci natknąłem się na ten artykuł. Może to też pomaga: radfordneal.wordpress.com/2008/08/09/…

— evros

Odpowiedź jest również przewidziane w stats.stackexchange.com/questions/12562/... .

— whuber

Odpowiedzi:

Chciałbym udzielić prostej odpowiedzi.

Jaka jest główna różnica między oszacowaniem maksymalnego prawdopodobieństwa (MLE) a oszacowaniem metodą najmniejszych kwadratów (LSE)?

Jak skomentował @TrynnaDoStat, minimalizacja błędu kwadratu jest równoważna maksymalizacji prawdopodobieństwa w tym przypadku. Jak powiedziano w Wikipedii ,

W modelu liniowym, jeśli błędy należą do rozkładu normalnego, estymatory najmniejszych kwadratów są również estymatorami największego prawdopodobieństwa.

mogą być traktowane tak samo w twoim przypadku,

Pozwól mi to szczegółowo opisać. Ponieważ wiemy, że zmienna odpowiedzi ( $y$ )

Y_{ja} = λ_{1} X_{ja} + λ_{2)} + ϵ_{ja} gdzie ϵ \sim N. (0, σ^{2)})

$Y_i=\lambda_1X_i+\lambda_2+\epsilon_i \quad\text{ where }\epsilon\thicksim N(0,\sigma^2)$ ma model rozkładu błędu normalnego, funkcją prawdopodobieństwa jest

L. (Y_{1}, \dots, Y_{n}; λ_{1}, λ_{2)}, σ^{2)}) = \frac{1}{(2) π)^{\frac{n}{2)} σ^{n}}} mi x p (\frac{- 1}{2) σ^{2)}} (\sum_{ja = 1}^{n} (Y_{ja} - λ_{1} X_{ja} - λ_{2)})^{2)}))

$L(Y_1,\dots,Y_n;\lambda_1,\lambda_2,\sigma^2)=\frac{1}{(2\pi)^{\frac{n}{2}\sigma^n}}exp(\frac{-1}{2\sigma^2}(\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2))$ Oczywiście maksymalizacja L jest równoważna minimalizacji

\sum_{ja = 1}^{n} (Y_{ja} - λ_{1} X_{ja} - λ_{2)})^{2)}

$\sum_{i=1}^n(Y_i-\lambda_1X_i-\lambda_2)^2$ To jest metoda najmniejszych kwadratów.

Dlaczego nie możemy użyć MLE do przewidywania wartości $y$ w regresji liniowej i odwrotnie?

$y$

— Lerner Zhang
źródło

Możesz zdefiniować „ten przypadek” nieco jaśniej, ponieważ generalnie maksymalne prawdopodobieństwo i najmniejsze kwadraty to nie to samo.

— Matthew Gunn

@MatthewGunn Tak, użyłem „odpowiednika” innego niż „to samo”.

— Lerner Zhang

Byłoby wspaniale, gdybyś dał nam przykład, w którym model liniowy jest zgodny z nietypowym rozkładem błędów, oraz w jaki sposób używasz MLE w takim przypadku do oszacowania najlepszych współczynników. Jeśli nie jest to możliwe, przynajmniej możesz wskazać nam prawidłowe źródło, które pokazuje to za pomocą modeli liniowych, takich jak regresja Poissona

— VM_AI

$L_1$ $L_2$

$L_2$ $L_2$

szpiegowanie danych
parametry stochastyczne
słabe ograniczenia

Profesjonalne aplikacje nie tylko pasują do danych, ale sprawdzają:

jeśli parametr jest znaczący
jeśli twój zestaw danych zawiera wartości odstające
która wartość odstająca może być tolerowana, ponieważ nie ogranicza wydajności
który pomiar należy usunąć, ponieważ nie wpływa on na stopień swobód

Istnieje również ogromna liczba specjalistycznych testów statystycznych dla hipotez. Nie dotyczy to wszystkich estymatorów ML lub powinno być przynajmniej potwierdzone.

$L_2$

$\mathbf{X\beta}=\mathbf{L}+\mathbf{r}$ $(\mathbf{X}^{T}\mathbf{X})^{-1}$ $L_2$

Zapytaj o szczegóły.

— Nali
źródło