Patrząc na definicje Wikipedii:
- Mean Squared Error (MSE)
- Resztkowa suma kwadratów (RSS)
Tak mi się wydaje
gdzie jest numerem on próbek i jest nasza ocena .
Jednak żaden z artykułów Wikipedii nie wspomina o tym związku. Czemu? Czy coś brakuje?
Patrząc na definicje Wikipedii:
Tak mi się wydaje
gdzie jest numerem on próbek i jest nasza ocena .
Jednak żaden z artykułów Wikipedii nie wspomina o tym związku. Czemu? Czy coś brakuje?
Odpowiedzi:
Właściwie jest to wspomniane w sekcji Regresja średniego błędu kwadratu w Wikipedii:
W analizie regresji czasami stosuje się termin średni błąd kwadratu w odniesieniu do obiektywnej oceny wariancji błędu: rezydualna suma kwadratów podzielona przez liczbę stopni swobody.
Można również znaleźć tutaj niektóre informacje: Błędy i resztki w statystykach Mówi, że wyrażenie oznacza błąd kwadratu może mieć różne znaczenie w różnych przypadkach, co czasami jest trudne.
Pamiętaj jednak, że czasami suma kwadratów błędów (SSE) i suma kwadratów pozostałości (RSS) są czasami używane zamiennie, co dezorientuje czytelników. Na przykład sprawdź ten adres URL: https://365datascience.com/sum-squares/, aby uzyskać więcej informacji na temat regresji liniowej.
Ściśle mówiąc, ze statystycznego punktu widzenia, Błędy i Pozostałości to zupełnie inne pojęcia. Błędy odnoszą się głównie do różnicy między rzeczywistymi obserwowanymi wartościami próbki a przewidywanymi wartościami i są używane głównie w statystykach, takich jak Root Means Squared Errors (RMSE) i Mean Absollute Errors (MAE). Natomiast reszty odnoszą się wyłącznie do różnic między zmiennymi zależnymi i oszacowaniami z regresji liniowej.
Nie sądzę, że jest to poprawne, jeśli uważamy MSE za obszar RMSE. Na przykład masz szereg próbkowanych danych na temat prognoz i obserwacji, teraz próbujesz wykonać regresję liniową: Obserwacja (O) = a + b X Prognozowanie (P). W tym przypadku MSE jest sumą kwadratowej różnicy między O i P i podzieloną przez wielkość próbki N.
Ale jeśli chcesz zmierzyć skuteczność regresji liniowej, musisz obliczyć średnią kwadratową pozostałość (MSR). W tym samym przypadku najpierw oblicza się resztkową sumę kwadratów (RSS), która odpowiada sumie kwadratowych różnic między rzeczywistymi wartościami obserwacji i przewidywanymi obserwacjami pochodzącymi z regresji liniowej, a następnie następuje podział na RSS podzielony przez N-2 do uzyskać MSR.
Mówiąc prosto, w przykładzie MSE nie można oszacować za pomocą RSS / N, ponieważ komponent RSS nie jest już taki sam dla komponentu użytego do obliczenia MSE.