Pytanie jest bardzo proste: dlaczego, kiedy próbujemy dopasować model do naszych danych, liniowy lub nieliniowy, zwykle próbujemy zminimalizować sumę kwadratów błędów, aby uzyskać nasz estymator parametru modelu? Dlaczego nie wybrać innej funkcji celu do zminimalizowania? Rozumiem, że z przyczyn technicznych funkcja kwadratowa jest ładniejsza niż niektóre inne funkcje, np. Suma absolutnego odchylenia. Ale wciąż nie jest to zbyt przekonująca odpowiedź. Poza tym technicznym powodem, dlaczego w szczególności ludzie popierają ten „euklidesowy typ” funkcji odległości? Czy ma to jakieś znaczenie lub interpretację?
Logika mojego myślenia jest następująca:
Gdy masz zestaw danych, najpierw konfigurujesz model, przyjmując zestaw założeń funkcjonalnych lub dystrybucyjnych (np. Warunek chwilowy, ale nie cały rozkład). W twoim modelu są pewne parametry (zakładając, że jest to model parametryczny), wtedy musisz znaleźć sposób, aby konsekwentnie oszacować te parametry i, mam nadzieję, twój estymator będzie miał niską wariancję i kilka innych dobrych właściwości. Bez względu na to, czy minimalizujesz SSE, LAD, czy jakąś inną funkcję celu, uważam, że są to tylko różne metody uzyskania spójnego estymatora. Zgodnie z tą logiką, myślałem, że ludzie używają najmniejszych kwadratów musi być 1) daje spójny estymator modelu 2) coś innego, czego nie znam.
W ekonometrii wiemy, że w modelu regresji liniowej, jeśli założysz, że warunki błędu mają 0 średnie uwarunkowanie na predyktory i homoscedastyczność, a błędy nie są ze sobą skorelowane, to zminimalizowanie sumy błędu kwadratowego da ci ZGODNY estymator twojego modelu parametry i zgodnie z twierdzeniem Gaussa-Markowa estymator ten jest NIEBIESKI. Sugeruje to, że jeśli zdecydujesz się zminimalizować jakąś inną funkcję celu, która nie jest SSE, nie ma gwarancji, że uzyskasz spójne oszacowanie parametru modelu. Czy moje rozumowanie jest prawidłowe? Jeśli jest to poprawne, to minimalizowanie SSE zamiast jakiejś innej funkcji celu może być uzasadnione przez spójność, która jest akceptowalna, w rzeczywistości lepsza niż twierdzenie, że funkcja kwadratowa jest ładniejsza.
W praktyce widziałem wiele przypadków, w których ludzie bezpośrednio minimalizują sumę błędów kwadratowych bez uprzedniego jasnego określenia pełnego modelu, np. Założenia dystrybucyjne (założenia chwilowe) dotyczące terminu błędu. Wydaje mi się wtedy, że użytkownik tej metody chce tylko zobaczyć, jak blisko dane pasują do „modelu” (używam cudzysłowu, ponieważ założenia modelu są prawdopodobnie niepełne) pod względem funkcji odległości kwadratowej.
Powiązane pytanie (również związane z tą witryną) brzmi: dlaczego, kiedy próbujemy porównać różne modele za pomocą weryfikacji krzyżowej, czy ponownie używamy SSE jako kryterium oceny? tj. wybrać model, który ma najmniej SSE? Dlaczego nie inne kryterium?