Myślę, że twoim pierwszym problemem jest to, że nie jest już rozkładem normalnym, a to, jak dane muszą zostać przekształcone, aby były homoscedastyczne, zależy dokładnie od tego, czym jest σ ( x , t ) . Na przykład, jeśli σ ( x , t ) = a x + b t , to błąd ma charakter proporcjonalny, a logarytm danych y powinien zostać przyjęty przed regresją lub regresja skorygowana ze zwykłych najmniejszych kwadratów (OLS) do ważonej najmniej kwadratów z 1N.( 0 , σ( x , t ) )σ( x , t )σ( x , t ) = a x + b t waga (która zmienia regresję na zminimalizowany błąd typu proporcjonalnego). Podobnie, jeśli σ ( x , t ) = e a x + b t , należałoby wziąć logarytm logarytmu i go regresować.1 / y2)σ( x , t ) = ea x + b t
Myślę, że powodem słabego przewidywania typów błędów jest to, że najpierw wykonuje się jakąkolwiek starą regresję (jęk, zwykle zwykłe najmniejsze kwadraty, OLS). Oraz z linii dostarczającej pozostałości działki, tj , obserwuje się resztkowe kształt i przedstawi się histogram częstotliwości danych i wygląda na to. Następnie, jeśli reszty są wiązką wachlarza otwierającą się w prawo, próbuje się proporcjonalnego modelowania danych, jeśli histogram wygląda jak rozkład wykładniczy, można spróbować odwrotności, 1 / y itd. Itd. Dla pierwiastków kwadratowych, kwadratów, potęgowania , biorąc wykładniczy-y.m o de l - y1 / y
To tylko krótka historia. Dłuższa wersja zawiera o wiele więcej rodzajów regresji, w tym regresję medianową Theila, regresję dwuwymiarową Deminga i regresję w celu minimalizacji błędu źle przedstawionych problemów, które nie mają szczególnego związku dopasowania dopasowania krzywej do pomniejszonego propagowanego błędu. Ten ostatni jest niesamowity, ale zobacz tojako przykład. Tak, że robi to dużą różnicę, jakie odpowiedzi próbuje się uzyskać. Zazwyczaj, jeśli ktoś chce ustalić związek między zmiennymi, rutynowy OLS nie jest metodą z wyboru, a regresja Theila byłaby szybką i nieprzyzwoitą poprawą. OLS minimalizuje się tylko w kierunku y, więc nachylenie jest zbyt płytkie, a przecięcie zbyt duże, aby ustalić, jaka jest podstawowa zależność między zmiennymi. Innymi słowy, OLS podaje oszacowanie najmniejszego błędu ay przy x, nie podaje oszacowania, jak x zmienia się zy. Gdy wartości r są bardzo wysokie (0,99999+), nie ma znaczenia, jaką regresję stosuje się, a OLS w y jest w przybliżeniu taki sam jak OLS w x, ale gdy wartości r są niskie, OLS w y bardzo różni się od OLS w x.
Podsumowując, wiele zależy dokładnie od tego, jakie jest uzasadnienie przeprowadzania analizy regresji w pierwszej kolejności. To dyktuje potrzebne metody numeryczne. Po dokonaniu tego wyboru reszty mają następnie strukturę związaną z celem regresji i muszą być analizowane w tym szerszym kontekście.