Różna terminologia sugeruje różne konwencje. Termin „resztkowy” implikuje, że pozostało po uwzględnieniu wszystkich zmiennych objaśniających, tj. Przewidywaniu faktycznym. „Błąd prognozy” oznacza, że o ile prognoza odbiega od rzeczywistej, tj. Rzeczywistej prognozy.
Koncepcja modelowania wpływa również na to, która konwencja jest bardziej naturalna. Załóżmy, że masz ramkę danych z jedną lub więcej kolumnami funkcji , kolumna odpowiedzi i kolumna predykcji .X=x1,x2...yy^
Jedna koncepcja jest taka, że jest „prawdziwa” wartość i jest po prostu przekształcona wersja . W tej koncepcji i są zmiennymi losowymi ( jest zmienną pochodną). Chociaż jest tym, czym naprawdę jesteśmy zainteresowani, jest tym, co możemy zaobserwować, więc jest używany jako proxy dla . „Błąd” oznacza, ile odbiega od tej „prawdziwej” wartości . Sugeruje to zdefiniowanie błędu zgodnie z kierunkiem tego odchylenia, tj. .yy^Xyy^y^yy^y^yy^ye=y^−y
Istnieje jednak inna koncepcja, która uważa za „prawdziwą” wartość. To znaczy, y zależy od w pewnym deterministycznym procesie; określony stan powoduje powstanie określonej wartości deterministycznej. Ta wartość jest następnie zaburzona przez jakiś losowy proces. Mamy więc . W tej koncepcji jest „rzeczywistą” wartością y. Załóżmy na przykład, że próbujesz obliczyć wartość g, przyspieszenie ziemskie. Upuszczasz kilka przedmiotów, mierzysz, jak daleko spadły ( ) i ile czasu zajęło im upadek ( ). Następnie analizujesz dane za pomocą modelu y =y^XXx→f(X)→f(X)+error()y^Xy2xg−−√. Okazuje się, że nie ma wartości g, która sprawia, że to równanie działa dokładnie. Więc modelujesz to jako
y^=2xg−−√
y=y^+error .
Oznacza to, że bierzesz zmienną y i uznajesz, że istnieje „prawdziwa” wartość faktycznie generowana przez prawa fizyczne, a następnie inna wartość która jest modyfikowana przez coś niezależnego od , na przykład błędy pomiaru lub porywy wiatru lub cokolwiek innego.y^yy^X
W tej koncepcji bierzesz y = aby być tym, co rzeczywistość „powinna” robić, a jeśli otrzymasz odpowiedzi, które się z tym nie zgadzają, cóż, rzeczywistość ma zła odpowiedź. Oczywiście teraz może to wydawać się głupie i aroganckie, ale istnieją dobre powody, aby kontynuować tę koncepcję i warto pomyśleć w ten sposób. I ostatecznie jest to tylko model; statystycy niekoniecznie myślą, że tak właśnie działa świat (chociaż prawdopodobnie są tacy, którzy tak robią). Biorąc pod uwagę równanie , wynika z tego, że błędy są rzeczywiste minus przewidywane.2xg−−√y=y^+error
Zauważ też, że jeśli nie podoba Ci się aspekt „rzeczywistość źle zrozumiała” w drugiej koncepcji, możesz go postrzegać jako „Zidentyfikowaliśmy proces, przez który y zależy od , ale nie otrzymujemy dokładnie prawidłowe odpowiedzi, więc musi istnieć jakiś inny proces g, który również wpływa na y ”. W tej odmianieX
y= y +g(?)G=Y - Yy^=f(X)
y=y^+g(?)
g=y−y^ .