„Prognozowanie” i „szacowanie” rzeczywiście są czasami używane zamiennie w pismach nietechnicznych i wydają się działać podobnie, ale istnieje wyraźne rozróżnienie między nimi w standardowym modelu problemu statystycznego. An Estymator danych używa się domyślić, w parametrze podczas predyktorem wykorzystuje dane odgadnąć w pewnym losowym wartości, która nie jest częścią zestawu danych. Dla tych, którzy nie są zaznajomieni z tym, co „parametr” i „wartość losowa” oznaczają w statystykach, poniżej podano szczegółowe wyjaśnienie.
W tym standardowym modelu zakłada się, że dane stanowią (prawdopodobnie wielowymiarową) obserwację zmiennej losowej której rozkład jest znany tylko z określonego zestawu możliwych rozkładów, „stanów natury”. Estymator jest procedura matematyczna, która przypisuje każdej możliwej wartości własnościach o stanie naturalnym , takich jak jego średnie . Tak więc oszacowanie jest domysłem na temat prawdziwego stanu przyrody. Możemy stwierdzić, jak dobry jest szacunek, porównując z . X t x t ( x ) θ μ ( θ ) t ( x ) μ ( θ )xX txt(x)θμ(θ)t(x)μ(θ)
Czynnikiem dotyczy niezależnego obserwację innej zmiennej losowej , której rozkład jest podobne do prawdziwego stanu naturalnego. Prognozowanie to przypuszczenie o kolejnej losowej wartości. Możemy powiedzieć, jak dobrze dana przepowiednia jest jedynie poprzez porównanie do wartości realizowanego przez . Mamy nadzieję, że średnio porozumienie będzie dobre (w sensie uśrednienia wszystkich możliwych wyników i jednocześnie wszystkich możliwych wartości ).Z p ( x ) Z x Zp(x)Zp(x)Zx Z
Zwykłe najmniejsze kwadraty dają standardowy przykład. Dane składają się z par wartości zmiennej zależnej z wartościami zmiennej niezależnej. Stan natury określają trzy parametry , i : mówi, że każdy przypomina niezależne losowanie z rozkładu normalnego ze średnią i odchyleniem standardowym . , i są parametrami (liczbami) uważanymi za stałe i niezmienne. Zainteresowania koncentrują się nar i x i α β Ď Y i α + β x i Ď α β Ď α β ( α , β ) α α β β α β(xi,yi)yixiαβσyiα+βxiσαβσα (punkt przecięcia) i (nachylenie). OLS oszacowania napisany jest dobrze w tym sensie, że tendencję, aby być blisko i bywa blisko , bez względu na to, co prawdziwe (ale brak danych) wartości i może być .β(α^,β^)α^αβ^βαβ
Prognozowanie OLS polega na obserwacji nowej wartości zmiennej zależnej związanej z pewną wartością zmiennej niezależnej. może, ale nie musi, należeć do w zbiorze danych; to jest nieistotne. Jednym z intuicyjnie dobrych przewidywań jest to, że ta nowa wartość prawdopodobnie będzie zbliżona do . Lepsze przewidywania mówią, jak blisko może być nowa wartość (nazywane są przedziałami przewidywania ). Uwzględniają fakt, że i są niepewne (ponieważ zależą matematycznie od losowych wartościZ=Y(x)xxxiα^+β^xα^β^(yi) ), że nie jest pewne (i dlatego należy to oszacować), a także założenie, że ma rozkład normalny ze standardowym odchyleniem i średnią ( zauważ brak czapek!).σY(x)σα+βx
Zwróć uwagę, że ta prognoza ma dwa oddzielne źródła niepewności: niepewność danych prowadzi do niepewności w szacowanym nachyleniu, przecięciu i resztkowym odchyleniu standardowym ( ); ponadto nie ma pewności, jaka będzie wartość . Ta dodatkowa niepewność - ponieważ jest losowa - charakteryzuje prognozy. Przewidywanie może wyglądać jak oszacowanie (w końcu oszacowania :-) i może nawet mieć tę samą matematyczną formułę ( może czasami być taki sam jakσ Y ( x ), Y ( x ) α + β x α + β x P ( x ) t ( x )(xi,yi)σY(x)Y(x)α^+β^x α+βxp(x)t(x)), ale przyniesie większą niepewność niż szacunki.
Tutaj zatem, w przykładzie OLS, widzimy wyraźne rozróżnienie: oszacowanie zgaduje na podstawie parametrów (które są ustalone, ale nieznane liczby), podczas gdy przewidywanie zgaduje wartość wartości losowej. Źródłem potencjalnych nieporozumień jest to, że prognozy zwykle opierają się na szacowanych parametrach i mogą nawet mieć tę samą formułę co estymator.
W praktyce estymatory można odróżnić od predyktorów na dwa sposoby:
cel : estymator stara się poznać właściwość prawdziwego stanu przyrody, podczas gdy prognoza ma na celu odgadnięcie wyniku zmiennej losowej; i
niepewność : predyktor ma zwykle większą niepewność niż powiązany estymator, ze względu na dodatkową niepewność wyniku tej zmiennej losowej. Dlatego dobrze udokumentowane i opisane predyktory zwykle mają przedziały niepewności - przedziały predykcji - które są szersze niż przedziały niepewności estymatorów, znane jako przedziały ufności. Charakterystyczną cechą przedziałów predykcyjnych jest to, że mogą (hipotetycznie) zmniejszać się wraz ze wzrostem zestawu danych, ale nie zmniejszają się do zerowej szerokości - niepewność losowego wyniku jest „nieredukowalna” - podczas gdy szerokości przedziałów ufności będą miały tendencję do zmniejszają się do zera, co odpowiada naszej intuicji, że precyzja oszacowania może stać się dowolnie dobra przy wystarczającej ilości danych.
Stosując to do oceny potencjalnej straty inwestycyjnej, najpierw rozważ cel: czy chcesz wiedzieć, ile faktycznie możesz stracić na tej inwestycji (lub na tym konkretnym koszyku inwestycji) w danym okresie, czy naprawdę zgadujesz, co to jest oczekiwana strata (być może w dużym świecie inwestycji)? Pierwsza jest prognozą, druga szacunkiem. Następnie rozważ niepewność. Jak zmieniłaby się twoja odpowiedź, gdybyś miał prawie nieskończone zasoby do gromadzenia danych i przeprowadzania analiz? Jeśli stałoby się to bardzo precyzyjne, prawdopodobnie szacujesz oczekiwany zwrot z inwestycji, a jeśli pozostajesz bardzo niepewny co do odpowiedzi, robisz prognozy.
Tak więc, jeśli nadal nie jesteś pewien, z jakim zwierzęciem masz do czynienia, zapytaj swojego estymatora / predyktora: jak prawdopodobne jest to i dlaczego? Za pomocą obu kryteriów (1) i (2) będziesz wiedział, co masz.