Dla przedziału predykcji w regresji liniowej nadal korzystać z E [ Y | x ] = ^ P 0 + β 1 x celu wygenerowania odstępu. Używasz tego również do wygenerowania przedziału ufności E [ Y | x 0 ] . Jaka jest różnica między nimi?
Dla przedziału predykcji w regresji liniowej nadal korzystać z E [ Y | x ] = ^ P 0 + β 1 x celu wygenerowania odstępu. Używasz tego również do wygenerowania przedziału ufności E [ Y | x 0 ] . Jaka jest różnica między nimi?
Odpowiedzi:
Różnica między przedziałem prognozy a przedziałem ufności jest błędem standardowym.
Błąd standardowy dla przedziału ufności średniej uwzględnia niepewność związaną z próbkowaniem. Linia obliczona z próbki będzie inna niż linia, która zostałaby obliczona, gdybyś miał całą populację, błąd standardowy uwzględnia tę niepewność.
Błąd standardowy przedziału prognozowania dla pojedynczej obserwacji uwzględnia niepewność wynikającą z próbkowania jak powyżej, ale bierze również pod uwagę zmienność osobników wokół przewidywanej średniej. Błąd standardowy dla przedziału prognozy będzie szerszy niż dla przedziału ufności, a zatem przedział prognoz będzie szerszy niż przedział ufności.
Pomocne było następujące wyjaśnienie:
Przedziały ufności mówią ci o tym, jak dobrze określiłeś średnią. Załóżmy, że dane naprawdę są losowo próbkowane z rozkładu Gaussa. Jeśli zrobisz to wiele razy i obliczysz przedział ufności średniej z każdej próbki, możesz oczekiwać, że około 95% tych przedziałów będzie zawierać prawdziwą wartość średniej populacji. Kluczową kwestią jest to, że przedział ufności mówi ci o prawdopodobnej lokalizacji prawdziwego parametru populacji.
Interwały prognozowania podpowiedzą, gdzie można spodziewać się próbkowania następnego punktu danych. Załóżmy, że dane naprawdę są losowo próbkowane z rozkładu Gaussa. Zbierz próbkę danych i oblicz przedział prognozy. Następnie próbkuj jeszcze jedną wartość z populacji. Jeśli robisz to wiele razy, możesz oczekiwać, że następna wartość będzie mieściła się w tym przedziale prognozowania w 95% próbek. Kluczowym punktem jest to, że przedział prognoz mówi ci o rozkładzie wartości, a nie o niepewności w określaniu populacji oznaczać.
Przedziały prognozowania muszą uwzględniać zarówno niepewność co do wartości średniej populacji, jak i rozproszenie danych. Tak więc przedział przewidywania jest zawsze szerszy niż przedział ufności.
Jedno jest prognozą przyszłej obserwacji, a drugie przewidywaną średnią odpowiedzią. Podam bardziej szczegółową odpowiedź, aby, miejmy nadzieję, wyjaśnić różnicę i skąd ona pochodzi, a także w jaki sposób ta różnica przejawia się w szerszych odstępach czasu dla przewidywania niż dla pewności.
Mamy nadzieję, że dzięki temu nieco bardziej jasne jest, dlaczego przedział prognozowania jest zawsze szerszy i jaka jest podstawowa różnica między tymi dwoma przedziałami. Ten przykład został zaadaptowany z Faraway, Linear Models with R, Sec. 4.1
Ta odpowiedź jest dla tych czytelników, którzy nie mogli w pełni zrozumieć poprzednich odpowiedzi. Omówmy konkretny przykład. Załóżmy, że próbujesz przewidzieć masę ludzi na podstawie ich wzrostu, płci (mężczyzna, kobieta) i diety (standard, niskowęglowodanowa, wegetariańska). Obecnie na Ziemi żyje ponad 8 miliardów ludzi. Oczywiście można znaleźć wiele tysięcy osób o tej samej wysokości i innych dwóch parametrach, ale różnej wadze. Ich waga różni się bardzo, ponieważ niektóre z nich mają otyłość, a inne mogą cierpieć z powodu głodu. Większość tych ludzi będzie gdzieś pośrodku.
Jednym z zadań jest przewidzenie średniej masy wszystkich osób mających te same wartości wszystkich trzech zmiennych objaśniających. Tutaj używamy przedziału ufności. Innym problemem jest prognozowanie masy ciała określonej osoby. I nie znamy okoliczności życia tej osoby. W tym przypadku należy zastosować przedział prognozy. Jest on wyśrodkowany wokół tego samego punktu, ale musi być znacznie szerszy niż przedział ufności.