Przeczytałem wiele doskonałych dyskusji na stronie dotyczących interpretacji przedziałów ufności i przedziałów prognoz, ale jedna koncepcja wciąż jest nieco zagadkowa:
Rozważmy ramy OLS a my uzyskał dopasowanego modelu y = X p . Otrzymaliśmy x ∗ i poprosiliśmy o przewidzenie jego odpowiedzi. Obliczamy x * T p i, jako bonus, możemy również dostarczyć 95% przedział predykcji wokół naszej prognozy, a la Uzyskanie formułę granicach predykcyjnych w modelu liniowego . Nazwijmy ten przedział przewidywania PI.
Które z poniższych (lub żadne z nich) jest prawidłową interpretacją PI?
- Dla w szczególności Y ( x * ) leży wewnątrz PI z 95% prawdopodobieństwem.
- Jeśli mamy podane dużą liczbę , ten procedura PI obliczeniowych obejmie prawdziwej odpowiedzi 95% czasu.
Ze sformułowania @ gung w przedziale predykcji regresji liniowej wydaje się, że to pierwsze jest prawdziwe (chociaż równie dobrze mogę błędnie interpretować.) Interpretacja 1 wydaje mi się sprzeczna z intuicją (w tym sensie, że wyciągamy wnioski bayesowskie z analizy częstokroć), ale jeśli jest poprawna, to dlatego, że jesteśmy przewidywania realizacji w zmiennej losowej vs. szacowania się parametr ?
(Edytuj) Pytanie bonusowe: Załóżmy, że wiemy, co to jest prawda , tj. Proces generujący dane, to czy moglibyśmy porozmawiać o prawdopodobieństwach dotyczących jakiejkolwiek konkretnej prognozy, skoro tylko patrzymy na ϵ ?
Moja ostatnia próba: możemy „koncepcyjnie rozłożyć” (używając bardzo luźno słowa) przedział predykcji na dwie części: (A) przedział ufności wokół przewidywanej średniej odpowiedzi i (B) zbiór przedziałów, które są po prostu kwantylem zakresy terminu błędu. (B) możemy dokonywać twierdzeń probabilistycznych, pod warunkiem znajomości prawdziwej przewidywanej średniej, ale jako całość możemy traktować interwały przewidywania jedynie jako częste CI wokół przewidywanych wartości. Czy to trochę poprawne?