Kiedy więc zakładam, że terminy błędów są zwykle rozkładane w regresji liniowej, co to oznacza dla zmiennej odpowiedzi, ?
Kiedy więc zakładam, że terminy błędów są zwykle rozkładane w regresji liniowej, co to oznacza dla zmiennej odpowiedzi, ?
Odpowiedzi:
Może mnie nie ma, ale myślę, że powinniśmy się zastanawiać nad , czyli jak czytam OP. W najprostszym przypadku regresji liniowej, jeśli twój model to y = X β + ϵ, wówczas jedynym składnikiem stochastycznym w twoim modelu jest termin błędu. Jako taki określa rozkład próbkowania y . Jeżeli ϵ ∼ N ( 0 , σ 2 I ), to y | X , β ∼ N ( X β , . Jednak to, co mówi @Aniko, jest z pewnością prawdziwe dla f ( y ) (nieznacznie powyżej X , β ). Na obecnym etapie pytanie jest nieco niejasne.
Krótka odpowiedź jest taka, że nie można wnioskować na temat rozkładu , ponieważ zależy to od rozkładu x oraz siły i kształtu relacji. Bardziej formalnie, y będą mieć „mieszankę normalnej” dystrybucji, co w praktyce może być prawie wszystko.
Oto dwa skrajne przykłady, które to ilustrują:
W rzeczywistości, ponieważ każdy rozkład można dowolnie aproksymować przy użyciu mieszanki normalnych, naprawdę można uzyskać dowolny rozkład dla .
Wymyślamy termin błędu, narzucając fikcyjny model prawdziwym danym; rozkład składnika błędu nie wpływa na rozkład odpowiedzi.
Często zakładamy, że błąd rozkłada się normalnie i dlatego próbujemy skonstruować model w taki sposób, aby nasze szacunkowe wartości resztkowe były normalnie rozłożone. Może to być trudne w przypadku niektórych dystrybucji . W tych przypadkach przypuszczam, że można powiedzieć, że rozkład odpowiedzi wpływa na termin błędu.
Jeśli wypiszesz odpowiedź jako Gdzie m jest „modelem” (prognoza dla y ), a e jest „błędem”, wówczas można to zmienić, aby wskazać y - m = e . Przypisanie rozkładu błędów jest tym samym, co wskazanie, w jaki sposób model jest niekompletny. Innymi słowy, wskazuje, w jakim stopniu nie wiesz, dlaczego zaobserwowana reakcja była wartością, jaką była, a nie tym, co przewidywał model. Gdybyście wiedzieli, że model jest idealny, dla błędów przypisalibyście rozkład prawdopodobieństwa z całą jego masą na zero. Przypisywanie N (
W pewnym sensie rozkład błędów jest ściślej związany z modelem niż z odpowiedzią. Można to zobaczyć z niemożności zidentyfikowania powyższego równania, ponieważ jeśli zarówno jak i e są nieznane, to dodanie dowolnego wektora do m i odjęcie go od e prowadzi do tej samej wartości y , y = m + e = ( m + b ) + ( e - b ) = m ′ + e ′. Przypisanie rozkładu błędów i równanie modelu zasadniczo mówi, które dowolne wektory są bardziej prawdopodobne niż inne.