Musisz dodać suscripted i do drugiego sformułowania:
ponieważ musi być w stanie zmieniać się wraz z .
R x i
yi∼N(y^i,σ2ε)
y^xi
Jak już wspomniano, czym jest ? Jest to . Prowadzi to do sformułowania @DikranMarsupial przedstawia:
Warto zauważyć, że jest to dokładnie to samo co twój pierwszy sformułowanie, ponieważ oba określają rozkład normalny, a oczekiwane wartości są równe. To znaczy:
(I oczywiście wariancje są równe.) Innymi słowy, to jesty^ixiβ^
yi∼N(xiβ^,σ2ε)
E[xiβ^]=E[xiβ^+E[N(0,σ2ε)]]=E[xiβ^+0]=E[xiβ^]
nie różnica w założeniach, ale po prostu różnica notacyjna.
Powstaje więc pytanie, czy istnieje powód, aby preferować prezentowanie pomysłu przy użyciu pierwszego sformułowania?
Myślę, że odpowiedź jest twierdząca z dwóch powodów:
- Ludzie często mylą, czy surowe dane powinny być normalnie dystrybuowane (tj. ), czy też dane od / błędy powinny być normalnie dystrybuowane (tj. / ), na przykład patrz : Co jeśli resztki są normalnie rozłożone, ale nie jest?X T | X εYXY|Xε
- Ludzie często mylą to, co powinno być niezależne, surowe dane lub błędy. Co więcej, często wspominamy o tym, że coś powinno być identyfikowane (niezależne i identycznie dystrybuowane); jeśli myślisz w kategoriach może to być inne potencjalne źródło zamieszania, ponieważ może być niezależny, ale nie może być identycznie rozłożony, chyba że utrzyma się hipoteza zerowa (ponieważ średnia byłaby różna). Y | XY|XY|X
Uważam, że te konfuzje są bardziej prawdopodobne przy użyciu drugiego sformułowania niż pierwszego.