„T musi być normalnie dystrybuowane”
musieć?
W przypadkach, o których wspominasz, jest to niedbały język (w skrócie „błąd w Y musi być normalnie dystrybuowany” ), ale tak naprawdę nie mówią (zdecydowanie), że odpowiedź musi być normalnie dystrybuowana, a przynajmniej nie wydaje się mnie, że ich słowa były tak przeznaczone.
Materiał kursu Penn State
YYiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
YYi
YiY
Strona Statisticssolutions
to niezwykle krótki, uproszczony, stylizowany opis. Nie jestem pewien, czy powinieneś brać to na poważnie. Na przykład mówi o tym
.. wymaga, aby wszystkie zmienne były normalne na wielu odmianach ...
więc to nie jest tylko zmienna odpowiedzi,
a także deskryptor „wielowymiarowy” jest niejasny. Nie jestem pewien, jak to interpretować.
Artykuł w Wikipedii
ma dodatkowy kontekst wyjaśniony w nawiasach:
Zwykła regresja liniowa przewiduje oczekiwaną wartość danej nieznanej wielkości (zmienna odpowiedzi, zmienna losowa) jako liniową kombinację zestawu obserwowanych wartości (predyktorów) . Oznacza to, że stała zmiana w predyktorze prowadzi do stałej zmiany zmiennej odpowiedzi (tj. Modelu odpowiedzi liniowej). Jest to właściwe, gdy zmienna odpowiedzi ma rozkład normalny (intuicyjnie, gdy zmienna odpowiedzi może zmieniać się zasadniczo w nieskończoność w obu kierunkach bez stałej „wartości zerowej”, lub bardziej ogólnie dla dowolnej wielkości, która zmienia się tylko o stosunkowo niewielką ilość, np. Człowieka wysokości).
y+ϵϵ∼N(0,σ)
Ta szczególna linia została dodana 8 marca 2012 r. , Ale zauważ, że w pierwszym wierszu artykułu w Wikipedii nadal czytamy „elastyczne uogólnienie zwykłej regresji liniowej, która pozwala na zmienne odpowiedzi, które mają modele rozkładu błędów inne niż rozkład normalny” i nie jest tak bardzo (nie wszędzie) źle.
Wniosek
Opierając się na tych trzech przykładach (które rzeczywiście mogą generować nieporozumienia, a przynajmniej mogą być źle rozumiane), nie powiedziałbym, że „to nieporozumienie się rozprzestrzeniło” . Przynajmniej nie wydaje mi się, że intencją tych trzech przykładów jest argumentowanie, że Y musi być normalnie rozproszone (chociaż pamiętam, że ten problem pojawił się wcześniej tutaj podczas wymiany stosów, zamiana między błędami o rozkładzie normalnym a zmienną odpowiedzi o rozkładzie normalnym jest łatwe do wykonania).
Tak więc założenie, że „Y musi być normalnie dystrybuowane” wydaje mi się nie jak powszechne przekonanie / błędne przekonanie (jak w czymś, co rozprzestrzenia się jak czerwony śledź), ale bardziej jak zwykły błąd (który nie rozprzestrzenia się, ale jest robiony niezależnie za każdym razem ).
Dodatkowy komentarz
Przykładem błędu na tej stronie jest następujące pytanie
Co jeśli resztki są normalnie rozłożone, ale y nie jest?
Uznałbym to za pytanie dla początkujących. Nie ma go w materiałach takich jak materiał kursu Penn State, strona internetowa Wikipedii, a ostatnio zauważył w komentarzach książkę „Rozszerzanie regresji liniowej o R”.
Autorzy tych prac poprawnie rozumieją materiał. Rzeczywiście używają wyrażeń takich jak „Y musi być normalnie rozłożony”, ale na podstawie kontekstu i użytych wzorów widać, że wszystkie one oznaczają „Y, zależnie od X, muszą być normalnie rozłożone”, a nie „marginalne Y musi być normalnie dystrybuowane ”. Nie sami błędnie pojmują ten pomysł, a przynajmniej pomysł ten nie jest rozpowszechniony wśród statystyk i ludzi, którzy piszą książki i inne materiały dydaktyczne. Ale błędne odczytanie ich dwuznacznych słów może rzeczywiście spowodować nieporozumienie.