Byłem trochę zdezorientowany powyższą odpowiedzią, dlatego dam jej jeszcze jedną szansę. Myślę, że pytanie nie dotyczy tak naprawdę „klasycznej” regresji liniowej, ale stylu tego konkretnego źródła. W części regresji klasycznej:
Jednak samo założenie liniowości nie nakłada żadnej struktury na nasz model
To jest absolutnie poprawne. Jak już powiedziałeś, równie dobrze może zabić relację liniową i zsumować coś całkowicie niezależnego od X , abyśmy w ogóle nie mogli obliczyć żadnego modelu.ϵX
Czy Greene jest niechlujny? Czy rzeczywiście powinien napisać: E(y|X)=Xβ
Nie chcę odpowiadać na pierwsze pytanie, ale pozwól mi podsumować założenia potrzebne do zwykłej regresji liniowej:
Załóżmy, że można zaobserwować (dostaniesz) punktów danych i y i ∈ R dla i = 1 , . . . , n . Musisz założyć, że dane ( x i , y i ) , które zaobserwowałeś, pochodzą z niezależnie, identycznie rozmieszczonych zmiennych losowych ( X i , Y i ) takich, że ...xi∈Rdyi∈Ri=1,...,n(xi,yi)(Xi,Yi)
Istnieje ustalony (niezależny od ) β ∈ R d taki, że Y i = β X i + ϵ i dla wszystkich i, a zmienne losowe ϵ i są takie, żeiβ∈RdYi=βXi+ϵiiϵi
są IID, jak również i ε i jest rozprowadzany jako N ( 0 , Ď ) ( σ muszą być niezależne od I , a)ϵiϵiN(0,σ)σi
Dla i Y = ( Y 1 , . . . , Y n ) podstawniki X , Y mają wspólny gęstości, to znaczy jedną zmienną losową ( X , Y ), ma gęstość f X , YX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y
Teraz możesz pobiec zwykłą ścieżką i wykonać obliczenia
fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd−−−√)nexp(−∑ni=1(yi−βxi)22σ)
dzięki zwykłej „dualności” między uczeniem maszynowym (minimalizacja funkcji błędów) a teorią prawdopodobieństwa (maksymalizacja prawdopodobieństw) maksymalizujesz w β, co w rzeczywistości daje zwykłe rzeczy „RMSE”.−logfY|X(y|x)β
Teraz, jak już powiedziano: jeśli autor cytowanej książki chce to powiedzieć (co musisz zrobić, jeśli kiedykolwiek będziesz w stanie obliczyć „najlepszą możliwą” linię regresji w podstawowej konfiguracji), to tak, musi uczynić to założenie na normalicity z gdzieś w książce.ϵ
Istnieją teraz różne możliwości:
Nie zapisuje tego założenia w książce. To błąd w książce.
Zapisuje to w formie „globalnej” uwagi, takiej jak „za każdym razem, gdy piszę wówczas ϵ są zwykle rozkładane ze średnią zero, chyba że podano inaczej”. Zatem IMHO jest złym stylem, ponieważ powoduje dokładnie zamieszanie, które teraz odczuwasz. Właśnie dlatego w każdym Twierdzeniu zapisuję założenia w jakiejś skróconej formie . Tylko wtedy każdy element konstrukcyjny może być postrzegany jako odrębny przedmiot.+ϵϵ
- Zapisuje to ściśle w części, którą cytujesz, a ty / my po prostu tego nie zauważyliśmy (również możliwość :-))
Jednak również w ścisłym sensie matematycznym błąd normalny jest czymś kanonicznym (rozkład z najwyższą entropią [po ustaleniu wariancji], stąd wytwarzanie najsilniejszych modeli), tak że niektórzy autorzy mają tendencję do pomijania tego założenia, ale mimo to używają go . Formalnie masz całkowitą rację: używają matematyki w „niewłaściwy sposób”. Ilekroć chcą wymyślić równanie dla gęstości jak wspomniano powyżej, muszą wiedzieć ϵ całkiem dobrze, w przeciwnym razie masz po prostu jego właściwości latające w każdym sensownym równaniu, które próbujesz zapisać.fY|Xϵ