Proszę zobaczyć edycję.
Gdy masz dane z dużymi ogonami, regresja z błędami uczniów wydaje się intuicyjna. Badając tę możliwość, natknąłem się na ten artykuł:
Breusch, TS, Robertson, JC i Welsh, AH (01 listopada 1997). Nowe szaty cesarza: krytyka modelu regresji wielowymiarowej. Statistica Neerlandica, 51, 3.) ( link , pdf )
Co dowodzi, że parametru skali i parametru stopni swobody nie można w pewnym sensie zidentyfikować względem siebie i że z tego powodu regresja z błędami t nie robi nic poza tym, co robi standardowa regresja liniowa.
Zellner (1976) zaproponował model regresji, w którym wektor danych (lub wektor błędów) jest reprezentowany jako realizacja z wielowymiarowego rozkładu t Studenta. Model ten cieszył się dużym zainteresowaniem, ponieważ wydaje się, że rozszerza zwykłe założenie Gaussa, aby umożliwić stosowanie bardziej precyzyjnych rozkładów błędów. Szereg wyników w literaturze wskazuje, że standardowe procedury wnioskowania dla modelu Gaussa pozostają właściwe przy szerszym założeniu dystrybucyjnym, co prowadzi do twierdzenia o niezawodności standardowych metod. Pokazujemy, że chociaż matematycznie oba modele są różne, do celów wnioskowania statystycznego są nierozróżnialne. Empiryczne implikacje wielowymiarowego modelu t są dokładnie takie same jak w przypadku modelu Gaussa. Stąd sugestia szerszej dystrybucji danych jest fałszywa, a twierdzenia o solidności wprowadzają w błąd. Wnioski te wyciąga się zarówno z perspektywy częstych, jak i bayesowskich.
To mnie zaskakuje.
Nie mam matematycznego wyrafinowania, aby dobrze ocenić ich argumenty, więc mam kilka pytań: Czy to prawda, że regresje z błędami T nie są ogólnie przydatne? Jeśli czasem są przydatne, czy nie zrozumiałem papieru, czy może to wprowadzać w błąd? Jeśli nie są przydatne, czy jest to dobrze znany fakt? Czy istnieją inne sposoby rozliczania danych za pomocą ciężkich ogonów?
Edycja : Po bliższym przeczytaniu paragrafu 3 i sekcji 4 wygląda na to, że poniższy artykuł nie mówi o tym, o czym myślałem jako o regresji t-studenta (błędy są niezależnymi rozkładami jednowymiarowymi t). Błędy są pobierane z jednej dystrybucji i nie są niezależne. Jeśli dobrze rozumiem, ten brak niezależności dokładnie wyjaśnia, dlaczego nie można samodzielnie oszacować skali i stopni swobody.
Wydaje mi się, że ten artykuł zawiera listę artykułów, których należy unikać.