Model liniowy Heteroscedastyczność


10

Mam następujący model liniowy:

Reszty modelu liniowego Rozkład obserwacji

Aby rozwiązać problem heteroscedastyczności resztek, próbowałem zastosować transformację logu do zmiennej zależnej jako ale nadal widzę ten sam efekt rozłożenia na resztki. Wartości DV są stosunkowo małe, więc stałe dodanie +1 przed pobraniem dziennika prawdopodobnie nie jest w tym przypadku właściwe.log(Y+1)

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Jak mogę przekształcić zmienne, aby poprawić błąd prognozowania i wariancję, szczególnie dla skrajnie dopasowanych wartości?

Odpowiedzi:


11

Jaki jest twój cel Wiemy, że heteroskedastyczność nie wpływa na nasze szacunki współczynników; powoduje to, że nasze standardowe błędy są nieprawidłowe. Dlatego jeśli zależy Ci tylko na dopasowaniu modelu, heteroskedastyczność nie ma znaczenia.

Możesz uzyskać bardziej wydajny model ( tj. Z mniejszymi standardowymi błędami), jeśli użyjesz ważonych najmniejszych kwadratów. W takim przypadku należy oszacować wariancję dla każdej obserwacji i ważyć każdą obserwację poprzez odwrotność tej wariancji specyficznej dla obserwacji (w przypadku weightsargumentu do lm). Ta procedura szacowania zmienia twoje szacunki.

Alternatywnie, aby poprawić standardowe błędy heteroskedastyczności bez zmiany szacunków, możesz użyć solidnych błędów standardowych. Dla Raplikacji, zobacz pakiet sandwich.

Zastosowanie transformacji logów może być dobrym podejściem do korekty heteroskedastyczności, ale tylko wtedy, gdy wszystkie twoje wartości są dodatnie, a nowy model zapewnia rozsądną interpretację w stosunku do zadanego pytania.


Moim głównym celem jest zmniejszenie liczby błędów. Będę musiał spojrzeć na ważone najmniejsze kwadraty, ale miałem wrażenie, że transformacja DV była właściwym krokiem, biorąc pod uwagę, jak często rezydualna wariancja rośnie dla wyższych dopasowanych wartości.
Robert Kubrick

Co masz na myśli mówiąc „zmniejszyć liczbę błędów”? Średni błąd wynosi 0. Nawet patrząc na działkę, w dowolnym oknie, które wybierzesz, średnia wynosi 0.
Charlie

Mam na myśli poprawę prognozowania modelu, czyli zmniejszenie całkowitego błędu bezwzględnego i wariancji błędu, szczególnie w przypadku wyższych dopasowanych wartości.
Robert Kubrick

1
Załóżmy, że możesz przekształcić w taki sposób, aby zmniejszyć heteroskedastyczność. Jeśli chcesz przewidzieć , musisz zastosować odwrotność tej transformacji, przywracając problem heteroskedastyczności. Transformacje są w porządku, jeśli ważne są tylko współczynniki, ale nie pomogą ci, jeśli spróbujesz przewidzieć . y yyyy
Charlie

1
Zgaduję, że nie chcesz do przewidzenia przekształcony , prawda? W efekcie transformacja musiałaby zmniejszyć odległość między na oryginalnej skali. Przedziały prognozowania są tworzone na przekształconej skali, które mają podobną szerokość w poprzek transformowanych wartości , ale po cofnięciu transformacji przedziały prognozowania są rozciągane na pierwotną skalę . y y y yyyyy
Charlie

4

Chciałbyś spróbować transformacji Box-Coxa . Jest to wersja transformacji mocy:

y{yλ1λ(y˙)λ1,λ0y˙lny,λ=0
y˙

Niektóre wcześniejsze dyskusje obejmują Jakie inne transformacje normalizujące są powszechnie stosowane poza zwykłymi, takimi jak pierwiastek kwadratowy, log itp.? i Jak mam przekształcić dane nieujemne, w tym zera? . Kod R można znaleźć poniżej Jak wyszukać procedurę statystyczną w R?

Ekonometrycy przestali się przejmować heteroskedastycznością po przełomowej pracy Halberta White'a (1980) nad ustanowieniem procedur wnioskowania odpornych na heteroskedastyczność (która w rzeczywistości po prostu powtórzyła wcześniejszą historię przez statystyki F. Eicker (1967)). Zobacz stronę Wikipedii , którą właśnie przepisałem.


Dzięki, w tym momencie zastanawiam się, czy zastosować transformację mocy, czy zastosować solidną regresję, aby zmniejszyć liczbę błędów i poprawić przedziały prognozowania. Zastanawiam się, jak się porównują obie techniki. Również jeśli użyję transformacji, będę musiał ponownie przekształcić przewidywane wartości. To nie wygląda na oczywistą formułę, prawda?
Robert Kubrick

y

@Charlie Mam na myśli en.wikipedia.org/wiki/Robust_regression . Jestem nowy w tym, ale rozumiem, że solidna regresja zmienia technikę szacowania, dlatego reszty muszą być różne.
Robert Kubrick

Racja, to inna metoda, która zmienia twoje szacunki. Myślę, że solidna regresja lepiej nadaje się do przypadków z wartościami odstającymi. W zależności od wersji silnej regresji, której zdecydujesz się użyć i określonego zestawu danych, możesz uzyskać szersze przedziały ufności w stosunku do OLS.
Charlie

1

Istnieje bardzo proste rozwiązanie problemu heteroskedastyczności związanego ze zmiennymi zależnymi w danych szeregów czasowych. Nie wiem, czy dotyczy to twojej zmiennej zależnej. Zakładając, że tak, zamiast używać nominalnej wartości Y, zmień ją na% zmiany Y w stosunku do bieżącego okresu w poprzednim okresie. Załóżmy na przykład, że Twoje nominalne Y wynosi 14 bilionów USD PKB w najbardziej aktualnym okresie. Zamiast tego obliczyć zmianę PKB w ostatnim okresie (powiedzmy 2,5%).

Nominalne szeregi czasowe zawsze rosną i zawsze są heteroskedastyczne (wariancja błędu rośnie w czasie, ponieważ wartości rosną). Szereg zmian% jest zazwyczaj homoskedastyczny, ponieważ zmienna zależna jest prawie stacjonarna.


Y

To zaskakujące. Zwykle zmienne% zmiany nie są heteroskedastyczne. Zastanawiam się, czy reszty są mniej heteroskedastyczne, niż nam się wydaje. I że podstawowym problemem jest jedna z wartości odstających. Widzę 4 lub 5 obserwacji w zakresie 0,15%, które po usunięciu sprawiłyby, że cały wykres byłby mniej heteroskedastyczny. Ponadto, jak wspomniano inni, heteroskedastyczność nie spowoduje uszkodzenia współczynników regresji, a jedynie przedziały ufności i powiązany błąd standardowy. Jednak patrząc na wykres wydaje się, że nie wpływa to zbytnio na elementy CI. I nadal może się przydać.
Sympa
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.