Jestem studentem ekonomii z pewnym doświadczeniem w ekonometrii i R. Chciałbym wiedzieć, czy kiedykolwiek zdarzy się sytuacja, w której powinniśmy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?
Jestem studentem ekonomii z pewnym doświadczeniem w ekonometrii i R. Chciałbym wiedzieć, czy kiedykolwiek zdarzy się sytuacja, w której powinniśmy uwzględnić zmienną w regresji, mimo że nie jest ona statystycznie istotna?
Odpowiedzi:
Tak!
To, że współczynnik jest statystycznie nie do odróżnienia od zera, nie oznacza, że współczynnik faktycznie wynosi zero, że współczynnik ten jest nieistotny. To, że efekt nie przejdzie jakiegoś arbitralnego odcięcia dla znaczenia statystycznego, nie oznacza, że nie należy próbować go kontrolować.
Mówiąc ogólnie, obecny problem i projekt badania powinny wskazać, co należy uwzględnić jako regresory.
I nie traktuj tego jako wyczerpującej listy. Nie jest trudno wymyślić więcej ton ...
Sytuacja, w której często się to zdarza, to regresja z ustalonymi efektami .
Załóżmy, że masz dane panelu i chcesz oszacować modelu:
Oszacowanie tego modelu zwykłymi najmniejszymi kwadratami, gdzie są traktowane jako efekty stałe, jest równoważne z uruchomieniem zwykłych najmniejszych kwadratów ze zmienną wskaźnikową dla każdego indywidualnego .
W każdym razie chodzi o to, że zmienne (tj. Współczynniki zmiennych wskaźnikowych) są często źle oszacowane. Każdy pojedynczy ustalony efekt jest często statystycznie nieistotny. Ale nadal uwzględniasz wszystkie zmienne wskaźnikowe w regresji, jeśli bierzesz pod uwagę ustalone efekty.
(Zauważ też, że większość pakietów statystyk nawet nie podaje standardowych błędów dla poszczególnych ustalonych efektów, gdy używasz wbudowanych metod. Nie obchodzi Cię tak naprawdę znaczenie poszczególnych ustalonych efektów. Prawdopodobnie zależy Ci na ich zbiorowym znaczeniu .)
Jeśli dopasowujesz wielomian tego stopnia do jakiejś krzywej, prawie zawsze dołączasz warunki wielomianu niższego rzędu.
Np. Jeśli pasowałbyś do wielomianu drugiego rzędu, uruchomiłbyś:
Zwykle byłoby dość dziwnie wymusić i zamiast tego uruchomić
ale studenci mechaniki newtonowskiej będą mogli wyobrazić sobie wyjątki.
Powiedzmy, że szacujesz model AR (p), to również uwzględnisz warunki niższego rzędu. Na przykład dla AR (2) uruchomiłbyś:
I byłoby dziwnie uruchomić:
Jak wspomniała @NickCox, terminy i podobnie do siebie pasują . Więcej informacji na ten temat można znaleźć np. W tym dokumencie .
Chcesz uwzględnić zmienne po prawej stronie, jeśli istnieją ku temu dobre teoretyczne powody.
I jak omawiają inne odpowiedzi tutaj i na całym StackExchange, stopniowy wybór zmiennych może powodować liczne problemy statystyczne.
Ważne jest również rozróżnienie między:
W tym drugim przypadku problematyczne jest argumentowanie, że współczynnik nie ma znaczenia. Może to być po prostu źle zmierzone.
Tak, są. Każda zmienna, która może w znaczący sposób korelować ze zmienną odpowiedzi, nawet na statystycznie nieistotnym poziomie, może wprowadzić w błąd regresję, jeśli nie zostanie uwzględniona. Jest to określane jako niepełna specyfikacja i prowadzi do oszacowań parametrów, które nie są tak dokładne, jak mogłyby być.
https://onlinecourses.science.psu.edu/stat501/node/328
Z góry:
Model regresji jest nieokreślony (wynik 2), jeśli w równaniu regresji brakuje jednej lub więcej ważnych zmiennych predykcyjnych. Ta sytuacja jest być może najgorszym scenariuszem, ponieważ nieokreślony model daje tendencyjne współczynniki regresji i tendencyjne prognozy odpowiedzi. Oznacza to, że korzystając z modelu konsekwentnie niedoceniamy lub przeceniamy nachylenie populacji i średnie liczebności populacji. Aby pogorszyć i tak już złe sprawy, średni błąd kwadratowy MSE ma tendencję do przeszacowywania σ², dając w ten sposób szersze przedziały ufności niż powinien.
Zwykle nie uwzględniasz ani nie wykluczasz zmiennych dla regresji liniowej ze względu na ich znaczenie. Uwzględniasz je, ponieważ zakładasz, że wybrane zmienne są (dobrymi) predyktorami kryteriów regresji. Innymi słowy, wybór predyktora oparty jest na teorii.
Nieistotność statystyczna w regresji liniowej może oznaczać dwie rzeczy (o których wiem):
Prawidłowym powodem wykluczenia nieistotnych predyktorów jest to, że szukasz najmniejszego podzbioru predyktorów, który wyjaśnia wariancję kryteriów lub większość z nich. Jeśli go znalazłeś, sprawdź swoją teorię.
W ekonometrii dzieje się to w lewo iw prawo. Na przykład, jeśli używasz kwartalnych manekinów sezonowych Q2, Q3 i Q4, często zdarza się, że jako grupa są znaczące, ale niektóre z nich nie są znaczące indywidualnie. W takim przypadku zwykle trzymasz je wszystkie.
Innym typowym przypadkiem są interakcje. Rozważ model , w którym główny efekt nie jest znaczący, ale interakcja jest. W takim przypadku zwykle utrzymuje się główny efekt. Istnieje wiele powodów, dla których nie należy go upuszczać, a niektóre z nich zostały omówione na forum.
AKTUALIZACJA: Innym częstym przykładem jest prognozowanie. Ekonometria jest zwykle nauczana z punktu widzenia wnioskowania na wydziałach ekonomii. W perspektywie wnioskowania wiele uwagi poświęca się wartościom p i znaczeniu, ponieważ próbujesz zrozumieć, co powoduje co i tak dalej. W prognozowaniu nie ma większego nacisku na te rzeczy, ponieważ zależy Ci tylko na tym, jak dobrze model może prognozować zmienną zainteresowania.
Jest to podobne do aplikacji uczenia maszynowego, btw, które ostatnio wkraczają w ekonomię. Możesz mieć model ze wszystkimi znaczącymi zmiennymi, które nie przewidują dobrze. W ML często wiąże się to z tak zwanym „nadmiernym dopasowaniem”. Oczywiście takie modelowanie jest bardzo mało wykorzystywane w prognozowaniu.
Zadajesz dwa różne pytania:
Edycja: dotyczyło to oryginalnego postu, ale może już nie być prawdziwe po edycji.
Jeśli chodzi o Q1, myślę, że jest to zbyt szerokie. Istnieje wiele możliwych odpowiedzi, niektóre już podane. Kolejny przykład to budowanie modeli do prognozowania (wyjaśnienie znajduje się w cytowanym poniżej źródle).
W odniesieniu do drugiego kwartału istotność statystyczna nie jest rozsądnym kryterium przy tworzeniu modelu. Rob J. Hyndman pisze w swoim blogu „Testy statystyczne dla selekcji zmiennych” :
Istotność statystyczna zwykle nie stanowi dobrej podstawy do ustalenia, czy zmienna powinna zostać uwzględniona w modelu, pomimo faktu, że wiele osób, które powinny ją lepiej znać, używa ich właśnie do tego celu. <...> Testy statystyczne zostały zaprojektowane w celu przetestowania hipotez, a nie wyboru zmiennych.
Zauważ również, że często można znaleźć niektóre zmienne, które są statystycznie znaczące wyłącznie przez przypadek (szansa jest kontrolowana przez wybór poziomu istotności). Obserwacja, że zmienna jest statystycznie istotna, nie wystarczy, aby stwierdzić, że zmienna należy do modelu.
Dodam kolejne „tak”. Zawsze uczono mnie - i starałem się to przekazywać - że głównym czynnikiem przy wyborze współzmiennych jest znajomość domeny, a nie statystyki. Na przykład w biostatystyce, jeśli modeluję pewne wyniki zdrowotne na osobnikach, to bez względu na to , co mówi regresja, będziesz potrzebować naprawdę dobrych argumentów, aby nie uwzględniać wieku, rasy i płci w modelu.
To zależy również od celu twojego modelu. Jeśli celem jest lepsze zrozumienie, jakie czynniki są najbardziej związane z twoim wynikiem, to zbudowanie oszczędnego modelu ma pewne zalety. Jeśli zależy ci na przewidywaniu, a nie na zrozumieniu, wyeliminowanie zmiennych towarzyszących może być mniejszym problemem.
(Na koniec, jeśli planujesz użyć statystyk do wyboru zmiennych, sprawdź, co Frank Harrell ma do powiedzenia na ten temat - http://www.stata.com/support/faqs/statistics/stepwise-regression-problems/ i jego książce Strategie modelowania regresji . Krótko mówiąc, zanim użyjesz stopniowych lub podobnych statystycznych strategii do wybierania najlepszych predyktorów, to wszelkie testy „czy te dobre predyktory?” są strasznie tendencyjne - oczywiście, że ” są dobrymi predyktorami, wybrałeś je na tej podstawie, więc wartości p dla tych predyktorów są fałszywie niskie).
Jedyną rzeczą, którą naprawdę mówi wynik „nieistotności statystycznej”, jest to, że na wybranym poziomie błędu typu I nie jesteśmy nawet w stanie stwierdzić, czy wpływ regresora na zmienną zależną jest dodatni czy ujemny (patrz ten post).
Zatem jeśli utrzymamy ten regresor, jakakolwiek dyskusja na temat jego własnego wpływu na zmienną zależną nie ma dowodów statystycznych na poparcie tego.
Ale to niepowodzenie oszacowania nie oznacza, że regresor nie należy do relacji strukturalnej, a jedynie mówi, że przy konkretnym zbiorze danych nie byliśmy w stanie z całą pewnością określić znaku jego współczynnika.
Tak więc w zasadzie, jeśli istnieją teoretyczne argumenty przemawiające za jego obecnością, regresor powinien zostać zachowany.
Inne odpowiedzi tutaj podały konkretne modele / sytuacje, dla których takie regresory są przechowywane w specyfikacji, na przykład odpowiedź wspominająca model danych panelu z efektami stałymi.
Możesz dołączyć zmienną o szczególnym znaczeniu, jeśli jest ona przedmiotem badań, nawet jeśli nie jest statystycznie istotna. Również w biostatystyce znaczenie kliniczne często różni się od znaczenia statystycznego.