Regresja w całej populacji

Jakie jest znaczenie błędu standardowego współczynnika w regresji, gdy uwzględni się całą populację?

To pytanie mnie tak zdziwiło. Ponieważ wydaje mi się, standardowe błędy nie mają sensu, gdy uwzględni się całą populację - nie ma potrzeby wnioskowania statystycznego, ponieważ masz już całą populację.

Ale jest tak szeroko stosowany nawet w wielu artykułach opublikowanych w najlepszych czasopismach. Na przykład, gdy badam związek między stopą wzrostu PKB danego kraju a jego gęstością zaludnienia, przeprowadzam regresję:

G D P_{i} = α + β P o p_{i} + γ X_{i} + ϵ_{i}

$GDP_i = \alpha + \beta Pop_i + \gamma \mathbf{X}_i + \epsilon_i$

ze wszystkimi 195 krajami na ziemi. W przypadku uwzględniono wszystkie kraje (populację). Ale cała literatura wciąż mówi o statystycznym znaczeniu współczynników.

Czy ktoś mógłby wyjaśnić, czy jest to niewłaściwe wykorzystanie wnioskowania statystycznego podczas regresji w całej populacji?

econometrics regression

— Akira Osawa
źródło

Odpowiedzi na to pytanie udzielono w sieci statystyk. Zobacz tutaj . Zasadniczo statystyki nie mają znaczenia. „Regresja” jest urządzeniem czysto matematycznym.

— luchonacho

@luchonacho Moim zdaniem jest to pytanie na ten temat w odniesieniu do treści, które w naturalny sposób pokrywają się ze stats.SE). Zgadzam się jednak, że jest to w zasadzie duplikat. Znalazłem dyskusję na temat tego, co zrobić z duplikatami z różnych witryn tutaj: meta.stackexchange.com/questions/172307/…

— jmbejara

@jmbejara Dzięki za odniesienie. Dobrze wiedzieć.

— luchonacho

Wydaje się to kolejnym istotnym odniesieniem. Omówiono pokrewną technikę o nazwie wnioskowanie losowe, jak omówiono w Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…

— jmbejara

Odpowiedzi:

Początkowo oflagowałem to pytanie dla moderatorów, aby sprawdzić, czy lepiej byłoby przenieść się na stronę statystyk SE. Cross Validated. Ponieważ jednak PO wprowadził bardzo konkretny przykład ekonometrii, uważam, że (bardzo głęboka) koncepcja „populacji / próbki” może być użytecznie omówiona na potrzeby tego przykładu.

Pierwszym zagadnieniem jest omówione w odpowiedzi na @AdamBailey: jeśli weźmie się pod uwagę „wszystkie kraje świata” na dany rok lub lata i oznaczy dane jako „populację”, to następny rok powinien należeć do innej populacji. Jeśli należy do innej populacji, to jak wykorzystać wyniki z jednej populacji, aby wnioskować dla innej populacji? Rzeczywiście, tutaj nasza „populacja” jest dwuwymiarowa , kraj i okres czasu - iw tym sensie, z horyzontem czasowym otwartym, mamy tylko próbkę w naszych rękach.

$GDP_i, i=1,..n$

Zatem nasze dane to tylko jedna z możliwych połączonych realizacji tych zmiennych losowych. Te realizacje powstały nie tylko w wyniku deterministycznych / inżynierskich relacji / przyczynowości (odzwierciedlonych w współczynnikach), ale także pod wpływem czynników z natury losowych. W tym sensie dane nie są „czystym / typowym” obrazem „populacji” - zawierają hałas, zaburzenia niestrukturalne, jednorazowe wstrząsy itp.

Następnie ta niepewność przeniesie się na oszacowanie współczynników, które próbujemy oszacować, ponieważ zakładamy, że współczynniki te opisują przyczynowość lub wspólny ruch przed przypadkowymi elementami wpływającymi na końcową wartość zmiennej zależnej.

Ze względu na oba powyższe aspekty mówienie o „błędzie standardowym oszacowań” jest w tym przypadku całkowicie uzasadnione, a następnie jak zwykle stosuj testy statystyczne.

— Alecos Papadopoulos
źródło

Ważne jest, aby zastanowić się, na czym dokładnie polega populacja. W tym kontekście łatwo przeoczyć aspekt czasu.

Załóżmy na przykład, że celem jest prognoza PKB na najbliższe dwa lata dla każdego kraju na świecie. Następnie populacja będąca przedmiotem zainteresowania to zestaw par w formie „kraj, rok”. Nie jest to po prostu „wszystkie kraje”, a nawet jeśli model prognozy oszacowano na podstawie regresji danych z lat bieżących i poprzednich lat dla każdego kraju, nie oznacza to, że uwzględniono całą populację będącą przedmiotem zainteresowania.

Jeśli naprawdę zaczyna się od kompletnego zestawu danych dla całej populacji, którą można zainteresować, wówczas wystarczy tylko obliczyć statystyki podsumowujące. Może to obejmować odchylenia standardowe, ale niewłaściwe byłoby nazywanie tych standardowych błędów, ponieważ termin ten dotyczy rozkładu próbkowania, podczas gdy jedyną „próbą” w tym przypadku jest cała populacja.

— Adam Bailey
źródło

Dziękuję Ci bardzo. Żeby było bardziej jasne, zaktualizowałem pytanie: czy „wszystkie kraje” w tym przypadku są uważane za całą populację? Jeśli tak nie jest, oznacza to, że są „próbkami” z jakiejś „super-populacji” - załóżmy, że miliony krajów znajdują się w „równoległym wszechświecie”, a 195 krajów na Ziemi jest niezależnie i identycznie rozmieszczonych między nimi i są losowo próbkowane. Czy nie jest to zbyt daleko idące założenie?

— Akira Osawa,