Minimalizowanie stronniczości w modelowaniu objaśniającym, dlaczego? (Galit Shmueli „Wyjaśnić lub przewidzieć”)

To pytanie odnosi się do pracy Galit Shmueli „Wyjaśnić lub przewidzieć” .

W szczególności w sekcji 1.5 „Wyjaśnianie i przewidywanie są różne” profesor Shmueli pisze:

W modelowaniu objaśniającym nacisk kładziony jest na minimalizowanie stronniczości w celu uzyskania jak najdokładniejszej reprezentacji podstawowej teorii.

To mnie intrygowało za każdym razem, gdy czytam gazetę. W jakim sensie minimalizacja błędu systematycznego w szacunkach daje najdokładniejsze przedstawienie leżącej u podstaw teorii?

Widziałem też przemówienie profesora Shmueli tutaj , wygłoszone na JMP Discovery Summit 2017, i stwierdza:

... rzeczy, które są jak modele skurczowe, zespoły, nigdy ich nie zobaczysz. Ponieważ modele te z założenia wprowadzają odchylenie w celu zmniejszenia ogólnego odchylenia / wariancji. Dlatego ich tam nie będzie, nie ma to teoretycznego sensu. Dlaczego miałbyś specjalnie celować w swój model?

To tak naprawdę nie rzuca światła na moje pytanie, po prostu potwierdzając twierdzenie, którego nie rozumiem.

Jeśli teoria ma wiele parametrów i mamy mało danych do ich oszacowania, błąd oszacowania będzie zdominowany przez wariancję. Dlaczego niewłaściwe byłoby stosowanie procedury oceny tendencyjnej, takiej jak regresja kalenicy (skutkująca tendencyjnymi oszacowaniami mniejszej wariancji) w tej sytuacji?

— Matthew Drury
źródło

Dobre pytanie! +1 Zadałem powiązane pytanie na stats.stackexchange.com/questions/204386/…

— Adrian

@Adrian To świetne pytanie, dobrze zadane. Chciałbym również zobaczyć dokładną odpowiedź na to pytanie!

— Matthew Drury

To jest rzeczywiście świetne pytanie, które wymaga zapoznania się ze światem stosowania modeli statystycznych w badaniach ekonometrycznych i naukach społecznych (z tego, co widziałem, statystycy stosujący dane i eksploratorzy danych, którzy wykonują prace opisowe lub predykcyjne, zwykle nie zajmują się stronniczość tego formularza). Termin „stronniczość”, którego użyłem w artykule, jest tym, co ekonometrycy i naukowcy społeczni traktują jako poważne zagrożenie dla wnioskowania o przyczynowości na podstawie badań empirycznych. Odnosi się do różnicy między twoim modelem statystycznym a przyczynowym modelem teoretycznym, który leży u jego podstaw . Powiązanym terminem jest „specyfikacja modelu”, temat intensywnie nauczany w ekonometrii ze względu na znaczenie „prawidłowego określenia modelu regresji” (w odniesieniu do teorii), gdy celem jest wyjaśnienie przyczynowe. Widziećkrótki artykuł w Wikipedii na temat specyfikacji . Poważnym problemem związanym z błędną specyfikacją jest niepełna specyfikacja , zwana „pominięciem zmienności nastawionej” (OVB), w której pomija się zmienną objaśniającą z regresji, która powinna tam być (zgodnie z teorią) - jest to zmienna korelująca ze zmienną zależną i z co najmniej jedną ze zmiennych objaśniających. Zobacz ten schludny opis ), który wyjaśnia, jakie są implikacje tego rodzaju stronniczości. Z teoretycznego punktu widzenia OVB szkodzi twojej zdolności wnioskowania o przyczynowości na podstawie modelu.

W dodatku do mojego artykułu Wyjaśnić czy przewidzieć? istnieje przykład pokazujący, że nieokreślony („zły”) model może czasami mieć większą moc predykcyjną. Ale teraz mam nadzieję, że zrozumiecie, dlaczego stoi to w sprzeczności z celem „dobrego modelu przyczynowego wyjaśnienia”.

— Galit Shmueli
źródło

Myślę, że nadal istnieje wiele nieporozumień dotyczących modeli predykcyjnych i objaśniających. Przeprowadziłem wywiad z naukowcem danych w dużej firmie ubezpieczeniowej i zapytałem, czy w jego zespole budują modele predykcyjne czy wyjaśniające. Powiedział „to tak naprawdę nie ma znaczenia” - nie sądzę, że on znał różnicę.

— RobertF