Nie jestem pewien, do kogo należy to pytanie: Cross Validated lub The Workplace. Ale moje pytanie jest niejasno związane ze statystykami.
To pytanie (lub chyba pytania) powstało podczas mojej pracy jako „stażysta w dziedzinie danych”. Budowałem ten model regresji liniowej i badałem wykres resztkowy. Widziałem wyraźny znak heteroskedastyczności. Pamiętam, że heteroskedastyczność zniekształca wiele statystyk testów, takich jak przedział ufności i test t. Użyłem więc ważonej metody najmniejszych kwadratów, zgodnie z tym, czego nauczyłem się na studiach. Mój kierownik to zauważył i odradził mi to, ponieważ „komplikowałem sprawę”, co nie było dla mnie zbyt przekonującym powodem.
Innym przykładem byłoby „usunięcie zmiennej objaśniającej, ponieważ jej wartość p jest nieznaczna”. Być może ta rada po prostu nie ma sensu z logicznego punktu widzenia. Zgodnie z tym, czego się nauczyłem, nieznaczna wartość p może być spowodowana różnymi przyczynami: przypadkiem, niewłaściwym modelem, naruszeniem założeń itp.
Jeszcze innym przykładem jest to, że użyłem walidacji krzyżowej k-fold do oceny mojego modelu. Zgodnie z wynikiem jest po prostu znacznie lepszy niż . Ale mamy niższy dla modelu 1, a powód ma coś wspólnego z przechwyceniem . Mój przełożony wydaje się jednak preferować model 2, ponieważ ma wyższy . Jego powody (takie jak jest solidny lub cross-validation to podejście oparte na uczeniu maszynowym, a nie podejście statystyczne) po prostu nie wydają się wystarczająco przekonujące, aby zmienić zdanie.
Jako ktoś, kto właśnie ukończył studia, jestem bardzo zdezorientowany. Bardzo pasjonuję się stosowaniem prawidłowych statystyk do rozwiązywania problemów w świecie rzeczywistym, ale nie wiem, które z poniższych stwierdzeń jest prawdziwe:
- Statystyki, których się nauczyłem, są po prostu błędne, więc popełniam błędy.
- Istnieje ogromna różnica między statystyką teoretyczną a budowaniem modeli w firmach. I chociaż teoria statystyki jest słuszna, ludzie po prostu jej nie przestrzegają.
- Menedżer nie używa statystyk poprawnie.
Aktualizacja z 17.04.2017: Zdecydowałem się na doktorat. w statystykach. Dziękuję wszystkim za odpowiedź.