Jakie są przykłady praktyk anachronicznych w statystyce?


55

Mam na myśli praktyki, które nadal utrzymują swoją obecność, mimo że problemy (zwykle obliczeniowe), z którymi zostały zaprojektowane, zostały w większości rozwiązane.

Na przykład wymyślono korektę ciągłości Yatesa w celu przybliżenia dokładnego testu Fishera za pomocą testu , ale nie jest to już praktyczne, ponieważ oprogramowanie może teraz obsługiwać test Fishera nawet przy dużych próbkach (wiem, że może to nie być dobry przykład „ utrzymywanie swojej obecności ", ponieważ podręczniki, takie jak Kategoryczna analiza danych Agresti , często przyznają, że korekta Yatesa" nie jest już potrzebna ").χ2

Jakie są inne przykłady takich praktyk?


Nie jestem do końca pewien, czy test chi-kwadrat został przestarzały ze względu na dostępność mocy obliczeniowej do przeprowadzenia dokładnego testu Fishera, np. Czy twoje marginesy są naprawdę naprawione? Zobacz na przykład odpowiedź na inne pytanie @gung. (Jestem prawie pewien, że mamy wątek bardziej szczegółowo omawiający problem, ale nie mogę go znaleźć, ponieważ mamy wiele pytań „czy powinienem użyć chi-kwadrat czy powinienem użyć testu dokładnego Fishera”, które pojawiają się, gdy Poszukuję!)
Silverfish,

@Silverfish: Nie miałem na myśli, że stało się przestarzałe, tylko poprawka Yatesa. Uważam, że badania wykazały, że korekta Yatesa jest zbyt konserwatywna, gdy marginesy nie są ustalone. Artykuł Michaela Habera „ Korekta ciągłości i testy statystyczne” zawiera recenzję. χ2
Francis


używasz OLS zamiast LAD?
PatrickT

5
@PatrickT: Mam sporo kłopotów wywołującego OLS anachroniczne. Jasne, są specjalne przypadki, gdy LAD jest wyraźnie lepszy ... ale to samo można powiedzieć w innym kierunku.
Cliff AB

Odpowiedzi:


49

Mocno argumentuje się, że stosowanie progów istotności progowej, takich jak lub jest historycznym kacem z okresu, w którym większość badaczy polegała na wcześniej obliczonych tabelach wartości krytycznych. Teraz dobre oprogramowanie da wartości bezpośrednio. Rzeczywiście, dobre oprogramowanie pozwala dostosować analizę i nie zależy od testów podręczników.P = 0,01 P.P=0.05P=0.01P

Jest to kontrowersyjne, choćby dlatego, że niektóre problemy z testowaniem istotności wymagają decyzji, tak jak w przypadku kontroli jakości, w której przyjęcie lub odrzucenie partii jest konieczną decyzją, a następnie działanie w obu przypadkach. Ale nawet tam progi, które należy zastosować, powinny wynikać z analizy ryzyka, a nie zależeć od tradycji. I często w nauce analiza wskazań ilościowych jest bardziej odpowiednia niż decyzje: myślenie ilościowe oznacza uwagę na wielkości wartości a nie tylko na surową dychotomię, znaczącą w porównaniu z nieistotną.P

Zaznaczę, że tutaj dotykam zawiłej i kontrowersyjnej kwestii, która jest przedmiotem całej książki i prawdopodobnie tysięcy artykułów, ale wydaje się to dobrym przykładem dla tego wątku.


4
Świetny przykład! Dla odniesienia warto wspomnieć o
Francis

5
@ JM Jestem w 95% pewien, że masz rację, chociaż nie jestem w 99% pewien.
Mark L. Stone,

5
Właściwie nie jestem pewien, czy to świetny przykład. Chociaż prawdą jest, że o wiele łatwiej jest przetestować rzeczy na poziomie niż , nigdy nie widziałem dobrego argumentu za tym, dlaczego chcesz , poza specjalnymi przypadkami (tj. jakości), w którym to przypadku nie „ t wiem, że nadal stosowane są arbitralne poziomy istotności. α=0.038561
Cliff AB

4
@CliffAB Nie sądzę, że głównym celem dokładnej wartości P jest to, że wtedy decydujesz, że stanowi ona poziom krytyczny, który chcesz przyjąć przy podejmowaniu decyzji. Z pewnością nie sugeruję tego ani nie zalecam. Częściowym argumentem tutaj jest nie tylko to, że 0,05 i 0,01 są w najlepszym razie na konwencjonalnych poziomach, ale testy te zapewniają jeden sposób oceny siły dowodów na podstawie hipotezy zerowej, a nie podjęcia binarnej decyzji. W praktyce poziomy 0,05 i 0,01 są bardzo intensywnie wykorzystywane w wielu dziedzinach.
Nick Cox,

4
@Nick Cox I nie zapomnij o poziomie 0.1 dla wyluzowanego, łagodnego tłumu.
Mark L. Stone,

24

Jedną z metod, którą moim zdaniem wielu odwiedzających tę stronę zgodzi się ze mną, jest regresja stopniowa. Nadal jest to wykonywane przez cały czas, ale nie musisz daleko szukać ekspertów w tej witrynie, którzy potępiają jego użycie. Metoda taka jak LASSO jest bardzo preferowana.


4
HA !! Zaleca się zastąpienie anachronizmu (regresja krokowa) anachronizmem nowej generacji (LASSO), który jest anachronizmem w swoim czasie, którego zwolennicy jeszcze go nie zdają. Zobacz stats.stackexchange.com/questions/162861/… .
Mark L. Stone,

3
@ MarkL.Stone: Hej, co najmniej 20 lat we właściwym kierunku. Nie znam się tak dobrze na tych metodach, więc musiałbym je przeczytać, zanim będę mógł wyrazić swoje poparcie.
Cliff AB,

2
Po szybkim przeczytaniu tego artykułu waham się, czy LASSO jest oficjalnie przestarzałe, choć wyraźnie nie zawsze jest to optymalny wybór. Może za 5 lat będę wygodniej nazywać LASSO przestarzałą.
Cliff AB,

2
@amoeba: Myślę, że Mark odnosi się do praktyki używania LASSO jako narzędzia do najlepszej regresji podzbiorów. Na przykład niejasno przypominam sobie, aby ktoś dyskutował najpierw o dopasowaniu LASSO, a następnie o ponownym zamontowaniu modelu bez kary za pomocą niezerowych parametrów regresji. Najlepsza regresja podzbiorów może być bardziej bezpośrednim sposobem na zrobienie tego (chociaż, jak mówisz, nie jest jasne, że jest to dobry pomysł, nawet jeśli to właśnie chce analityk ).
Cliff AB,

2
... a artykuł przedstawia przynajmniej jedną sytuację (tj. symulację przy określonych parametrach), w której wyraźnie wykonuje LASSO, chociaż myślę, że wszyscy wiemy dokładnie, jak poważnie powinniśmy brać takie wyniki na siebie.
Cliff AB

17

Moim zdaniem przynajmniej w (stosowanej) ekonometrii coraz bardziej normą jest stosowanie solidnej lub empirycznej macierzy kowariancji zamiast „anachronicznej praktyki” polegania (asymptotycznie) na poprawnym określeniu macierzy kowariancji. Nie jest to oczywiście bez kontrowersji: zobacz niektóre odpowiedzi, które zamieściłem tutaj w CrossValidated, ale z pewnością jest to wyraźny trend.

Przykłady obejmują błąd standardowy odporny na heteroscedastyczność ( błędy standardowe Eicker-Huber-White). Niektórzy badacze, tacy jak Angrist i Pischke, najwyraźniej zalecają zawsze stosowanie standardowego błędu odpornego na heteroscedastyczność zamiast procedury „anachronicznej”, aby używać normalnego standardowego błędu jako domyślnego i sprawdzać, czy uzasadnione jest założenie .E[uu]=σ2In

Inne przykłady obejmują dane panelowe, Imbens i Wooldridge piszą na przykład w swoich slajdach wykładowych argumentują przeciwko używaniu macierzy kowariancji wariancji efektów losowych (domyślnie zakładając pewne błędy w specyfikacji komponentu wariancji jako domyślne):

Dostępne jest w pełni solidne wnioskowanie, które powinno być ogólnie stosowane. (Uwaga: Zwykła macierz wariancji RE, która zależy tylko od i , nie musi być poprawnie określona! Nadal sensowne jest użycie jej w oszacowaniu, ale sprawienie, by wnioskowanie było solidne.) σ 2 uσc2σu2

Używając uogólnionych modeli liniowych (dla rozkładów należących do rodziny wykładniczej) często zaleca się stosowanie zawsze tak zwanego estymatora wielowarstwowego zamiast polegania na prawidłowych założeniach dystrybucyjnych (tutaj praktyka anachroniczna): patrz na przykład ta odpowiedź lub odniesienie Camerona zliczać dane, ponieważ oszacowanie prawdopodobieństwa pseudo-maksymalnego może być dość elastyczne w przypadku błędnej specyfikacji (np. użycie Poissona, jeśli dwumian ujemny byłby poprawny).

Takie [białe] standardowe korekty błędów muszą być wykonane dla regresji Poissona, ponieważ mogą one mieć znacznie większą różnicę niż podobne korekty heteroskedastyczności dla OLS.

Greene pisze w swoim podręczniku w rozdziale 14 (dostępnym na swojej stronie internetowej) na przykład z uwagą krytyczną i bardziej szczegółowo opisuje zalety i wady tej praktyki:

W obecnej literaturze istnieje tendencja do rutynowego obliczania tego [kanapkowego] estymatora, niezależnie od funkcji prawdopodobieństwa. * [...] * Podkreślamy raz jeszcze, że estymator kanapkowy sam w sobie niekoniecznie jest cnota, jeśli funkcja prawdopodobieństwa jest błędnie określona, ​​a pozostałe warunki dla estymatora M. nie są spełnione.


4
Ciekawe, ale pytanie brzmi: co jest anachroniczne, a nie to, co jest teraz coraz bardziej standardowe, więc odpowiedź musi zostać odwrócona.
Nick Cox,

1
Cześć Nick, dziękuję za twój komentarz (i twoje zmiany), zmodyfikowałem tekst, aby podkreślić, co to jest praktyka anachroniczna, mam nadzieję, że stanie się nieco jaśniejsza. Nie odwróciłem całego tekstu, ponieważ poprzednia praktyka jest bliska robienia nic specjalnego na temat standardowego błędu.
Arne Jonas Warnke

W niektórych przypadkach stosowanie solidnych alternatyw nie jest naturalne, powiedzmy szeregi czasowe. Myślę więc, że nie staje się „bardziej popularny”, ale „bardziej popularny w niektórych obszarach”.
Henry.L

13

m>1mm=1

m=30


Przyszedł tutaj, aby to opublikować. Ponadto: nie jestem przekonany, że jest jakakolwiek sytuacja, w której FWER byłby preferowany w porównaniu z nowszymi metodami FDR (ze względu na skalowalność i adaptowalność).
Alexis

13

Większość praktyk anachronicznych wynika prawdopodobnie ze sposobu, w jaki naucza się statystyki oraz z faktu, że analizy są prowadzone przez ogromną liczbę osób, które odbyły tylko kilka podstawowych zajęć. Często uczymy zestawu standardowych idei i procedur statystycznych, ponieważ tworzą one logiczną sekwencję rosnącego konceptualnego wyrafinowania, która ma sens pedagogiczny (por. Jak możemy poznać wariancję populacji? ). Sam jestem tego winny: od czasu do czasu uczę statystyk 101 i 102 i ciągle mówię: „istnieje lepszy sposób, aby to zrobić, ale to nie wchodzi w zakres tej klasy”. Dla tych uczniów, którzy nie wychodzą poza sekwencję wprowadzającą (prawie wszyscy), pozostają im podstawowe, ale zastąpione strategie.

  1. Na przykład w przypadku statystyki 101 prawdopodobnie najpowszechniejszą praktyką anachroniczną jest przetestowanie pewnych założeń, a następnie przeprowadzenie tradycyjnej analizy statystycznej, ponieważ test nie był znaczący. Bardziej nowoczesnym / zaawansowanym / możliwym do obrony podejściem byłoby od samego początku zastosowanie metody zgodnej z tym założeniem. Niektóre referencje, aby uzyskać więcej informacji:

  2. W przypadku statystyk 102 przykładów dowolna liczba praktyk modelowania została przestarzała:

    • Yp
    • Y
    • Użycie wielomianu wyższego rzędu do przechwycenia krzywizny względem splajnów sześciennych.
    • pR2
    • W przypadku danych z powtarzanymi pomiarami kategoryzacja zmiennej ciągłej, tak aby można było zastosować rmANOVA, lub uśrednianie wielu pomiarów w porównaniu z zastosowaniem liniowego modelu mieszanego.
    • Itp.

Chodzi o to, że ludzie robią to, czego nauczono najpierw na lekcji wprowadzającej, ponieważ po prostu nie znają bardziej zaawansowanych i odpowiednich metod.


5

Bardzo interesującym przykładem są jednostkowe testy korzeniowe w ekonometrii. Chociaż istnieje wiele opcji testowania względem lub dla pierwiastka jednostkowego w wielomianu opóźniającym szeregu czasowego (np. (Augmented) Dickey Fuller Test lub test KPSS), problem można całkowicie obejść, gdy używa się analizy bayesowskiej . Sims zwrócił na to uwagę w swoim prowokującym artykule zatytułowanym Understanding Unit Rooters: A Helicopter Tour z 1991 roku.

Testy na pierwiastek jednostkowy pozostają aktualne i stosowane w ekonometrii. Podczas gdy ja osobiście przypisywałbym to głównie ludziom niechętnie dostosowującym się do praktyk bayesowskich, wielu konserwatywnych ekonometrów broni praktyki jednostkowych testów korzeniowych, mówiąc, że bayesowski pogląd na świat zaprzecza założeniu badań ekonometrycznych. (Oznacza to, że ekonomiści uważają świat za miejsce o ustalonych parametrach, a nie losowych parametrach, którymi rządzi jakiś hiperparametr).


5
Byłbym zainteresowany krótką dyskusją na temat tego, jak praktyki bayesowskie omijają te testy. Innymi słowy, jak uzasadniłbyś to roszczenie?
Mike Hunter,

Muszę przyznać, że minęło trochę czasu, odkąd przeczytałem ten artykuł, ale najważniejsze jest to, że używając płaskiego wcześniejszego do bayesowskiej analizy szeregów czasowych, można użyć standardowych wartości t.
Jeremias K,

5

Uiszczenie opłat licencyjnych za wysokiej jakości systemy oprogramowania statystycznego. #R


1

Nauczanie / przeprowadzanie dwustronnych testów różnic bez jednoczesnego testowania równoważności w dziedzinie częstych testów hipotez jest głębokim zaangażowaniem w potwierdzanie stronniczości .

Istnieje pewien niuans, że odpowiednia analiza mocy z przemyślaną definicją wielkości efektu może temu zapobiec i zapewnić mniej więcej takie same wnioski, ale (a) analizy mocy są tak często ignorowane w prezentowaniu wyników, i (b) I które nigdy nie widział dla analizy mocy, na przykład, każdy szacowany współczynnik dla każdej zmiennej w regresji wielokrotnej, ale łatwo jest zrobić dla połączonych testów odmienności i testów dla równoważności (tj testy istotności).


0

Użycie ujemnego dwumianowego modelu zamiast (solidnego) modelu Poissona do zidentyfikowania interesującego parametru w zmiennej zliczającej, tylko dlatego, że występuje nadmierna dyspersja?

Zobacz jako odniesienie: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Dowód, że Poisson jest bardziej niezawodny w przypadku efektów stałych, jest dość nowy, ponieważ w nawiązaniu do: Wooldridge, JM, „Bezszeregowe oszacowanie niektórych nieliniowych modeli danych panelowych”, Journal of Econometrics 90 (1999), 77–97.


-6

Oto kilka anachronizmów:

  • Neoplatońskie założenie, że istnieje tylko jedna „prawdziwa” populacja w teoretycznym eterze, która jest wieczna, stała i nieporuszona, w stosunku do której można ocenić nasze niedoskonałe próbki, w niewielkim stopniu przyczynia się do rozwoju nauki i wiedzy.

  • Redukcjonizm związany z mandatami takimi jak brzytwa Ockhama jest niezgodny z duchem czasu. LUB można podsumować w następujący sposób: „Spośród konkurujących hipotez należy wybrać te o najmniejszej liczbie założeń”. Alternatywy obejmują zasadę wielokrotnych wyjaśnień Epikura , która z grubsza stwierdza: „Jeśli więcej niż jedna teoria jest zgodna z danymi, zachowaj je wszystkie”.

  • Cały system wzajemnej oceny rozpaczliwie potrzebuje przeglądu.

* Edytować *

  • Przy ogromnych danych zawierających dziesiątki milionów funkcji nie jest już potrzebna zmienna faza selekcji.

  • Ponadto statystyki wnioskowania są bez znaczenia.


Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .
whuber
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.