Czy „Twierdzenie o braku obiadu” ma zastosowanie do ogólnych testów statystycznych?

Kobieta, dla której pracowałem, poprosiła mnie o wykonanie jednokierunkowej ANOVA dla niektórych danych. Odpowiedziałem, że dane te były danymi z powtarzanych pomiarów (szeregów czasowych) i uważałem, że naruszenie zasady niezależności zostało naruszone. Odpowiedziała, że nie powinnam się martwić o założenia, po prostu wykonaj test, a ona weźmie pod uwagę, że założenia mogły nie zostać spełnione.

To nie wydawało mi się właściwe. Zrobiłem trochę badań i znalazłem ten wspaniały post na blogu Davida Robinsona: K-oznacza, że grupowanie nie jest darmowym obiadem , co wystawiło mnie na twierdzenie o braku obiadu. Spojrzałem na oryginalny artykuł i kilka innych rzeczy, i szczerze mówiąc, matematyka jest trochę ponad moją głową.

Istotą tego - zdaniem Davida Robinsona - wydaje się być to, że siła testu statystycznego wynika z jego założeń. I podaje dwa świetne przykłady. Gdy przeglądam inne artykuły i posty na blogu na ten temat, wydaje się, że zawsze pojawiają się odniesienia do nauki nadzorowanej lub wyszukiwania.

Więc moje pytanie brzmi: czy to twierdzenie ma zastosowanie do testów statystycznych w ogóle? Innymi słowy, czy można powiedzieć, że moc testu t lub ANOVA wynika z jego zgodności z założeniami i przytoczyć twierdzenie o braku obiadu?

Jestem winien byłemu szefowi ostateczny dokument dotyczący pracy, którą wykonałem, i chciałbym wiedzieć, czy mogę odwołać się do twierdzenia o braku darmowego lunchu, stwierdzając, że nie można po prostu zignorować założeń testu statystycznego i powiedzieć, że weźmiesz to pod uwagę konto podczas oceny wyników.

assumptions

— rwjones
źródło

Dlaczego po prostu nie „potajemnie” ANOVA z powtarzanymi pomiarami?

— Horst Grünbusch

@ HorstGrünbusch Właściwie dane i testy zostały wcześniej omówione na forum, z konkretnymi pytaniami dotyczącymi powtarzanych pomiarów ANOVA, i okazuje się, że liniowy model mieszanych efektów jest prawdopodobnie najlepszym wyborem.

— rwjones

Odpowiedź jest już dobrze udzielona, więc można dodać bardziej niepoprawną odpowiedź. Możesz zapytać szefa dokładnie, w jaki sposób uwzględni konsekwencje naruszenia założeń („ostrożność” byłaby lepsza niż nic!). Krótko mówiąc, jest to długa i trudna droga do uzyskania wystarczającego zrozumienia i doświadczenia, aby wiedzieć, kiedy możesz być nieostrożny w stosunku do założeń. Rupert G. Miller Beyond ANOVA (New York: Wiley, 1986 i późniejsze przedruki) jest dobrym źródłem na temat konsekwencji, a głównym motywem jest to, że ignorowanie założeń dotyczących niezależności jest jedną z najbardziej niebezpiecznych rzeczy, jakie możesz zrobić.

— Nick Cox,

@NickCox Cóż, nie jest już moim szefem, a ta szczególna sytuacja jest głównym powodem. Było to w gruncie rzeczy kulminacją niechlujnego myślenia i niechlujnego zarządzania projektami z jej strony w całkiem przyzwoitym środowisku badawczym. Poza tym, dziękuję za rekomendację książki. Z brzmienia tego, jest to jedna z rzeczy, które chciałbym zacytować w moim raporcie końcowym.

— rwjones

Odpowiedzi:

Nie znam dowodu, ale założę się, że dotyczy to dość ogólnie. Przykładem jest eksperyment z 2 podmiotami w każdej z 2 grup leczenia. Test Wilcoxona nie może być znaczący na poziomie 0,05, ale test t może. Można powiedzieć, że jego moc pochodzi w ponad połowie z założeń, a nie tylko z danych. W przypadku pierwotnego problemu nie należy postępować tak, jakby obserwacje poszczególnych podmiotów były niezależne. Uwzględnienie tego po fakcie z pewnością nie jest dobrą praktyką statystyczną, z wyjątkiem bardzo szczególnych okoliczności (np. Estymatory wielowarstwowe).

— Frank Harrell
źródło

Jeśli chcesz, możesz przytoczyć Twierdzenie o braku darmowego lunchu , ale możesz też przytoczyć Modus Ponens (znany również jako Prawo Oderwania , podstawa dedukcyjnego rozumowania), który jest źródłem twierdzenia o braku darmowego lunchu .

Twierdzenie o braku darmowego lunchu obejmuje bardziej konkretny pomysł: fakt, że nie ma algorytmu, który byłby w stanie sprostać wszystkim celom. Innymi słowy, twierdzenie o braku darmowego lunchu zasadniczo mówi, że nie ma magicznej kuli algorytmicznej . Wynika to z Modus Ponens, ponieważ aby algorytm lub test statystyczny dał prawidłowy wynik, musisz spełnić założenia.

Podobnie jak we wszystkich twierdzeniach matematycznych, jeśli naruszysz przesłanki, test statystyczny jest po prostu pozbawiony sensu i nie możesz z niego wyprowadzić żadnej prawdy. Jeśli więc chcesz wyjaśnić swoje dane za pomocą testu, musisz założyć, że spełnione są wymagane przesłanki, jeśli nie są (i wiesz o tym), to test jest całkowicie błędny.

To dlatego, że rozumowanie naukowe na podstawie dedukcji: w zasadzie, Twój test / prawo / twierdzenie jest reguła implikacja , który mówi, że jeśli masz premisse Awtedy można stwierdzić B: A=>B, ale jeśli nie masz A, to możesz albo mieć Blub nie B, i oba przypadki są prawdziwe , to jedna z podstawowych zasad logicznego wnioskowania / dedukcji (reguła Modusa Ponensa). Innymi słowy, jeśli naruszysz przesłanki, wynik nie ma znaczenia i nie możesz niczego wywnioskować .

Pamiętaj o binarnej tabeli implikacji:

A   B   A=>B
F   F    T
F   T    T
T   F    F
T   T    T

W twoim przypadku, dla uproszczenia, masz Dependent_Variables => ANOVA_correct. Jeśli więc użyjesz zmiennych niezależnych, Dependent_Variablesto Falseimplikacja będzie prawdziwa, ponieważ Dependent_Variableszałożenie jest naruszone.

Oczywiście jest to uproszczone i w praktyce test ANOVA może nadal zwracać przydatne wyniki, ponieważ prawie zawsze istnieje pewien stopień niezależności między zmiennymi zależnymi, ale daje to wyobrażenie, dlaczego po prostu nie można polegać na teście bez spełnienia założeń .

Można jednak również użyć testów, których założenia nie spełniają oryginału, zmniejszając swój problem: poprzez wyraźne złagodzenie ograniczenia niezależności, twój wynik może być znaczący, ale nie jest gwarantowany (ponieważ wtedy twoje wyniki odnoszą się do zredukowanego problemu, a nie pełny problem, więc nie można tłumaczyć wszystkich wyników, chyba że można udowodnić, że dodatkowe ograniczenia nowego problemu nie wpływają na test, a tym samym na wyniki).

W praktyce jest to często wykorzystywane do modelowania praktycznych danych, na przykład za pomocą Naive Bayesa, poprzez modelowanie zmiennych zależnych (zamiast niezależnych) przy użyciu modelu, który zakłada zmienne niezależne, i, co zaskakujące, często działa bardzo dobrze, a czasem lepiej niż rachunkowość modeli dla zależności . Możesz być także zainteresowany tym pytaniem o tym, jak korzystać z ANOVA, gdy dane nie spełniają wszystkich oczekiwań .

Podsumowując: jeśli zamierzasz pracować na danych praktycznych, a twoim celem nie jest udowodnienie żadnego wyniku naukowego, ale stworzenie systemu, który po prostu działa (tj. Usługa sieciowa lub jakakolwiek praktyczna aplikacja), założenie niezależności (i może innych założeń) można się zrelaksować, ale jeśli próbujesz wydedukować / udowodnić jakąś ogólną prawdę , zawsze powinieneś używać testów, które możesz matematycznie zagwarantować (lub przynajmniej bezpiecznie i pewnie założyć), że spełnisz wszystkie przesłanki .

— gaboryczny
źródło

Jeśli dobrze rozumiem twój argument, zaczniesz od stwierdzenia, że żadne zastosowanie statystyk, w przypadku których założenia nie są spełnione, jest prawidłowe. Jeśli to prawda, to naprawdę bardzo złe wieści. Większość książek o ekonometrii (żeby podać tylko jeden przykład) spędza czas na wyjaśnianiu, że to jest złe (podsumowanie jednym słowem) i szczegółowo, dlaczego. Wydaje się jednak, że zmieniasz hals w środku, a to, za czym się opowiadasz, jest wtedy rozmyte. Jakoś praca na danych może brzmieć, nawet jeśli jest logicznie nieprawidłowa. Dlatego nie widzę tutaj wyraźnej linii porad.

— Nick Cox,

Chodzi o to: jeśli przesłanki zostaną naruszone, nie można przyjąć wyników testu za wartość nominalną, ponieważ wnioskowanie jest stronnicze. Jednak nadal możesz go wypróbować, a jeśli jesteś pewny siebie i wystarczająco doświadczony, nadal możesz coś z tego wyciągnąć, ale głównie na praktycznych wdrożeniach, w których tak naprawdę nie obchodzi Cię naukowe uzasadnienie (po prostu próbujesz modelować dane dla jakiegoś praktycznego celu, bez próby wnioskowania jakiejś ugruntowanej ogólnej prawdy o świecie). Więc moja odpowiedź nie jest „jednym słowem podsumowaniem”, jest to tylko ogólny przypadek (zły) w porównaniu do konkretnego przypadku (może być w porządku).

— nudny

PS: Moje stwierdzenie dotyczy nie tylko aplikacji statystycznych, ale także dowolnego zastosowania dowolnego logicznego lub matematycznego twierdzenia / reguły / testu, dotyczy to każdego rozumowania wykorzystującego wnioskowanie i indukcję. Ale interesują mnie odniesienia do waszych książek ekonometrycznych, inne referencje podane w komentarzu do pytania PO były bardzo trafne.

— nudny

Dziękuję za dodanie komentarza, ale muszę powiedzieć, że nie uważam tego oświadczenia za szczególnie jasne lub uzasadnione. Nie widzę, aby pracujący naukowcy (jestem jednym z nich) zrozumieli Twoją różnicę między analizą danych dla celów naukowych i dla celów praktycznych. Zostawię to tutaj, z wyjątkiem polecania takich podręczników, jak te Jeffa Wooldridge'a, ponieważ w efekcie były to obszerne eseje, które założenia są kluczowe, a które nie, i duża szara strefa pomiędzy nimi. amazon.com/Jeffrey-M.-Wooldridge/e/B001IGLWNY

— Nick Cox

Dziękuję za referencje. Właśnie znalazłem inne pytanie, w którym wspominają artykuł, który wyjaśnia, dlaczego naiwne założenia niezależności mogą nadal działać na danych ze zmiennymi zależnymi: „Dokument wydaje się dowodzić, że (naiwne) bayes jest dobre nie tylko wtedy, gdy cechy są niezależne, ale także gdy zależności cechy między sobą są podobne / przeciwne między cechami " stats.stackexchange.com/a/23491/25538

— gaborous