Co zrobić, gdy niektóre punkty czasowe mają mocno wypaczone odpowiedzi, a niektóre nie w badaniu z powtarzanymi pomiarami?

Zazwyczaj, gdy napotyka się ciągłe, ale wypaczone miary wyniku w układzie podłużnym (powiedzmy, z jednym efektem między podmiotami), powszechnym podejściem jest przekształcenie wyniku w normalność. Jeśli sytuacja jest ekstremalna, na przykład w przypadku skróconych obserwacji, można się zachwycić i zastosować model krzywej wzrostu Tobita lub coś takiego.

Ale jestem zagubiony, gdy widzę wyniki, które są normalnie rozłożone w pewnych punktach czasowych, a następnie mocno wypaczone na innych; transformacja może zatkać jeden wyciek, ale sprężynować inny. Co możesz zasugerować w takim przypadku? Czy istnieją „nieparametryczne” wersje modeli efektów mieszanych, o których nie wiem?

Uwaga: zastosowanym przykładem byłyby wyniki testu wiedzy przed / po serii interwencji edukacyjnych. Wyniki zaczynają się normalnie, ale później skupiają się w górnej części skali.

repeated-measures data-transformation skewness

— Brenden Dufault
źródło

Przykład jest interesujący, ponieważ występuje przez cały czas. Istnieją dobrze znane transformacje, jak sobie z tym poradzić, takie jak „złożone” transformacje mocy Tukeya. To niewiele zmienia w środku skali, ale leczy skośność na obu końcach. Przekonałem się, że złożone korzenie i logi działają bardzo dobrze w przypadku standardowych porównań przed / po teście.

— whuber

Dziękuję Whuber . Przyjrzę się złożonemu podejściu do transformacji.

— Brenden Dufault,

Definicja i przykłady, Brenden, patrz stats.stackexchange.com/a/10979 . Aby uzyskać instrukcje na temat ich użycia, zobacz kilka ostatnich rozdziałów książki EDA Tukeya .

— whuber

Dodatkowa uwaga - pamiętaj, że przyjmowane są założenia dotyczące reszt modelu, a nie faktycznych zmiennych.

— Peter Flom - Przywróć Monikę

Odpowiedzi:

Zakładając, że problem występuje w twoich resztkach (ponieważ sam rozkład zmiennej wynikowej zwykle nie stanowi problemu), chciałbym raczej zbadać przyczynę problemu, niż próbować go „naprawić” poprzez transformację lub zastosowanie model nieparametryczny.

Jeśli tak jest, wydaje się, że istnieje tendencja (np. Stopniowe zbliżanie się do normalności) lub wyraźna przerwa pomiędzy przejściem z normalnej do normalnej, to sugeruje jakąś „zmianę reżimu” w twoje dane (tj. mechanizm generowania danych zmienia się w czasie) lub jakiś problem z brakującą zmienną.

Jeśli jest tak, że nie ma oczywistego wzorca (np. Przedziały czasowe 1 i 3 wyglądają normalnie, a przedziały czasowe 2 i 4 nie wyglądają), bardzo ostrożnie szukałem problemu z integralnością danych.

Prostym sposobem sprawdzenia, czy masz zmianę reżimu, jest oszacowanie modelu przy użyciu tylko „normalnych” przedziałów czasowych, a następnie ponowne oszacowanie przy użyciu innych przedziałów czasowych i sprawdzenie, jaka różnica występuje. Bardziej skomplikowanym podejściem jest zastosowanie modelu klasy ukrytej, być może z czasem jako zmienną towarzyszącą.

Jeśli chodzi o twoje pytanie na temat nieparametrycznych modeli efektów mieszanych, zależy to od tego, co rozumiesz przez nieparametryczny. Jeśli masz na myśli modele, które nie zakładają liczbowej zmiennej zależnej, istnieje wiele takich modeli (np. LIMDEP ma sporo). Należy również pamiętać, że naruszenie założenia normalności będzie prawdopodobnie problematyczne tylko z perspektywy wnioskowania, jeśli próbka jest niewielka. Jednym ze sposobów zbadania tego byłoby wypróbowanie różnych transformacji omówionych w innych komentarzach i odpowiedziach i sprawdzenie, czy ma to duży wpływ na twoje wnioski.

— Tim
źródło

+1 Dziękuję, Tim. Doceniam twoje sugestie dotyczące modeli klasy utajonej i LIMDEP. Te podejścia stają się dla mnie coraz bardziej atrakcyjne, gdy zaczynam się o nich więcej uczyć.

— Brenden Dufault

Istnieją transformacje Box-Coxa, które podnoszą zmienną do lambda mocy, gdzie lambda jest uwzględniana w estymacji parametru modelu. Nie znam złożonej transformacji mocy Tukeya, więc nie wiem, czy mówimy o tym samym. Aby oszacować lambda, potrzebujesz wielu punktów w dopasowaniu. Czy chcesz dopasować inny rozkład w każdym punkcie czasowym, w którym rozkład jest zdefiniowany dla zestawu podmiotów biorących test w każdym punkcie czasowym? Nawet jeśli tak jest, jeśli wiesz, że niektóre punkty czasowe powinny mieć taki sam rozkład, możesz je połączyć w jednym dopasowaniu.

Innym podejściem, które jest nieparametryczne i nie obejmuje przekształceń do normalności, byłoby zastosowanie ładowania początkowego w każdym punkcie czasowym lub w każdym połączonym zestawie punktów czasowych.

— Michael R. Chernick
źródło