ANOVA z nie-niezależnymi obserwacjami

11

Przepraszamy za pełne tło tego pytania:

Czasami w badaniach zachowań zwierząt eksperymentator interesuje się ilością czasu, jaki pacjent spędza w różnych, wcześniej określonych strefach w aparacie testowym. Często widziałem tego rodzaju dane analizowane przy użyciu ANOVA; jednak nigdy nie byłem całkowicie przekonany o ważności takich analiz, biorąc pod uwagę, że ANOVA zakłada, że obserwacje są niezależne i nigdy tak naprawdę nie są one niezależne w tych analizach (ponieważ więcej czasu spędzonego w jednej strefie oznacza, że mniej jest spędzane w innych strefach! ).

Na przykład,

DR Smith, CD Striplin, AM Geller, RB Mailman, J. Drago, CP Lawler, M. Gallagher, Ocena behawioralna myszy pozbawionych receptorów dopaminergicznych D1A , Neuroscience, tom 86, wydanie 1, 21 maja 1998, strony 135-146

W powyższym artykule zmniejszają one stopnie swobody o 1, aby zrekompensować brak niezależności. Nie jestem jednak pewien, w jaki sposób taka manipulacja może faktycznie złagodzić to naruszenie założeń ANOVA.

Może procedura chi-kwadrat może być bardziej odpowiednia? Co byś zrobił, aby przeanalizować takie dane (preferencje dla stref, na podstawie czasu spędzonego w strefach)?

Dzięki!

anova

— Mike Wong
źródło

3

(Caveat Emptor: Nie jestem ekspertem w tej dziedzinie)

Jeśli chcesz po prostu porozmawiać o różnicach w czasie spędzonym na lokalizację, należy przesłać dane „czasu na lokalizację” jako liczone w wielomianowym modelu mieszanym (patrz pakiet MCMCglmm dla R), używając tematu jako losowego efektu, powinien zrobić sztuczka.

Jeśli chcesz porozmawiać o różnicach w preferencjach lokalizacji w czasie, być może skróć czas do rozsądnych odstępów czasu (może do rozdzielczości twojego urządzenia mierzącego czas?), Sklasyfikuj każdy przedział według położenia myszy w tym czasie (np. Jeśli 3 lokalizacje, każdy interwał jest oznaczany jako 1, 2 lub 3) i ponownie używa modelu wielomianowych efektów mieszanych z osobnikiem jako efektem losowym, ale tym razem dodaje interwał jako efekt ustalony (choć być może tylko po przedziale czasowym, który zmniejsza moc, ale powinien pomóc przechwytywanie nieliniowości w czasie).

— Mike Lawrence
źródło

5

Mikrofon,

Zgadzam się, że ANOVA oparta na całkowitym czasie prawdopodobnie nie jest tutaj poprawnym podejściem. Co więcej, nie jestem przekonany, że Chi Sqaure rozwiązuje twój problem. Chi kwadrat będzie szanował ideę, że nie możesz być w dwóch lokalizacjach jednocześnie, ale nie rozwiązuje problemu, że prawdopodobnie istnieją zależności między czasem N a czasem N + 1. W odniesieniu do tego drugiego problemu widzę pewne analogie między twoją sytuacją a tym, na co wpadają ludzie, korzystając z danych śledzenia oka i myszy. Jakiś model wielomianowy może dobrze służyć twoim celom. Niestety szczegóły tego typu modelu przekraczają moją wiedzę. Jestem pewien, że gdzieś w książce ze statystykami znajduje się fajny elementarz na ten temat, ale poza tym wskazałbym wam:

Barr DJ (2008) Analiza danych śledzenia „wizualnego świata” za pomocą wielopoziomowej regresji logistycznej. Journal of Memory and Language, wydanie specjalne: Emerging Data Analysis (59) str. 457-474
https://r-forge.r-project.org/projects/gmpm/ to nieparametryczne podejście do tego samego problemu opracowywanego przez dr Barra

Jeśli już, oba te źródła powinny być więcej niż kompletne, ponieważ zajmują się analizą przebiegu czasowego pozycji.

— russellpierce
źródło

4

Przyjrzyj się modelom z błędami skorelowanymi przestrzennie (i współzmiennymi skorelowanymi przestrzennie). Krótkie wprowadzenie z odniesieniami do GeoDa jest dostępne tutaj . Jest mnóstwo tekstów; dobre są autorstwa Noela Cressie , Roberta Haining i Fotheringham i in. (ostatni link prowadzi do streszczenia, a nie strony z książkami). Ostatnio pojawił się jakiś kod R, ale nie jestem z nim zaznajomiony.

— Whuber
źródło

3

Mam zamiar zasugerować odpowiedź, która bardzo różni się od tradycyjnej ANOVA. Niech T będzie całkowitym czasem, jaki zwierzę może spędzić we wszystkich strefach. Możesz zdefiniować T jako łączny czas budzenia lub podobny. Załóżmy, że masz strefy J. Następnie z definicji masz:

Suma T_j = T

Możesz znormalizować powyższe, dzieląc lhs i rhs przez T i otrzymujesz

Suma P_j = 1

gdzie P_j to odsetek czasu, jaki zwierzę spędza w strefie j.

Teraz masz pytanie, czy P_j różni się znacząco od 1 / J dla wszystkich j.

Można założyć, że P_j podąża za rozkładem dirichleta i oszacować dwa modele.

Model zerowy

Ustaw parametry rozkładu w taki sposób, aby P_j = 1 / J. (Ustawienie parametrów rozkładu na 1 wystarczy.)

Model alternatywny

Ustaw parametry rozkładu, aby były funkcją współzmiennych specyficznych dla strefy. Następnie możesz oszacować parametry modelu.

Wybrałbyś model alternatywny, jeśli przewyższa on model zerowy w przypadku niektórych kryteriów (np. Współczynnik wiarygodności).