Jaki model stanowi wyzwanie dla zestawu danych? (setki szeregów czasowych z dużą ilością zagnieżdżeń)

Mam dość skomplikowany zestaw danych do analizy i nie mogę znaleźć dla niego dobrego rozwiązania.

Oto rzecz:

1. surowe dane są zasadniczo nagraniami owadów. Każda piosenka składa się z kilku serii, a każda seria składa się z podjednostek. Wszystkie osoby były rejestrowane przez 5 minut. Liczba serii i ich pozycja w nagraniu mogą być bardzo różne dla poszczególnych osób, a także liczba podjednostek na serię.

2. Mam częstotliwość nośną (częstotliwość podstawową) każdej podjednostki i to właśnie chcę przeanalizować.

Moje problemy:

1. Częstotliwości w serii nie są oczywiście niezależne (chociaż jest dość stabilna, ale częstotliwość podjednostki n-1 będzie miała wpływ na podjednostkę n).

2. Serie również nie są niezależne w obrębie nagrania.

3. Są jeszcze mniej niezależne, gdy częstotliwość maleje z czasem (jednostka zmęczy się śpiewaniem, więc częstotliwość piosenki maleje). Upuszczanie wydaje się być liniowe.

4. Zagnieżdżanie = Mam 3 replikowane populacje dla dwóch lokalizacji A i B. Więc mam A1, A2, A3 i B1, B2, B3.

Co chciałbym zrobić:

1. Scharakteryzuj różnicę częstotliwości między moimi dwiema lokalizacjami (przetestuj to statystycznie)

2. Scharakteryzuj częstotliwość spadającą między dwiema lokalizacjami (zobacz, czy spada ona szybciej w jednej z nich)

Jak to zrobić:

Dlatego potrzebuję pomocy: nie wiem. Wygląda na to, że mój przypadek łączy problemy, których zwykle nie widać razem. Czytałem o mieszanych modelach, o GAM, o ARIMA, losowych i ustalonych efektach, ale nie mogę być naprawdę pewien najlepszego sposobu na zrobienie tego. Kiedy jednak to wykresuję (częstotliwość ~ liczba podjednostek n ), różnica między dwiema lokalizacjami jest bardzo wyraźna. Muszę również wziąć pod uwagę inne zmienne, takie jak temperatura (zwiększa częstotliwość) itp.

Myślałem o:

Zagnieżdżanie poszczególnych osób w replikacji, z której pochodzą, i zagnieżdżanie repliki w lokalizacji (osoba / replikacja / lokalizacja).
Użyj losowego efektu „wybuchu”, więc biorę pod uwagę zmienność w każdym wybuchu.
Użyj stałego efektu „pozycji zdjęć seryjnych podczas nagrywania”, aby zmierzyć spadek częstotliwości (mając nadzieję, że faktycznie jest liniowy).

Czy to byłoby poprawne?

Czy istnieje specjalny typ modelu, którego można użyć do tego rodzaju scenariusza?

— Joe
źródło

Witaj na tej stronie, Joe. Nie musisz logować się w swoim poście, twoje imię będzie zawsze pojawiać się pod twoim gravatarem :)

— chl

Ok i dzięki! To bardzo ładna strona internetowa, bardzo dobrze wykonana.

— Joe

„Zagnieżdżanie poszczególnych osób w replikacji, z której pochodzą, i zagnieżdżanie replikacji w lokalizacji (indywidualna / replikacja / lokalizacja)” brzmi jak dobry pomysł, w porównaniu z formularzami nie zagnieżdżonymi. Jak wygląda MIŁOŚĆ twoich sześciu subpopulacji?

— ks.

Dziękuję bardzo za odpowiedzi, bardzo to doceniam. Zajęło mi to dużo czasu, ale udało mi się przeanalizować ten (cholerny) zestaw danych. Wydaje mi się, że byłem zbyt ambitny, chcąc modelować wszystko jednocześnie. Podzieliłem więc zadanie na kilka modeli, dla każdego problemu (średnia różnica częstotliwości, wzrost częstotliwości itp.). Wniosek: czasem lepiej jest podzielić pracę!

— Joe

To tylko niektóre ogólne sugestie, które mogą okazać się pomocne, bardziej mapa drogowa niż przepis.

Moim instynktem byłoby zbudowanie bayesowskiego modelu hierarchicznego, ponieważ nadaje się on do iteracyjnego rozwoju modelu - nie sądzę, że znajdziesz istniejący model, który ma wszystkie dzwonki i gwizdy, których szukasz. Ale to utrudnia testowanie hipotez, nie wiem, jak potrzebne jest testowanie hipotez.
Wygląda na to, że masz w głowie mały nieformalny model na temat zachowania owadów; mówisz rzeczy takie jak „zmęczyć się” i wiesz, że temperatura podnosi częstotliwość, prawdopodobnie dlatego, że zwierzę ma więcej energii. Wygląda na to, że masz w głowie mały model generatywny na temat tego, jak owady robią swoje piosenki.
Problem wydaje się zbyt skomplikowany, aby można go było modelować „jednym strzałem”. Myślę, że będziesz musiał zbudować coś fragmentarycznie. Zacznę od pewnych „silnych założeń prostowania” - tj. Odrzuć większość złożoności zestawu danych, z planem dodania go później, gdy uzyskasz prosty model, który działa.

Na początek zrobiłbym coś w rodzaju wstępnego przetworzenia częstotliwości podjednostek na zasadzie wybuchu po wybuchu w coś w rodzaju pary (średnia częstotliwość, trend częstotliwości) - zrób to za pomocą OLS i po prostu modeluj średnią częstotliwość i trend seria, a nie same podjednostki. Lub możesz to zrobić (średnia, trend, liczba podjednostek), jeśli liczba podjednostek odnosi się do zmęczenia owada. Następnie zbuduj bayesowski model hierarchiczny, w którym rozkład średniej i trendu serii zależy od średniej trendu zapisu, a to z kolei zależy od średniej trendu lokalizacji.

Następnie dodaj temperaturę jako czynnik dla średniej / trendu zapisu.

Ten prosty model powinien pozwolić ci zobaczyć średnią i trend poszczególnych serii w nagraniu, określonym przez temperaturę i lokalizację. Postaraj się, aby to zadziałało.

Następnie spróbowałbym oszacować różnicę między średnią częstotliwością serii (lub trendem, dzieląc przez cichy czas między seriami), dodając to jako zmienną określoną przez lokalizację i zapis. Następnym krokiem jest model AR średniej serii w nagraniu.

Biorąc pod uwagę niektóre priorytety i pewne bardzo mocne założenia dotyczące charakteru wybuchów (że wszystkie informacje są podawane według średniej i trendu), ten podstawowy model powie ci:

jaka jest średnia częstotliwość serii zdjęć w zależności od lokalizacji i temperatury od temperatury
w jaki sposób trend wewnątrz serii różni się lokalizacja od lokalizacji i temp od temp
w jaki sposób trend wybuchu zewnętrznego różni się lokalizacją według lokalizacji i tempem według temp

Gdy już coś takiego działa, być może nadszedł czas, aby samodzielnie modelować podjednostki i wyrzucić pierwotne oszacowanie OLS. W tym momencie spojrzałbym na dane, aby dowiedzieć się, jaki rodzaj modelu szeregów czasowych może pasować, i modelować parametry modelu szeregów czasowych zamiast par (średniej, trendu).

— Patrick Caldon
źródło