Tradycyjnie używamy modelu mieszanego do modelowania danych podłużnych, tj. Danych takich jak:
id obs age treatment_lvl yield
1 0 11 M 0.2
1 1 11.5 M 0.5
1 2 12 L 0.6
2 0 17 H 1.2
2 1 18 M 0.9
możemy przyjąć losowe przechwytywanie lub nachylenie dla różnych osób. Jednak pytanie, które próbuję rozwiązać, będzie obejmować ogromne zbiory danych (miliony osób, obserwacja 1 miesiąc dziennie, tj. Każda osoba będzie miała 30 obserwacji), obecnie nie wiem, czy istnieją pakiety, które mogą wykonać ten poziom danych.
Mam dostęp do Spark / Mahout, ale nie oferują one modeli mieszanych, moje pytanie brzmi: czy w każdym razie mogę zmodyfikować swoje dane, aby móc użyć RandomForest lub SVM do modelowania tego zestawu danych?
Jakieś techniki inżynierii cech, które mogę wykorzystać, aby pomóc RF / SVM w rozliczeniu autokorelacji?
Wielkie dzięki!
Niektóre potencjalne metody, ale nie mogłem pozwolić sobie na czas na napisanie ich w iskrze