Chciałbym ocenić kilka różnych modeli, które przewidują zachowanie na poziomie miesięcznym. Dane są zbilansowane, a 100 000, a 12. Rezultatem jest udział w koncercie w danym miesiącu, więc wynosi około 80% ludzi w dowolnym miesiącu, ale długi ogon dużych użytkowników jest długi. Przewidywane przeze mnie przewidywania wydają się nie szanować obliczeniowego charakteru wyniku: przeważają koncerty ułamkowe.
Nic nie wiem o modelach. Obserwuję tylko 6 różnych prognoz czarnej skrzynki dla każdej osoby na miesiąc. Mam dodatkowy rok danych, których twórcy modeli nie mieli do oszacowania (choć uczestnicy koncertu pozostają tacy sami) i chciałbym ocenić, gdzie każdy z nich dobrze sobie radzi (pod względem dokładności i precyzji). Na przykład, czy jakiś model dobrze przewiduje częste koncerty, ale zawodzi w przypadku ziemniaków na kanapie? Czy prognoza na styczeń jest lepsza niż prognoza na grudzień? Alternatywnie, miło byłoby wiedzieć, że prognozy pozwalają mi poprawnie klasyfikować ludzi pod względem faktów, nawet jeśli nie można ufać dokładnej wielkości.
Moją pierwszą myślą było uruchomienie regresji efektów rzeczywistych dla manekinów przewidywanych i czasowych oraz przyjrzenie się RMSE lub dla każdego modelu. Ale to nie odpowiada na pytanie, gdzie każdy model ma się dobrze lub czy różnice są znaczące (chyba że uruchomię RMSE). Takie podejście martwi mnie również rozkładem wyników.
Moim drugim pomysłem było podzielenie wyniku na 0, 1-3 i 3+ i obliczenie macierzy zamieszania, ale ignoruje to wymiar czasowy, chyba że zrobię 12 z nich. Jest również dość gruboziarnisty.
Zdaję sobie sprawę z poleceń Stata concord
TJ Steichena i NJ Coxa - które mają taką by()
opcję, ale wymagałoby to zwijania danych do sum rocznych. Oblicza to wskaźnik korelacji zgodności Lin z przedziałami ufności, wśród innych przydatnych statystyk. Zakres CCC wynosi od -1 do 1, z idealną zgodnością na poziomie 1.
Jest też Harrella (obliczony
przez R. Newsona), który ma tę opcję, ale nie jestem pewien, czy pozwoliłbym sobie poradzić z danymi panelu. Daje to przedziały ufności. C Harrella jest uogólnieniem obszaru pod krzywą ROC (AUC) dla uzyskania ciągłego wyniku. Jest to proporcja wszystkich par, które można uporządkować w taki sposób, że obiekt z wyższą prognozą faktycznie ma wyższy wynik. Zatem dla losowych predykcji dla modelu doskonale dyskryminującego. Zobacz książkę Harrella , s. 493somersd
cluster
Jak poradziłbyś sobie z tym problemem? Czy sugerowałbyś obliczanie statystyk takich jak MAPE, które są powszechne w prognozowaniu?
Przydatne rzeczy znalezione do tej pory:
- Prezentuje wersję współczynnika korelacji zgodności dla Lin wielokrotnego