Modeluję niektóre dane, w których, jak sądzę, mam dwa skrzyżowane losowe efekty. Ale zestaw danych nie jest zrównoważony i nie jestem pewien, co należy zrobić, aby to uwzględnić.
Moje dane to zestaw zdarzeń. Zdarzenie ma miejsce, gdy klient spotyka się z dostawcą w celu wykonania zadania, które się powiedzie lub nie. Istnieją tysiące klientów i dostawców, a każdy klient i dostawca uczestniczy w różnej liczbie wydarzeń (około 5 do 500). Każdy klient i dostawca ma poziom umiejętności, a szansa na pomyślne zakończenie zadania zależy od umiejętności obu uczestników. Klienci i dostawcy nie pokrywają się.
Interesują mnie odpowiednie wariancje populacji klientów i dostawców, dzięki czemu możemy wiedzieć, które źródło ma większy wpływ na wskaźnik sukcesu. Chcę również poznać konkretne wartości umiejętności wśród klientów i dostawców, dla których faktycznie mamy dane, aby zidentyfikować najlepszych / najgorszych klientów lub dostawców.
Początkowo chcę założyć, że prawdopodobieństwo sukcesu zależy wyłącznie od połączonych poziomów umiejętności klienta i dostawcy, bez innych stałych efektów. Zakładając, że x jest czynnikiem dla klienta, a y jest czynnikiem dla dostawcy, to w R (używając pakietu lme4) mam model określony jako:
glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events)
Jednym z problemów jest to, że klienci nie są równomiernie rozmieszczeni między dostawcami. Klienci z wyższymi umiejętnościami są bardziej skłonni do dopasowania do dostawców o wyższych umiejętnościach. Rozumiem, że efekt losowy musi być nieskorelowany z innymi predyktorami w modelu, ale nie jestem pewien, jak to wytłumaczyć.
Ponadto niektórzy klienci i dostawcy mają bardzo mało wydarzeń (mniej niż 10), podczas gdy inni mają wiele (do 500), więc istnieje szeroki rozkład ilości danych, które mamy na temat każdego uczestnika. Idealnie byłoby to odzwierciedlone w „przedziale ufności” wokół oceny umiejętności każdego uczestnika (chociaż myślę, że termin przedział ufności nie jest tutaj całkiem poprawny).
Czy skrzyżowane efekty losowe będą stanowić problem ze względu na niezrównoważone dane? Jeśli tak, jakie inne podejścia powinienem rozważyć?