Prowadzę badania nad grami edukacyjnymi, a niektóre z moich bieżących projektów polegają na wykorzystaniu danych z BoardGameGeek (BGG) i VideoGameGeek (VGG) w celu zbadania związków między elementami projektowania gier (tj. „Osadzonymi w II wojnie światowej”, „wymaga rzucania kostką” ) i oceny tych gier (tj. wyniki na 10). Każdy z tych elementów projektu odpowiada znacznikowi w systemie BGG lub VGG, więc każdy element jest zasadniczo zmienną dychotomiczną. Gra ma 1 za każdy znacznik obecny w bazie danych i 0 za każdy znacznik, który nie jest obecny.
Istnieją dziesiątki tych tagów, więc chcę użyć eksploracyjnej analizy czynnikowej (EFA), aby uzyskać możliwą do zarządzania liczbę „gatunków”, które wychwytują wzorce w projektowaniu gier. Korzystając z kilku źródeł, rozumiem, że ponieważ pracuję ze zmiennymi dychotomicznymi , powinienem stosować korelacje polichoryczne ( tetrachoryczne , szczególnie tutaj) zamiast Pearsona , kiedy wymyślam moje czynniki (są też inne opcje - takie jak analiza utajonej cechy - tam, ale na razie to ten, który eksploruję).
Z ciekawości wymyśliłem dwa zestawy czynników, jeden przy użyciu korelacji Pearsona, a drugi przy użyciu korelacji polichorycznych (za każdym razem ta sama liczba czynników). Mój problem polega na tym, że czynniki obliczone za pomocą korelacji Pearsona mają znacznie większy sens i są łatwiejsze do interpretacji niż czynniki obliczone za pomocą korelacji polichorycznych. Innymi słowy, „gatunki” z pierwszego zestawu czynników mają intuicyjny sens i odpowiadają mojemu zrozumieniu, w jaki sposób gry są zazwyczaj projektowane; tak nie jest w przypadku drugiego zestawu czynników.
Z jednej strony chcę się upewnić, że spełniam założenia testów, których używam, nawet jeśli dzięki temu moje wyniki będą mniej ładne. Z drugiej strony czuję, że częścią celu analizy czynnikowej i (szerzej) budowania modelu jest wymyślenie czegoś użytecznego, a bardziej przydatne informacje pojawiają się, gdy „łamię zasady”. Czy potrzeba użytecznego modelu wystarcza, by przeważyć naruszenie założeń tego testu? Jakie są konsekwencje używania korelacji Pearsona zamiast polichorycznych?