Jakie techniki są dostępne do zwijania (lub łączenia) wielu kategorii do kilku, w celu wykorzystania ich jako danych wejściowych (predyktorów) w modelu statystycznym?
Rozważ zmienną taką jak kierunek studiów studenckich (dyscyplina wybrana przez studenta). Jest nieuporządkowany i kategoryczny, ale potencjalnie może mieć dziesiątki różnych poziomów. Powiedzmy, że chcę użyć major jako predyktora w modelu regresji.
Używanie tych poziomów bezpośrednio do modelowania prowadzi do różnego rodzaju problemów, ponieważ jest ich tak wiele. Wykorzystanie ich wymagałoby dużej precyzji statystycznej, a wyniki są trudne do interpretacji. Rzadko interesują nas określone kierunki - znacznie bardziej prawdopodobne jest zainteresowanie szerokimi kategoriami (podgrupami) kierunków. Ale nie zawsze jest jasne, jak podzielić poziomy na takie kategorie wyższego poziomu, a nawet ile kategorii wyższych poziomów użyć.
W przypadku typowych danych chętnie zastosuję analizę czynnikową, faktoryzację macierzy lub dyskretną technikę modelowania ukrytego. Ale kierunki są wzajemnie wykluczającymi się kategoriami, więc waham się wykorzystać ich kowariancję do wszystkiego.
Ponadto same nie dbam o główne kategorie. Zależy mi na tworzeniu kategorii wyższego poziomu, które byłyby spójne z moim wynikiem regresji . W przypadku wyniku binarnego sugeruje mi to coś w rodzaju liniowej analizy dyskryminacyjnej (LDA) w celu wygenerowania kategorii wyższego poziomu, które maksymalizują wydajność dyskryminacyjną. Ale LDA jest ograniczoną techniką i wydaje mi się, że pogłębiam brudne dane. Ponadto każde ciągłe rozwiązanie będzie trudne do interpretacji.
Tymczasem coś opartego na kowariancjach, takie jak analiza wielokrotnej korespondencji (MCA), wydaje mi się w tym przypadku podejrzane ze względu na nieodłączną zależność między wzajemnie wykluczającymi się zmiennymi fikcyjnymi - lepiej nadają się one do badania wielu zmiennych kategorycznych, a nie wielu kategorii ta sama zmienna.
edycja : aby wyjaśnić, chodzi o zwijanie kategorii (nie wybieranie ich), a kategorie to predyktory lub zmienne niezależne. Z perspektywy czasu ten problem wydaje się odpowiednim czasem na „uregulowanie ich wszystkich i pozwolenie, by Bóg je uporządkował”. Cieszę się, że to pytanie jest interesujące dla tak wielu osób!