Próbuję znaleźć sposób na zmniejszenie liczby kategorii w danych nominalnych lub porządkowych.
Powiedzmy na przykład, że chcę zbudować model regresji na zbiorze danych, który ma wiele czynników nominalnych i porządkowych. Chociaż nie mam problemów z tym krokiem, często spotykam się z sytuacjami, w których nominalna cecha jest bez obserwacji w zestawie szkoleniowym, ale później występuje w zbiorze danych sprawdzania poprawności. To naturalnie prowadzi do błędu, gdy model jest prezentowany z (jak dotąd) niewidocznymi przypadkami. Inną sytuacją, w której chciałbym łączyć kategorie, jest po prostu zbyt duża liczba kategorii z niewielką liczbą obserwacji.
Więc moje pytania to:
- Chociaż zdaję sobie sprawę, że najlepiej byłoby połączyć wiele nominalnych (i porządkowych) kategorii w oparciu o wcześniejsze informacje rzeczywiste, które reprezentują, czy są dostępne systematyczne metody (
R
najlepiej pakiety)? - Jakie masz wskazówki i sugestie dotyczące progów progowych i tak dalej?
- Jakie są najpopularniejsze rozwiązania w literaturze?
- Czy istnieją inne strategie niż łączenie małych kategorii nominalnych z nową kategorią „INNE”?
Jeśli masz inne sugestie, zachęcamy do dzwonienia.