Mam zestaw danych, w którym częstotliwość zdarzeń jest bardzo niska (40 000 z ). Stosuję w tym regresję logistyczną. Rozmawiałem z kimś, gdzie okazało się, że regresja logistyczna nie dałaby dobrej macierzy pomieszania w przypadku tak niskich danych o częstości zdarzeń. Ale z powodu problemu biznesowego i sposobu, w jaki został zdefiniowany, nie mogę zwiększyć liczby zdarzeń z 40 000 do większej liczby, chociaż zgadzam się, że mogę usunąć część żadnej innej populacji.
Proszę, opowiedz mi o swoich opiniach, w szczególności:
- Czy dokładność regresji logistycznej zależy od częstotliwości zdarzeń, czy też jest zalecana minimalna częstotliwość zdarzeń?
- Czy jest jakaś specjalna technika dla danych o niskiej częstotliwości zdarzeń?
- Czy usunięcie mojej nieistniejącej populacji byłoby dobre dla dokładności mojego modelu?
Jestem nowy w modelowaniu statystycznym, więc wybacz moją ignorancję i proszę o rozwiązywanie wszelkich powiązanych problemów, o których mógłbym pomyśleć.
Dzięki,