Chciałbym badać rzadkie zdarzenia w ograniczonej populacji. Ponieważ nie jestem pewien, która strategia najlepiej się nadaje, byłbym wdzięczny za wskazówki i referencje związane z tą kwestią, chociaż jestem świadomy, że została w dużej mierze uwzględniona. Po prostu nie wiem od czego zacząć.
Mój problem dotyczy nauk politycznych i mam skończoną populację złożoną z 515 843 zapisów. Są one powiązane ze zmienną zależną binarnie z 513 334 „0” i 2 509 „1”. Mogę zliczyć moje „1” jako rzadkie zdarzenia, ponieważ stanowią one tylko 0,49% populacji.
Mam zestaw około 10 niezależnych zmiennych, z którymi chciałbym zbudować model, aby wyjaśnić obecność „1”. Jak wielu z nas, czytałem artykuł King & Zeng z 2001 roku na temat korekty rzadkich zdarzeń. Ich podejście polegało na zastosowaniu projektu kontroli wielkości liter w celu zmniejszenia liczby „0”, a następnie zastosowaniu korekcji do przechwytywania.
Jednak ten post mówi, że argument King & Zeng nie był konieczny, jeśli już zebrałem moje dane dla całej populacji, co jest moim przypadkiem. Dlatego muszę użyć klasycznego modelu logit. Niestety dla mnie, chociaż uzyskuję dobre znaczące współczynniki, mój model jest całkowicie bezużyteczny pod względem predykcji (nie przewiduje 99,48% moich „1”).
Po przeczytaniu artykułu King & Zeng, chciałem wypróbować projekt kontroli wielkości liter i wybrałem tylko 10% „0” ze wszystkimi „1”. Przy prawie takich samych współczynnikach model był w stanie przewidzieć prawie jedną trzecią „1” po zastosowaniu do pełnej populacji. Oczywiście istnieje wiele wyników fałszywie dodatnich.
Mam zatem trzy pytania, które chciałbym zadać:
1) Jeśli podejście King & Zeng jest przesądzone, gdy masz pełną wiedzę na temat populacji, dlaczego używają sytuacji, w której znają populację w swoim artykule, aby udowodnić swój punkt widzenia?
2) Jeśli mam dobre i istotne współczynniki w regresji logit, ale bardzo słabą moc predykcyjną, czy to oznacza, że zmienność wyjaśniona przez tę zmienną jest bez znaczenia?
3) Jakie jest najlepsze podejście do radzenia sobie z rzadkimi zdarzeniami? Czytałem o modelu relogit Kinga, podejściu Firtha, dokładnym logicie itp. Muszę wyznać, że zagubiłem się wśród tych wszystkich rozwiązań.