Równowaga w zestawie treningowym
W przypadku modeli regresji logistycznej niezrównoważone dane treningowe wpływają tylko na oszacowanie przechwytywania modelu (chociaż to oczywiście wypacza wszystkie przewidywane prawdopodobieństwa, co z kolei narusza twoje przewidywania). Na szczęście korekcja przechwytywania jest prosta: pod warunkiem, że znasz prawdziwą proporcję zer i jedynek i wiesz, jakie są proporcje w zestawie treningowym, możesz zastosować korekcję rzadkich zdarzeń do przechwytywania. Szczegóły znajdują się w King and Zeng (2001) [ PDF ].
Te „korekty rzadkich zdarzeń” zostały opracowane dla projektów badań kontroli przypadków, stosowanych głównie w epidemiologii, które wybierają przypadki, wybierając stałą, zwykle zrównoważoną liczbę 0 przypadków i 1 przypadków, a następnie muszą skorygować wynikające z tego odchylenie w doborze próby. Rzeczywiście, możesz szkolić klasyfikatora w ten sam sposób. Wybierz ładną, zrównoważoną próbkę, a następnie popraw przechwycenie, aby uwzględnić fakt, że wybrałeś zmienną zależną, aby dowiedzieć się więcej o rzadszych klasach, niż próba losowa byłaby w stanie ci powiedzieć.
Dokonywanie prognoz
Na pokrewny, ale odrębny temat: Nie zapominaj, że powinieneś być inteligentnym progiem, aby przewidywać. Nie zawsze najlepiej jest przewidzieć 1, gdy prawdopodobieństwo modelu jest większe 0,5. Kolejny próg może być lepszy. W tym celu należy przyjrzeć się krzywym charakterystyki odbiornika (ROC) klasyfikatora, a nie tylko jego przewidywalnemu sukcesowi z domyślnym progiem prawdopodobieństwa.