Mam 100 000 obserwacji (9 zmiennych fikcyjnych) z 1000 pozytywów. Regresja logistyczna powinna w tym przypadku działać dobrze, ale prawdopodobieństwo odcięcia mnie zastanawia.
W powszechnej literaturze wybieramy 50% wartości odcięcia, aby przewidzieć 1 i 0. Nie mogę tego zrobić, ponieważ mój model daje maksymalną wartość ~ 1%. Więc próg może wynosić 0,007 lub gdzieś wokół niego.
Rozumiem ROC
krzywe i jak obszar pod krzywą może pomóc mi wybrać między dwoma modelami LR dla tego samego zestawu danych. Jednak ROC nie pomaga mi wybrać optymalnego prawdopodobieństwa odcięcia, którego można użyć do przetestowania modelu na danych poza próbą.
Czy powinienem po prostu użyć wartości odcięcia, która minimalizuje misclassification rate
? ( http://www2.sas.com/proceedings/sugi31/210-31.pdf )
Dodano -> W przypadku tak niskiego wskaźnika zdarzeń na moje wskaźniki błędnej klasyfikacji wpływa ogromna liczba fałszywych trafień. Chociaż stopa wydaje się dobra, ponieważ całkowity rozmiar wszechświata jest również duży, ale mój model nie powinien mieć tylu fałszywych wyników pozytywnych (ponieważ jest to model zwrotu z inwestycji). 5/10 współczynników jest znaczących.