Analizowałem zestaw danych ~ 400 000 rekordów i 9 zmiennych Zmienna zależna jest binarna. Dopasowałem regresję logistyczną, drzewo regresji, losowy las i drzewo wzmocnione gradientem. Wszystkie z nich dają wirtualną identyczną wartość dopasowania numerów, gdy sprawdzam je na innym zbiorze danych.
Dlaczego tak jest? Zgaduję, że dzieje się tak, ponieważ moje obserwacje w stosunku do zmiennych są tak wysokie. Jeśli jest to poprawne, przy jakiej obserwacji do zmiennej proporcji różne modele zaczną dawać różne wyniki?