Nigdy tak naprawdę nie znalazłem żadnego dobrego tekstu ani przykładów na temat obsługi „nieistniejących” danych dla danych wejściowych do dowolnego rodzaju klasyfikatora. Dużo czytałem o brakujących danych, ale co można zrobić z danymi, które nie mogą istnieć lub nie istnieją w odniesieniu do danych wejściowych na wielu odmianach. Rozumiem, że to bardzo złożone pytanie i będzie się różnić w zależności od zastosowanych metod szkoleniowych ...
Np. Jeśli próbujesz przewidzieć czas postoju dla kilku biegaczy z dobrymi dokładnymi danymi. Wśród wielu danych wejściowych możliwe są między innymi zmienne:
- Zmienna wejściowa - Pierwszy biegacz (T / N)
- Zmienna wejściowa - poprzedni czas laptime (0-500 sekund)
- Zmienna wejściowa - wiek
- Zmienna wejściowa - wysokość. . . wiele innych zmiennych wejściowych itp
& Output Predictor - Przewidywany czas pracy (0 - 500 sekund)
„Brakującą zmienną” dla „2. Wcześniejszego czasu oczekiwania” można obliczyć na kilka sposobów, ale „1. Pierwszy biegacz zawsze będzie równy N. Ale dla „NIEDOSTĘPNYCH DANYCH” dla pierwszego biegacza (gdzie „1. Pierwszy raz biegacz” = Y) jaką wartość / leczenie powinienem podać dla „2. Poprzedni czas laptime?
Na przykład przypisując „2. Poprzedni czas laptime jako -99 lub 0 może dramatycznie wypaczyć dystrybucję i sprawić, że nowy biegacz osiągnie dobre wyniki.
Moje obecne metody szkoleniowe wykorzystują regresję logistyczną, SVM, NN i drzewa decyzyjne