Wielokrotnie analizowałem zestaw danych, na którym tak naprawdę nie mogłem dokonać żadnej klasyfikacji. Aby sprawdzić, czy mogę uzyskać klasyfikator, zwykle wykonałem następujące czynności:
- Wygeneruj wykresy pudełkowe etykiety na podstawie wartości liczbowych.
- Zmniejsz wymiarowość do 2 lub 3, aby zobaczyć, czy klasy można rozdzielić, czasami także próbowałem LDA.
- Staraj się dopasować SVM i losowe lasy i przyjrzyj się istotności funkcji, aby zobaczyć, czy mają one sens, czy nie.
- Spróbuj zmienić równowagę klas i technik, takich jak niepełne pobieranie próbek i nadmierne pobieranie próbek, aby sprawdzić, czy brak równowagi klas może być problemem.
Istnieje wiele innych podejść, o których mogę myśleć, ale nie próbowałem. Czasami wiem, że te funkcje nie są dobre i wcale nie są związane z etykietą, którą próbujemy przewidzieć. Następnie używam intuicji biznesowej, aby zakończyć ćwiczenie, stwierdzając, że potrzebujemy lepszych funkcji lub zupełnie innych etykiet.
Moje pytanie brzmi: w jaki sposób specjalista ds. Danych informuje, że klasyfikacji nie można przeprowadzić za pomocą tych funkcji. Czy istnieje jakiś statystyczny sposób, aby to zgłosić lub najpierw dopasować dane do różnych algorytmów, a sprawdzenie metryki walidacji jest najlepszą opcją?