Mam więc macierz o wymiarach około 60 x 1000. Patrzę na nią jako na 60 obiektów z 1000 cechami; 60 obiektów jest pogrupowanych w 3 klasy (a, b, c). 20 obiektów w każdej klasie i znamy prawdziwą klasyfikację. Chciałbym przeprowadzić nadzorowaną naukę na tym zestawie 60 przykładów szkoleniowych. Interesuję się zarówno dokładnością klasyfikatora (i powiązanymi wskaźnikami), jak i wyborem funkcji dla 1000 funkcji.
Po pierwsze, jak wygląda moja nomenklatura?
Teraz prawdziwe pytanie:
Mogłem rzucić na nią losowe lasy, jak podano, lub dowolną liczbę innych klasyfikatorów. Ale jest subtelność - naprawdę zależy mi tylko na odróżnieniu klasy c od klas a i b. Mógłbym połączyć klasy a i b, ale czy istnieje dobry sposób na wykorzystanie wiedzy a priori, że wszystkie obiekty inne niż c prawdopodobnie tworzą dwie odrębne klastry? Wolałbym używać losowych lasów lub ich wariantów, ponieważ wykazano, że są skuteczne w przypadku danych podobnych do moich. Ale mogę przekonać się do innych podejść.