Badam różne metody klasyfikacji dla projektu, nad którym pracuję i jestem zainteresowany wypróbowaniem Losowych Lasów. Staram się kształcić na bieżąco i byłbym wdzięczny za wszelką pomoc ze strony społeczności CV.
Podzieliłem swoje dane na zestawy szkoleniowe / testowe. Po eksperymentach z losowymi lasami w R (przy użyciu pakietu randomForest) miałem problem z wysokim wskaźnikiem błędnej klasyfikacji dla mojej mniejszej klasy. Przeczytałem ten artykuł na temat wydajności losowych lasów na niezbilansowanych danych, a autorzy przedstawili dwie metody radzenia sobie z nierównowagą klas podczas korzystania z losowych lasów.
1. Ważone losowe lasy
2. Zrównoważone losowe lasy
Pakiet R nie pozwala na ważenie klas (z forów pomocy R, przeczytałem, że parametr classwt nie działa poprawnie i jest zaplanowany jako poprawka w przyszłości), więc mam opcję 2. Jestem w stanie określić liczba obiektów próbkowanych z każdej klasy dla każdej iteracji losowego lasu.
Nie podoba mi się ustawienie równych wielkości próbek dla losowych lasów, ponieważ tracę zbyt wiele informacji o większej klasie, co prowadzi do niskiej wydajności w przypadku przyszłych danych. Wskaźniki błędnej klasyfikacji przy zmniejszaniu próbkowania większej klasy okazały się poprawiać, ale zastanawiałem się, czy istnieją inne sposoby radzenia sobie z niezrównoważonymi rozmiarami klas w losowych lasach?