Myślę, że jest to proste pytanie, chociaż uzasadnienie dlaczego lub dlaczego nie może być. Powodem, dla którego pytam, jest to, że niedawno napisałem własną implementację RF i chociaż działa on dobrze, nie działa tak dobrze, jak się spodziewałem (na podstawie zestawu danych konkursowych Kaggle Photo Quality Prediction , zwycięskich wyników i niektórych dostępne informacje o dostępnych technikach).
Pierwszą rzeczą, którą robię w takich okolicznościach, jest błąd prognozowania wykresu dla mojego modelu, więc dla każdej podanej wartości przewidywania określam średnie odchylenie (lub odchylenie) od właściwej wartości docelowej. Dla mojego RF dostałem ten wykres:
Zastanawiam się, czy jest to często obserwowany wzór odchylenia dla RF (jeśli nie, to może być może coś specyficznego dla zbioru danych i / lub mojej implementacji). Mogę oczywiście użyć tego wykresu, aby poprawić przewidywania, używając go do wyrównania błędu, ale zastanawiam się, czy w samym modelu RF istnieje bardziej fundamentalny błąd lub wada, która wymaga rozwiązania. Dziękuję Ci.
== DODATEK ==
Moje pierwsze dochodzenie znajduje się w tym wpisie na blogu Random Forest Bias - Update