Jestem całkiem nowy w losowych lasach. W przeszłości zawsze porównywałem dokładność dopasowania vs test z dopasowaniem vs pociągiem, aby wykryć przeregulowanie. Ale właśnie przeczytałem tutaj, że:
„W losowych lasach nie ma potrzeby weryfikacji krzyżowej ani oddzielnego zestawu testowego, aby uzyskać obiektywne oszacowanie błędu zestawu testowego. Jest ono szacowane wewnętrznie podczas przebiegu ...”
Mały akapit powyżej znajduje się w sekcji Szacowanie błędu braku opakowania (OOB) . Ta koncepcja błędu wyjęcia z torby jest dla mnie zupełnie nowa i nieco mylące jest to, że błąd OOB w moim modelu wynosi 35% (lub 65% dokładności), ale jeśli zastosuję weryfikację krzyżową do moich danych (zwykły błąd) metoda) i porównaj oba dopasowanie vs test z dopasowaniem vs pociąg Otrzymuję odpowiednio 65% i 96% dokładności. Z mojego doświadczenia wynika, że jest to uważane za nadmierne dopasowanie, ale OOB zawiera błąd 35%, podobnie jak mój błąd dopasowania vs błąd testu . Czy jestem zbyt dobry? Czy powinienem nawet stosować krzyżową weryfikację, aby sprawdzić, czy w przypadkowych lasach nie występuje nadmierne dopasowanie?
Krótko mówiąc, nie jestem pewien, czy powinienem ufać OOB, aby uzyskać bezstronny błąd błędu zestawu testowego, gdy mój dopasowanie vs pociąg wskazuje, że jestem przeregulowany!