Czy modelowanie za pomocą losowych lasów wymaga krzyżowej weryfikacji?

O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet Trevor Hastie w stosunkowo niedawnych rozmowach mówi, że „Losowe lasy zapewniają bezpłatną weryfikację krzyżową”. Intuicyjnie ma to dla mnie sens, jeśli trenuję i próbuję ulepszyć model oparty na RF na jednym zbiorze danych.

Jakie jest twoje zdanie na ten temat?

— neuron
źródło

nie odnosi się to do głównego punktu pytania - ale prawdopodobnie nadal chcesz krzyżowo zweryfikować parametry drugorzędne (takie jak głębokość drzew itp.)

— Wouter

Możesz użyć RF lub porównać go z innymi podejściami pod względem wydajności w zestawie treningowym lub użyć niezależnego / podzbioru danych do przetestowania wydajności. Jest to kwestia twojej hipotezy: czy próbujesz uogólnić wyniki na większą populację, czy po prostu klasyfikować dostępne dane, a nie właściwość RF.

— katya

$1-(1-\frac{1}{N})^N \approx 1-e^{-1} \approx 0.6$

Jak wskazuje @Wouter, prawdopodobnie będziesz chciał przeprowadzić walidację krzyżową w celu dostrajania parametrów, ale jako oszacowanie błędu zestawu testowego błąd OOB powinien być w porządku.

— einar
źródło