W Random Forest każde drzewo jest uprawiane równolegle na unikalnej próbce danych doładowania. Ponieważ oczekuje się, że każda próbka przypominająca zawiera około 63% unikalnych obserwacji, pozostawia to około 37% obserwacji, które można wykorzystać do testowania drzewa.
Teraz wydaje się, że w Stochastic Gradient Boosting istnieje również oszacowanie podobne do tego w RF:
Jeśli frakcja bag. jest ustawiona na wartość większą niż 0 (zalecane 0,5), gbm oblicza oszacowanie poprawy wydajności predykcyjnej po wyjęciu z torby. Ocenia zmniejszenie dewiacji na podstawie obserwacji niewykorzystanych przy wyborze następnego drzewa regresji.
Źródło: Ridgeway (2007) , sekcja 3.3 (strona 8).
Mam problem ze zrozumieniem, jak to działa / jest ważne. Powiedzmy, że dodaję drzewo w sekwencji. Uprawiam to drzewo na losowej podpróbce oryginalnego zestawu danych. Mogłem przetestować to pojedyncze drzewo na podstawie obserwacji, które nie zostały wykorzystane do jego wyhodowania. Zgoda. ALE , ponieważ wzmocnienie jest sekwencyjne, raczej używam całej sekwencji drzew zbudowanych do tej pory, aby przewidzieć te pomijane obserwacje. I istnieje duża szansa, że wiele poprzednich drzew widziało już te obserwacje. Więc model nie jest tak naprawdę testowany w każdej rundzie na niewidzialnych obserwacjach, takich jak RF, prawda?
Dlaczego więc nazywa się to szacunkiem błędu „po wyjęciu z torby”? Dla mnie nie wydaje się, że „wyszedł” z jakiejkolwiek torby, skoro obserwacje już widzieliśmy?