Istnieją dwa źródła wariancji OOB. Jednym z nich jest losowość samej procedury; można to zmniejszyć poprzez zwiększenie liczby drzew.
Drugim źródłem wariancji jest nieredukowalna niedoskonałość posiadania ograniczonych danych i życia w złożonym świecie. Zwiększenie liczby drzew nie może tego naprawić.
Ponadto czasami po prostu nie ma wystarczających danych, aby rozwiązać problem. Wyobraźmy sobie na przykład, że dwa wystąpienia mają przeciwne etykiety, ale identyczne wartości funkcji. Jedna z tych próbek zawsze będzie błędnie sklasyfikowana. (Jest to skrajny przykład, ale ilustruje, jak niektóre problemy są nierozwiązywalne. Możemy go nieco rozluźnić, biorąc pod uwagę niewielką perturbację jednego wektora; teraz zwykle będzie klasyfikowany tak samo jak jego bliźniak, ale nie zawsze.) Aby rozwiązać ten problem , musisz zebrać dodatkowe pomiary, aby dodatkowo rozróżnić dwa punkty.
Zwiększenie liczby drzew może jednak zmniejszyć wariancję oszacowania czegoś takiego jak . Rozważ wyniki centralnego twierdzenia granicznego: zwiększenie wielkości próby może zmniejszyć wariancję statystyki jak średnia, ale nie wyeliminować jej. Losowe prognozy lasu są średnią wszystkich prognoz drzew, a te prognozy same w sobie są zmiennymi losowymi (z powodu ładowania początkowego i losowego podzbioru funkcji; oba są niezależne, więc głosy również są ważne). CLT zapewnia, że zbliża się do rozkładu normalnego , gdzie jest prawdziwą średnią prognozą ip(y=1|x)x¯x¯x¯∼N(μ,σ2n)μσ2to wariancja głosów drzew. (Głosy przyjmują wartości 0 lub 1, więc średnia głosów ma wariancję skończoną.) Chodzi o to, że podwojenie liczby drzew zmniejszy wariancję połowę, ale nie doprowadzi do zero. x¯(Z wyjątkiem sytuacji, gdy , ale wiemy, że tak nie jest.)σ2=0
Nieredukowalnej wariancji nie można naprawić za pomocą ładowania początkowego. Ponadto losowe lasy są już ładowane; jest to część powodu, że ma w nazwie „losowy”. (Innym powodem jest losowy podzbiór funkcji przy każdym podziale).