W moim rozumieniu wysoce skorelowane zmienne nie spowodują problemów z wieloma kolinearnością w losowym modelu lasu (proszę mnie poprawić, jeśli się mylę). Jednak z drugiej strony, jeśli mam zbyt wiele zmiennych zawierających podobne informacje, czy model będzie ważył za dużo na tym zestawie, a nie na innych?
Na przykład istnieją dwa zestawy informacji (A, B) o tej samej mocy predykcyjnej. Zmienna , , ... wszystkie zawierają informacje A, a tylko Y zawiera informacje B. W przypadku losowych zmiennych próbkowania większość drzew wyrośnie na podstawie informacji A, w wyniku czego informacja B nie zostanie w pełni uchwycona ?
multicollinearity
że NIE ma wpływu na losowy model lasu. Na przykład tutaj najbardziej pozytywna odpowiedź mówi, że „żadna część losowego modelu lasu nie jest uszkodzona przez wysoce współliniowe zmienne”. Czy to ma jakąkolwiek ważność?