Czy losowy las wymaga skalowania lub wyśrodkowania zmiennych wejściowych?


16

Moje zmienne wejściowe mają różne wymiary. Niektóre zmienne są dziesiętne, a niektóre setne. Czy konieczne jest wyśrodkowanie (odjęcie średniej) lub skalowanie (podzielenie przez odchylenie standardowe) tych zmiennych wejściowych, aby dane były bezwymiarowe podczas korzystania z losowego lasu?

Odpowiedzi:


30

Nie.

Lasy losowe są oparte na algorytmach podziału drzewa.

Jako taki, nie ma analogii do współczynnika uzyskiwanego w ogólnych strategiach regresji, który byłby zależny od jednostek zmiennych niezależnych. Zamiast tego uzyskuje się zbiór reguł partycji, w zasadzie decyzję o progu, i to nie powinno się zmieniać wraz ze skalowaniem. Innymi słowy, drzewa widzą tylko rangi w cechach.

Zasadniczo każda monotoniczna transformacja danych nie powinna w ogóle zmieniać lasu (w najczęstszych implementacjach).

Ponadto drzewa decyzyjne są zwykle odporne na niestabilności numeryczne, które czasami pogarszają zbieżność i precyzję innych algorytmów.


0

Ogólnie zgadzam się z Firebug, ale może być pewna wartość w standaryzacji zmiennych, jeśli interesują cię oceny ważności predyktorów. RF będzie sprzyjać bardzo zmiennym predyktorom ciągłym, ponieważ istnieją większe możliwości podziału danych na partycje. Lepszym sposobem na poradzenie sobie z tym problemem jest jednak stosowanie określonych podejść (tj. Pobieranie próbek bez zastępowania przy użyciu lasów warunkowych), które są bardziej odporne na to nastawienie. Zobacz https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25


1
Witamy na stronie. Staramy się zbudować stałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi. Dlatego też obawiamy się odpowiedzi typu „tylko link” z powodu linkrot. Czy możesz zamieścić pełny cytat i podsumowanie informacji pod linkiem, na wypadek gdyby zgasły?
gung - Przywróć Monikę
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.