Czy losowy las regresji jest „prawdziwą” regresją?


18

Do regresji wykorzystywane są losowe lasy. Jednak z tego, co rozumiem, przypisują średnią wartość docelową na każdym liściu. Ponieważ w każdym drzewie jest tylko ograniczona liczba liści, istnieją tylko określone wartości, które cel może uzyskać z naszego modelu regresji. Czy zatem nie jest to regresja „dyskretna” (jak funkcja krokowa), a nie regresja liniowa, która jest „ciągła”?

Czy rozumiem to poprawnie? Jeśli tak, jaką korzyść oferuje losowy las w regresji?


Odpowiedzi:


23

To prawda - losowe lasy dyskrecjonują zmienne ciągłe, ponieważ są oparte na drzewach decyzyjnych, które działają poprzez rekurencyjne partycjonowanie binarne. Ale przy wystarczających danych i wystarczających podziałach funkcja krokowa z wieloma małymi krokami może w przybliżeniu działać płynnie. To nie musi być problem. Jeśli naprawdę chcesz uchwycić płynną odpowiedź za pomocą pojedynczego predyktora, obliczasz częściowy wpływ dowolnej konkretnej zmiennej i dopasowujesz do niej gładką funkcję (nie wpływa to na sam model, który zachowa ten charakter krokowy).

Losowe lasy oferują kilka zalet w stosunku do standardowych technik regresji dla niektórych aplikacji. Wspomnieć tylko trzy:

  1. Pozwalają na użycie dowolnie wielu predyktorów (możliwe jest więcej predyktorów niż punktów danych)
  2. Mogą aproksymować złożone kształty nieliniowe bez specyfikacji apriorycznej
  3. Mogą uchwycić złożone interakcje między prognozami bez specyfikacji a priori .

Jeśli chodzi o to, czy jest to „prawdziwa” regresja, jest to nieco semantyczne. W końcu regresja cząstkowa jest również regresją, ale również nie jest gładka. Jak każda regresja z predyktorem jakościowym, jak wskazano w komentarzach poniżej.


7
Ponadto regresja z tylko kategorycznymi cechami również nie byłaby płynna.
Tim

3
Czy regresja z choćby jedną kategoryczną cechą może być płynna?
Dave

4

Jest dyskretny, ale wówczas każdy wynik w postaci liczby zmiennoprzecinkowej ze stałą liczbą bitów będzie dyskretny. Jeśli drzewo ma 100 liści, może dać 100 różnych liczb. Jeśli masz 100 różnych drzew, z których każde ma po 100 liści, teoretycznie Twój losowy las może mieć 100 ^ 100 różnych wartości, co daje 200 (dziesiętnych) cyfr precyzji lub ~ 600 bitów. Oczywiście będzie się nakładać, więc tak naprawdę nie zobaczysz 100 ^ 100 różnych wartości. Dystrybucja staje się bardziej dyskretna, im bardziej dochodzisz do skrajności; każde drzewo będzie miało jakiś minimalny liść (liść, który daje wynik, który jest mniejszy lub równy wszystkim pozostałym liściom), a kiedy zdobędziesz minimalny liść z każdego drzewa, nie możesz obniżyć go. Będzie więc minimalna ogólna wartość dla lasu, a kiedy odejdziesz od tej wartości, zaczniesz od wszystkich drzew z wyjątkiem kilku, które mają minimalny liść, robiąc małe odchylenia od minimalnej wartości wzrostu w skokach dyskretnych. Jednak obniżona niezawodność w skrajnościach jest właściwością regresji w ogóle, a nie tylko przypadkowych lasów.


Liście mogą przechowywać dowolną wartość z danych treningowych (więc przy odpowiednich danych treningowych 100 drzew na 100 liści może przechowywać do 10 000 różnych wartości). Ale zwrócona wartość jest średnią wybranego liścia z każdego drzewa. Tak więc liczba bitów precyzji tej wartości jest taka sama, niezależnie od tego, czy masz 2 drzewa, czy 100 drzew.
Darren Cook

3

Odpowiedź będzie zależeć od twojej definicji regresji, zobacz Definicja i delimitacja modelu regresji . Ale zwykłą definicją (lub częścią definicji) jest to, że regresja modeluje warunkowe oczekiwanie . A drzewo regresji można rzeczywiście postrzegać jako estymator warunkowych oczekiwań.

W węzłach liści przewidujesz średnią z obserwacji próbki osiągających ten liść, a średnia arytmetyczna jest estymatorem oczekiwań. Wzór rozgałęzienia w drzewie reprezentuje warunkowanie.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.