Czy do regresji liniowych można zastosować metodologię losowego lasu?

14

Losowe lasy pracują, tworząc zestaw drzew decyzyjnych, w których każde drzewo jest tworzone przy użyciu próbki początkowej oryginalnych danych treningowych (próbka zmiennych wejściowych i obserwacji).

Czy podobny proces można zastosować do regresji liniowej? Utwórz k modeli regresji liniowej za pomocą losowej próbki bootstrap dla każdej z k regresji

Z jakich powodów NIE należy tworzyć modelu „regresji losowej”?

Dzięki. Jeśli jest coś, czego zasadniczo nie rozumiem, proszę dać mi znać.

regression predictive-models ensemble

— Stóg
źródło

Podczas agregowania drzew podczas inicjalizacji ogólna funkcja regresji staje się coraz bardziej złożona z każdym dodanym drzewem. Z drugiej strony, gdy bootstrap agreguje funkcje liniowe formy a_0 + a_1 * x_1 + ... + a_d * x_d, wynikowa uśredniona funkcja liniowa (po agregacji bootstrap) nadal ma taką samą liniową formę funkcjonalną jak ta, od której zaczynasz (tj. „Podstawowy uczeń”).

— Andre Holzner,

1

@Andre Holzner - co mówisz, to prawda, ale, ale, ale ... robienie tego losowego forrestu jest właściwie formą regularyzacji, w klasie podobnej do grani. Powiem wam sekret, drzewo regresji jest w rzeczywistości modelem liniowym - klasa podobna do splajnów. po założeniu mojego kapelusza bayesowskiego losowy regulator forrest najprawdopodobniej odpowiadałby mniej więcej pierwszeństwom „spike and slab” stosowanym w kontekście bayesowskim.

— probabilislogiczny

@probabilityislogic, czy możesz to wyjaśnić?

— Simon Kuang

Możesz myśleć o drzewach jako o modelu liniowym

.

jest macierzą projektową wskazującą, do którego węzła końcowego należy każda obserwacja dla drzewa

, a

jest odpowiednim wektorem prognoz węzła końcowego. W ten sposób można opisać dowolne drzewo - wybór drzewa jest równoważny standardowemu wyborowi modelu liniowego w przestrzeni

- z których, jak sądzę, istnieją

możliwych konfiguracji „węzła końcowego” (gdzie

jest wielkością próbki treningowej).

y = Z_{t} θ_{t} + e

$y=Z_t\theta_t+e$

Z_{t}

$Z_t$

t

$t$

θ_{t}

$\theta_t$

Z_{t}

$Z_t$

2^{n}

$2^n$

n

$n$

— prawdopodobieństwo logiczne

5

Częściowo nie zgadzam się z obecnymi odpowiedziami, ponieważ metodologia losowego lasu jest zbudowana na wprowadzeniu wariancji (CARTy zbudowane na próbkach rozruchowych + metoda losowej podprzestrzeni), aby uczynić je niezależnymi. Gdy masz już ortogonalne drzewa, średnia ich prognoz (w wielu przypadkach) jest lepsza niż prognoza przeciętnego drzewa (z powodu nierówności Jensena). Chociaż CARTs mają zauważalne zalety, które podlegają temu zabiegowi, ta metodologia zdecydowanie ma zastosowanie do każdego modelu, a modele liniowe nie są wyjątkiem. Oto pakiet R, który jest dokładnie tym, czego szukasz. Prezentuje fajny samouczek, jak je dostroić i interpretować oraz bibliografię na ten temat: Losowe uogólnione modele liniowe .

— JEquihua
źródło

14

Aby umieścić odpowiedź @ ziggystar w kategoriach żargonu uczenia maszynowego: ideą technik agregacji bootstrapu (np. Random Forests) jest dopasowanie wielu modeli o niskiej stronniczości i dużej zmienności do danych z pewnym elementem „losowości” lub „niestabilności”. W przypadku losowych lasów niestabilność jest dodawana przez ładowanie początkowe i przez wybranie losowego zestawu funkcji do podziału każdego węzła drzewa. Uśredniając te hałaśliwe, ale słabo ukształtowane drzewa, łagodzi dużą wariancję każdego pojedynczego drzewa.

Podczas gdy drzewa regresji / klasyfikacji są modelami „o niskim odchyleniu i dużej zmienności”, modele regresji liniowej są zwykle przeciwne - „o dużym odchyleniu i niskiej wariancji”. Tak więc problemem, z którym często spotykają się modele liniowe, jest zmniejszenie nastawienia, a nie zmniejszenie wariancji. Agregacja bootstrap po prostu nie jest do tego stworzona.

Dodatkowym problemem jest to, że ładowanie początkowe może nie zapewniać wystarczającej „losowości” lub „niestabilności” w typowym modelu liniowym. Spodziewałbym się, że drzewo regresji będzie bardziej wrażliwe na losowość próbek bootstrap, ponieważ każdy liść zazwyczaj zawiera tylko garść punktów danych. Ponadto drzewa regresji można hodować stochastycznie, dzieląc drzewo na losowy podzbiór zmiennych w każdym węźle. Zobacz poprzednie pytanie, dlaczego jest to ważne: Dlaczego losowe lasy są dzielone na podstawie losowych cech?

Biorąc to wszystko pod uwagę, z pewnością można użyć ładowania początkowego w modelach liniowych [LINK] , co może być bardzo pomocne w niektórych kontekstach. Motywacja różni się jednak znacznie od technik agregacji bootstrapu.

— Alex Williams
źródło

Dzięki za linki i odpowiedź. Jeśli metoda losowości jest przydatna w przypadku modeli o „niskim odchyleniu i dużej zmienności”, czy istnieją jakieś metodologie radzenia sobie z modelami przeciwnego typu „o dużym odchyleniu i niskiej wariancji”?

— Rick

Jeśli masz model o niskim odchyleniu i wysokim wariancji, metodologie takie jak tworzenie worków mogą zmniejszyć wariancję przy niewielkim wzroście odchylenia. Jeśli masz wysokie odchylenie, niską wariancję, użyj modelu, który ma niższe odchylenie i wyższą wariancję - jak regresja wielomianowa lub bardziej ogólnie metody jądra.

— Joe

10

$k$ $k$

A oto dlaczego „losowe” wykonywanie modeli liniowych nie jest tak atrakcyjne, jak w przypadku drzew decyzyjnych:

Duże drzewo decyzyjne utworzone z dużej próbki najprawdopodobniej przewyższa dane, a metoda losowego lasu zwalcza ten efekt, polegając na głosowaniu wielu małych drzew.

Z drugiej strony regresja liniowa jest modelem, który nie jest zbyt podatny na nadmierne dopasowanie i dlatego nie szkodzi jej szkolenie na początku na całej próbce. I nawet jeśli masz wiele zmiennych regresora, możesz zastosować inne techniki, takie jak regularyzacja, aby zwalczyć nadmierne dopasowanie.

— ziggystar
źródło

0

Zgadzam się z @ziggystar. Jako liczba próbek bootstrap $k$

X_{1}, X_{2}, . . ., X_{n} \sim B e (p)

$X_1, X_2, ..., X_n \sim Be(p)$

p

$p$

1 - p

$1-p$

θ = 1_{{p > 0}}

$\theta = 1_{\{p > 0\}}$ i spróbujmy go oszacować. Oczywiście wystarczy zobaczyć pojedynczy punkt danych

X_{i} = 1

$X_i = 1$

θ = 1

$\theta = 1$

θ

$\theta$

θ

$\theta$

{B i a s}_{b a g g i n g} = P r o b (i n a b o o t s t r a p s a m p l e X_{(1)} = . . . = X_{(n)} = 0) > 0,

${\rm Bias}_{\rm\ bagging} = {\rm Prob(in\ a\ bootstrap\ sample\ X_{(1)} = ... = X_{(n)} = 0)} > 0,$

θ = 1

$\theta = 1$

— stans - Przywróć Monikę
źródło