Jak włączyć losowe efekty (lub powtarzane pomiary) do randomForest


22

Nie jestem nawet pewien, czy pytanie ma sens, ale wydaje mi się, że widziałem kilka tytułów artykułów, w których zaproponowano losowy las z losowymi efektami. Czy jest to możliwe w R?


1
Tak, to nie ma większego sensu. Co rozumiesz przez przypadkowe efekty?
Simone

Mam na myśli coś podobnego do tego, co możesz zrobić z funkcją lmer, w której możesz dołączyć losowy efekt jako (efekt 1 |).
mguzmann


2
Nie jestem całkiem pewien, jaki rodzaj losowości to metody, na które patrzysz. Losowe lasy to prosta poprawa w stosunku do workowania poprzez dekorowanie drzewa. Powodem, dla którego nazywany jest „losowym”, jest fakt, że w każdym przypadku, gdy rozważane jest rozszczepienie w drzewie, kandydat na podzielony wybierany jest z losowego podzbioru m np. Predyktorów p. Zwykle m ~ sqrt (p). I za każdym razem, gdy dochodzi do podziału, wybierany jest losowy podzbiór predyktorów, stąd losowy las.
psteelk

Odpowiedzi:


13

Nie są one powszechnie stosowane razem, dlatego należy zachować ostrożność przed ich połączeniem.

Losowe lasy są zwykle używane jako klasyfikatory. Powodem, dla którego użyjesz losowego lasu zamiast innej metody (np. K-oznacza grupowanie) jest to, że możesz mieć dużą liczbę wymiarów, według których chcesz sklasyfikować. Problem z dużą liczbą wymiarów polega na tym, że jeśli chcesz przetestować wszystkie kombinacje rzędów wymiarów, będziesz mieć dużą liczbę opcji (rośnie szybciej niż liczba silni wymiarów).

Losowe efekty są zwykle stosowane w regresji z powtarzanymi pomiarami tego samego. Są one powszechnie stosowane w modelach efektów mieszanych, w których pojęcie mieszane odnosi się zarówno do efektów stałych, jak i losowych. Uważa się, że ustalone efekty reprezentują parametry, które zobaczysz ponownie (np. Lek lub wiek osoby). Uważa się, że efekty losowe reprezentują przypadek zmienności wokół parametru, którego już nie zobaczysz (np. Konkretna osoba).

Istnieją przykłady używania ich razem, gdy istnieją dane klastrowe http://dx.doi.org/10.1080/00949655.2012.741599 i http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Nie znam żadnych pakietów R, które mogą wykonać tę analizę.


2
Ponadto autorzy tej pracy chętnie podzielą się z tobą kodem R ich implementacji. Po prostu napisz do nich. Tak zrobiłem.
Brash Equilibrium

Skontaktowałem się z Larocque, który skontaktował się z Hajjamem, który przesłał mi e-mail w ciągu kilku dni.
Brash Equilibrium

2
Jednak uczciwe ostrzeżenie, dostępny kod R implementuje tylko losowy las dla ciągłych danych. Musisz go rozszerzyć, aby obsługiwał dane kategoryczne.
Brash Equilibrium

10

Tak, to możliwe. Powinieneś sprawdzić „ RE-EM Drzewa: Podejście eksploracji danych dla danych wzdłużnych i klastrowych ” oraz powiązany pakiet R REEMtree .

Minęło trochę czasu, odkąd spojrzałem na gazetę. Pamiętam, że autorzy nie próbowali jeszcze tworzyć zespołów tych drzew, ale nic nie sugerowało, że to nie zadziała.


1
REEMtree nie jest losowymi efektami stosowanymi do losowych lasów. Jest stosowany do partycjonowania rekurencyjnego, które jest tylko częścią tego, co wchodzi w losowy model lasu. Więc nie sądzę, że ta odpowiedź zasługuje na wyższy wynik niż Bill Denney. Niestety mój głos w tej sprawie jest zablokowany.
Brash Equilibrium,

1
Chodź, kiedy już masz drzewo, jak ciężko jest zbudować las? I nie ma za co.
Ben Ogorek,

1
Cóż, widząc, jak losowy las dodaje się do próbkowania bootstrap, dostrajając liczbę losowo wybranych funkcji do wypróbowania, agregacji wyników drzewa itp. I potrzebujemy losowego wpływu na losowe prognozy lasu, a nie prognozy poszczególnych drzew w tym las, rozszerzenie REEMtree nie jest tak dobrym rozwiązaniem, jak przeczytanie artykułu cytowanego przez Billa i zażądanie kodu R od jego autorów.
Brash Equilibrium

8

Mieszane efekty Losowe lasy (MERF) to coś. Jak wynika z powyższej odpowiedzi, istnieje kilka świetnych badań na ten temat przeprowadzonych przez grupę dr Larocque'a w HEC Montreal. Artykuł znajduje się tutaj: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Zasadniczo jest to teoretycznie rozsądny sposób łączenia nieliniowego modelowania losowych lasów z liniowymi efektami losowymi.

Właśnie wydaliśmy pakiet open source w Pythonie implementujący MERF przy użyciu powyższego algorytmu w artykule.

Napisaliśmy szczegółowy post na blogu o pakiecie i tym, jak go używać do klastrowych zestawów danych.


1
wszelkie przemyślenia na temat implementacji tego w R lub dodania funkcjonalności wykresu częściowej zależności
OliverFishCode
Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.