Jestem całkiem nowy w uczeniu maszynowym, technikach CART i tym podobnych, i mam nadzieję, że moja naiwność nie jest zbyt oczywista.
Jak Random Forest obsługuje wielopoziomowe / hierarchiczne struktury danych (na przykład, gdy interesująca jest interakcja między poziomami)?
Oznacza to, że zestawy danych z jednostkami analizy na kilku poziomach hierarchicznych ( np. Uczniowie zagnieżdżeni w szkołach, z danymi o uczniach i szkołach).
Jako przykład weźmy pod uwagę wielopoziomowy zestaw danych z osobami na pierwszym poziomie ( np. Z danymi dotyczącymi głosowania, danymi demograficznymi itp.) Zagnieżdżonymi w krajach na drugim poziomie (z danymi na poziomie kraju; np. Populacja):
ID voted age female country population
1 1 19 1 1 53.01
2 1 23 0 1 53.01
3 0 43 1 1 53.01
4 1 27 1 1 53.01
5 0 67 0 1 53.01
6 1 34 1 2 47.54
7 0 54 1 2 47.54
8 0 22 1 2 47.54
9 0 78 0 2 47.54
10 1 52 0 2 47.54
Powiedzmy, że voted
jest to zmienna odpowiedzi / zależna, a pozostałe to zmienne predykcyjne / niezależne. W tego rodzaju przypadkach, marginesu krańcowych skutków zmiennej (częściowy) na zależność od pewnego zmiennej wyższego poziomu ( na przykład , population
) dla różnych zmiennych, na poziomie indywidualnym, itd., Mogą być bardzo interesujące. W przypadku podobnym do tego glm
jest oczywiście bardziej odpowiednie - ale gdy istnieje wiele zmiennych, interakcji i / lub brakujących wartości i / lub zestawów danych na bardzo dużą skalę itp., glm
Nie jest tak wiarygodny.
Podpytania: Czy Random Forest może w jakiś sposób jawnie poradzić sobie z tego rodzaju strukturą danych? Jeśli zastosuje się go niezależnie, jaki rodzaj uprzedzenia to wprowadza? Jeśli Losowy Las nie jest odpowiedni, czy istnieje jakakolwiek inna metoda typu zespołu?
(Pytanie Losowy las na zgrupowane dane jest może podobny, ale tak naprawdę nie odpowiada na to.)