Używam pakietu randomForest w R do opracowania losowego modelu lasu w celu wyjaśnienia ciągłego wyniku w „szerokim” zestawie danych z większą liczbą predyktorów niż próbek.
W szczególności dopasowuję jeden model RF, umożliwiając procedurze wybranie zestawu ~ 75 zmiennych predykcyjnych, które moim zdaniem są ważne.
Testuję, jak dobrze ten model przewiduje rzeczywisty wynik dla zarezerwowanego zestawu testowego, wykorzystując podejście opisane tutaj wcześniej , a mianowicie:
... lub w R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Ale teraz mam dodatkowe ~ 25 zmiennych predykcyjnych, które mogę dodać. Przy użyciu zestawu ~ 100 predyktorów, R² jest wyższy. Chcę to przetestować statystycznie, innymi słowy, używając zestawu ~ 100 predyktorów, czy model testuje znacznie lepiej w testowaniu danych niż dopasowanie modelu przy użyciu ~ 75 predyktorów. To znaczy, że R² od testowania dopasowania modelu RF w pełnym zbiorze danych jest znacznie wyższy niż R² od przetestowania modelu RF w zredukowanym zbiorze danych.
Jest to dla mnie ważne, aby to przetestować, ponieważ są to dane pilotażowe, a zdobycie dodatkowych 25 predyktorów było kosztowne i muszę wiedzieć, czy powinienem zapłacić za pomiar tych predyktorów w większym badaniu uzupełniającym.
Próbuję wymyślić jakieś podejście do ponownego próbkowania / permutacji, ale nic nie przychodzi mi do głowy.