Rola parametru n.minobsinnode w GBM w R [zamknięte]


21

Chciałem wiedzieć, co oznacza parametr n.minobsinnode w pakiecie GBM. Przeczytałem instrukcję, ale nie jest jasne, co robi. Czy liczba ta powinna być mała czy duża, aby poprawić wyniki?


9
„Jest mało prawdopodobne, aby to pytanie pomogło przyszłym użytkownikom”. Jestem przyszłym gościem i uznałem to za pomocne.
Flądrowiec

1
Uznałem to również za pomocne.
oaxacamatt

Odpowiedzi:


25

Na każdym etapie algorytmu GBM budowane jest nowe drzewo decyzyjne. Pytanie, kiedy rośnie drzewo decyzyjne, brzmi „kiedy przestać?”. Najdalej możesz przejść do podziału każdego węzła, aż będzie tylko jedna obserwacja w każdym węźle końcowym. Odpowiadałoby to n.minobsinnode = 1. Alternatywnie, podział węzłów może zostać przerwany, gdy w każdym węźle znajduje się pewna liczba obserwacji. Domyślna wartość pakietu R GBM to 10.

Jakiej wartości najlepiej użyć? To zależy od zestawu danych i tego, czy przeprowadzasz klasyfikację, czy regresję. Ponieważ przewidywanie każdego drzewa jest traktowane jako średnia zmiennej zależnej wszystkich danych wejściowych w węźle końcowym, wartość 1 prawdopodobnie nie będzie działać tak dobrze w przypadku regresji (!), Ale może być odpowiednia do klasyfikacji.

Wyższe wartości oznaczają mniejsze drzewa, dzięki czemu algorytm działa szybciej i zużywa mniej pamięci, co może być brane pod uwagę.

Zasadniczo wyniki nie są bardzo wrażliwe na ten parametr, a biorąc pod uwagę stochastyczny charakter wydajności GBM, określenie dokładnej wartości „najlepszej” może być trudne. Głębokość interakcji, skurcz i liczba drzew będą ogólnie znacznie bardziej znaczące.

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.