Chciałem wiedzieć, co oznacza parametr n.minobsinnode w pakiecie GBM. Przeczytałem instrukcję, ale nie jest jasne, co robi. Czy liczba ta powinna być mała czy duża, aby poprawić wyniki?
Chciałem wiedzieć, co oznacza parametr n.minobsinnode w pakiecie GBM. Przeczytałem instrukcję, ale nie jest jasne, co robi. Czy liczba ta powinna być mała czy duża, aby poprawić wyniki?
Odpowiedzi:
Na każdym etapie algorytmu GBM budowane jest nowe drzewo decyzyjne. Pytanie, kiedy rośnie drzewo decyzyjne, brzmi „kiedy przestać?”. Najdalej możesz przejść do podziału każdego węzła, aż będzie tylko jedna obserwacja w każdym węźle końcowym. Odpowiadałoby to n.minobsinnode = 1. Alternatywnie, podział węzłów może zostać przerwany, gdy w każdym węźle znajduje się pewna liczba obserwacji. Domyślna wartość pakietu R GBM to 10.
Jakiej wartości najlepiej użyć? To zależy od zestawu danych i tego, czy przeprowadzasz klasyfikację, czy regresję. Ponieważ przewidywanie każdego drzewa jest traktowane jako średnia zmiennej zależnej wszystkich danych wejściowych w węźle końcowym, wartość 1 prawdopodobnie nie będzie działać tak dobrze w przypadku regresji (!), Ale może być odpowiednia do klasyfikacji.
Wyższe wartości oznaczają mniejsze drzewa, dzięki czemu algorytm działa szybciej i zużywa mniej pamięci, co może być brane pod uwagę.
Zasadniczo wyniki nie są bardzo wrażliwe na ten parametr, a biorąc pod uwagę stochastyczny charakter wydajności GBM, określenie dokładnej wartości „najlepszej” może być trudne. Głębokość interakcji, skurcz i liczba drzew będą ogólnie znacznie bardziej znaczące.