W procedurze rpart () do tworzenia modeli CART określasz parametr złożoności, do którego chcesz przyciąć drzewo. Widziałem dwie różne rekomendacje dotyczące wyboru parametru złożoności:
Wybierz parametr złożoności związany z minimalnym możliwym błędem walidowanym krzyżowo. Ta metoda jest zalecana przez Quick-R i HSAUR.
Wybierz parametr największej złożoności, którego szacowany błąd zweryfikowany krzyżowo nadal mieści się w SE od minimalnego możliwego błędu potwierdzonego krzyżowo. To jest moja interpretacja dokumentacji pakietu, która mówi: „Dobry wybór cp do przycinania jest często wartością skrajnie lewą, dla której średnia leży poniżej linii poziomej” w odniesieniu do tego wykresu .
Dwie opcje cp dają całkiem różne drzewa w moim zbiorze danych.
Wydaje się, że pierwsza metoda zawsze da bardziej złożone, potencjalnie nadmiernie dopasowane drzewo. Czy istnieją inne zalety, wady, zalecenia w literaturze itp., Które powinienem wziąć pod uwagę przy podejmowaniu decyzji, której metody użyć? Mogę podać więcej informacji o moim konkretnym problemie z modelowaniem, jeśli byłoby to przydatne, ale staram się, aby pytanie było wystarczająco szerokie, aby dotyczyło innych.
party
pakiet, który wykorzystuje testy istotności (zwykle nie jest to coś, co polecam, ale wydaje się tutaj istotne). Jak zawsze jednak najlepszym testem jest przydatność i sens; jest to szczególnie prawdziwe, jeśli jesteś zainteresowany głównie wyjaśnieniem.