Chciałbym wiedzieć, czy losowy las Breimana (losowy las w pakiecie R randomForest) wykorzystuje jako kryterium podziału (kryterium wyboru atrybutów) przyrost informacji lub indeks Gini? Próbowałem to znaleźć na http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm oraz w dokumentacji pakietu randomForest w R. Ale jedyną rzeczą, jaką znalazłem, jest to, że można użyć indeksu Gini informatyka o …
Pracuję nad miarą ważności funkcji Gini dla losowego lasu. Dlatego muszę obliczyć spadek zanieczyszczenia węzła Gini. Oto sposób, w jaki to robię, co prowadzi do konfliktu z definicją, co sugeruje, że gdzieś się mylę ... :) W przypadku drzewa binarnego i biorąc pod uwagę prawdopodobieństwa lewych i prawych dzieci, mogę …
Próbuję użyć losowej regresji leśnej w scikits-learn. Problem polega na tym, że otrzymuję naprawdę wysoki błąd testu: train MSE, 4.64, test MSE: 252.25. Tak wyglądają moje dane: (niebieski: dane rzeczywiste, zielony: przewidywane): Używam 90% na szkolenie i 10% na test. Oto kod, którego używam po wypróbowaniu kilku kombinacji parametrów: rf …
Właściwie piszę implementację Losowych Lasów, ale uważam, że pytanie dotyczy drzew decyzyjnych (niezależnych od RF). Zatem kontekst polega na tym, że tworzę węzeł w drzewie decyzyjnym, a zmienne predykcyjne i docelowe są ciągłe. Węzeł ma podzielony próg podziału danych na dwa zestawy i tworzę nową prognozę dla każdego podzbioru na …
Załóżmy, że mamy odpowiedź Y i predyktory X1, ...., Xn. Gdybyśmy spróbowali dopasować Y za pomocą liniowego modelu X1, ...., Xn, i tak się po prostu stało, że prawdziwy związek między Y i X1, ..., Xn nie był liniowy, moglibyśmy naprawić model, przekształcając jakoś X, a następnie dopasowując model. Co …
Kiedy używałem bootstrapowania do oceny modelu, zawsze myślałem, że próbki z torebki były bezpośrednio używane jako zestaw testowy. Jednak wydaje się, że nie jest tak w przypadku przestarzałego podejścia scikit-learnBootstrap , które wydaje się budować zestaw testowy na podstawie rysowania z zastępowaniem z podzbioru danych poza torbą. Jakie jest uzasadnienie …
Jeśli chodzi o algorytmy wzmacniające, powiedziałbym, że ewoluowały całkiem dobrze. Na początku 1995 r. Wprowadzono AdaBoost, a po pewnym czasie była to Gradient Boosting Machine (GBM). Niedawno około 2015 r. Wprowadzono XGBoost, który jest dokładny, radzi sobie z nadmiernym dopasowaniem i stał się zwycięzcą wielu konkursów Kaggle. W 2017 roku …
Jestem trochę zdezorientowany: w jaki sposób wyniki wyszkolonego Modelu za pomocą karetki mogą różnić się od modelu w oryginalnym opakowaniu? Czytałem, czy wstępne przetwarzanie jest potrzebne przed prognozowaniem przy użyciu FinalModel z RandomForest z pakietem Caret? ale nie używam tutaj żadnego przetwarzania wstępnego. Trenowałem różne Losowe Lasy, używając pakietu Caret …
Trenuję model klasyfikacyjny z Random Forest, aby rozróżnić 6 kategorii. Moje dane transakcyjne zawierają około 60 000 obserwacji i 35 zmiennych. Oto przykład, jak to w przybliżeniu wygląda. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …
Chciałbym utworzyć losowy las przy użyciu następującego procesu: Zbuduj drzewo na losowych próbkach danych i funkcji, używając przyrostu informacji do określania podziałów Zakończ węzeł liścia, jeśli przekracza on z góry określoną głębokość LUB jakiekolwiek rozszczepienie spowodowałoby, że liczba liści byłaby mniejsza niż z góry określone minimum Zamiast przypisywać etykietę klasy …
Użyłem randomForest, aby sklasyfikować 6 zachowań zwierząt (np. Stanie, chodzenie, pływanie itp.) W oparciu o 8 zmiennych (różne postawy ciała i ruch). MDSplot w pakiecie randomForest daje mi to wyjście i mam problemy z interpretacją wyniku. Zrobiłem PCA na tych samych danych i uzyskałem już dobrą separację między wszystkimi klasami …
Stosuję algorytm losowego lasu jako klasyfikator w zestawie danych mikromacierzy, które są podzielone na dwie znane grupy z tysiącami funkcji. Po pierwszym uruchomieniu sprawdzam znaczenie funkcji i ponownie uruchamiam algorytm drzewa z 5, 10 i 20 najważniejszymi funkcjami. Uważam, że dla wszystkich funkcji, w pierwszej dziesiątce i 20, szacowany przez …
Tradycyjnie używamy modelu mieszanego do modelowania danych podłużnych, tj. Danych takich jak: id obs age treatment_lvl yield 1 0 11 M 0.2 1 1 11.5 M 0.5 1 2 12 L 0.6 2 0 17 H 1.2 2 1 18 M 0.9 możemy przyjąć losowe przechwytywanie lub nachylenie dla różnych …
Właściwie myślałem, że zrozumiałem, co można pokazać z częściową fabułą zależności, ale używając bardzo prostego hipotetycznego przykładu, byłem dość zdziwiony. W poniższym fragmencie kodu wygenerować trzy zmienne niezależne ( , b , c ) i jedną zmienną zależną ( y ) z c pokazującym zbliżenie liniową zależność y , a …
Próbuję zrozumieć, jak działa Losowy Las. Rozumiem, jak buduje się drzewa, ale nie rozumiem, w jaki sposób Losowy Las przewiduje prognozy na podstawie próbki z torby. Czy ktoś mógłby mi podać proste wyjaśnienie? :)
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.