Próbuję przetestować zdolność losowego lasu do klasyfikowania próbek między dwiema grupami; Do klasyfikacji zastosowano 54 próbki i różną liczbę zmiennych. Zastanawiałem się, dlaczego szacunki braku w torbie (OOB) mogą się różnić nawet o 5%, nawet gdy używam 50 tys. Drzew? Czy jest to coś, w czym może pomóc bootstrapping?
Próbuję wykorzystać regresję RF do prognozowania wydajności papierni. Mam dane minut po minucie dla danych wejściowych (szybkość i ilość miazgi drzewnej wchodzącej itp.), A także dla wydajności maszyny (wyprodukowany papier, moc pobierana przez maszynę) i szukam prognoz 10 minut wyprzedzić zmienne wydajności. Mam 12 miesięcy danych, więc podzieliłem je na …
Obsługiwane maszyny wektorowe z jądrem funkcji podstawy radialnej to nadzorowany klasyfikator ogólnego przeznaczenia. Chociaż znam teoretyczne podstawy tych maszyn wirtualnych i ich mocne strony, nie znam przypadków, w których są one preferowaną metodą. Czy istnieje klasa problemów, dla których SVM RBF są lepsze od innych technik ML? (Pod względem punktacji …
O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet …
W części 7 artykułu Random Forests (Breiman, 1999) autor stwierdza następującą hipotezę: „Adaboost to las losowy”. Czy ktoś to udowodnił lub obalił? Co zrobiono, aby udowodnić lub obalić ten post po 1999 roku?
Wydaje się, że scikit uczy się przewidywania probabilistycznego zamiast głosowania większością za techniką agregacji modelu bez wyjaśnienia, dlaczego (1.9.2.1. Losowe lasy). Czy istnieje jasne wyjaśnienie, dlaczego? Czy jest też dobry artykuł lub artykuł przeglądowy na temat różnych technik agregacji modeli, które można zastosować do tworzenia worków w Losowym lesie? Dzięki!
Czytałem literaturę, że losowe lasy nie mogą się przewyższyć. Chociaż brzmi to świetnie, wydaje się zbyt piękne, aby mogło być prawdziwe. Czy jest możliwe, aby rf się przebiły?
Cała literatura na temat modelowania rozmieszczenia gatunków sugeruje, że przy przewidywaniu obecności / nieobecności gatunku przy użyciu modelu, który generuje prawdopodobieństwa (np. RandomForests), ważny jest wybór progowej prawdopodobieństwa, według której można faktycznie sklasyfikować gatunek jako obecność lub nieobecność i należy nie zawsze polegają na domyślnej wartości 0,5. Potrzebuję w tym …
Mam problem ze zrozumieniem, jak varImpdziała ta funkcja dla modelu randomForest z caretpakietem. W poniższym przykładzie funkcja var3 uzyskuje zerową ważność za pomocą varImpfunkcji Careta, ale leżący u jej podstaw model końcowy randomForest ma niezerowe znaczenie dla cechy var3. Dlaczego tak jest? require(randomForest) require(caret) rf <- train(x, y, method = …
Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …
Metody zestawów oparte na drzewach, takie jak Losowy Las, i kolejne pochodne (np. Las warunkowy), wszystkie wydają się być przydatne w tak zwanych problemach „małych n , dużych p ”, do identyfikacji względnej zmiennej ważności. Rzeczywiście wydaje się, że tak jest, ale moje pytanie brzmi, jak daleko można posunąć tę …
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …
Używam pakietu randomForest w R do opracowania losowego modelu lasu w celu wyjaśnienia ciągłego wyniku w „szerokim” zestawie danych z większą liczbą predyktorów niż próbek. W szczególności dopasowuję jeden model RF, umożliwiając procedurze wybranie zestawu ~ 75 zmiennych predykcyjnych, które moim zdaniem są ważne. Testuję, jak dobrze ten model przewiduje …
Nie znalazłem żadnej literatury na temat zastosowania Losowych Lasów do MNIST, CIFAR, STL-10 itp., Więc pomyślałem, że sam spróbuję ich z MNIST niezmienniczymi permutacjami. W R próbowałem: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Trwało to 2 godziny i wystąpił błąd testu 2,8%. Próbowałem też scikit-learn , z RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) Po …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.