Pytania otagowane jako random-forest

Losowy las to metoda uczenia maszynowego polegająca na łączeniu wyników wielu drzew decyzyjnych.

1
Dlaczego moje losowe wyniki w lesie są tak zmienne?
Próbuję przetestować zdolność losowego lasu do klasyfikowania próbek między dwiema grupami; Do klasyfikacji zastosowano 54 próbki i różną liczbę zmiennych. Zastanawiałem się, dlaczego szacunki braku w torbie (OOB) mogą się różnić nawet o 5%, nawet gdy używam 50 tys. Drzew? Czy jest to coś, w czym może pomóc bootstrapping?

1
Regresja losowa lasu dla prognoz szeregów czasowych
Próbuję wykorzystać regresję RF do prognozowania wydajności papierni. Mam dane minut po minucie dla danych wejściowych (szybkość i ilość miazgi drzewnej wchodzącej itp.), A także dla wydajności maszyny (wyprodukowany papier, moc pobierana przez maszynę) i szukam prognoz 10 minut wyprzedzić zmienne wydajności. Mam 12 miesięcy danych, więc podzieliłem je na …

3
Przypadki użycia RBF SVM (vs regresja logistyczna i losowy las)
Obsługiwane maszyny wektorowe z jądrem funkcji podstawy radialnej to nadzorowany klasyfikator ogólnego przeznaczenia. Chociaż znam teoretyczne podstawy tych maszyn wirtualnych i ich mocne strony, nie znam przypadków, w których są one preferowaną metodą. Czy istnieje klasa problemów, dla których SVM RBF są lepsze od innych technik ML? (Pod względem punktacji …

1
Czy modelowanie za pomocą losowych lasów wymaga krzyżowej weryfikacji?
O ile widziałem, opinie na ten temat różnią się. Najlepsza praktyka z pewnością podyktowałaby zastosowanie weryfikacji krzyżowej (szczególnie przy porównywaniu RF z innymi algorytmami w tym samym zbiorze danych). Z drugiej strony oryginalne źródło stwierdza, że ​​fakt błędu OOB obliczanego podczas szkolenia modelu jest wystarczającym wskaźnikiem wydajności zestawu testowego. Nawet …

1
Losowy las vs Adaboost
W części 7 artykułu Random Forests (Breiman, 1999) autor stwierdza następującą hipotezę: „Adaboost to las losowy”. Czy ktoś to udowodnił lub obalił? Co zrobiono, aby udowodnić lub obalić ten post po 1999 roku?

1
Losowa prognoza probabilistyczna lasu a głosowanie większościowe
Wydaje się, że scikit uczy się przewidywania probabilistycznego zamiast głosowania większością za techniką agregacji modelu bez wyjaśnienia, dlaczego (1.9.2.1. Losowe lasy). Czy istnieje jasne wyjaśnienie, dlaczego? Czy jest też dobry artykuł lub artykuł przeglądowy na temat różnych technik agregacji modeli, które można zastosować do tworzenia worków w Losowym lesie? Dzięki!


2
Jak zmienić próg klasyfikacji w R randomForests?
Cała literatura na temat modelowania rozmieszczenia gatunków sugeruje, że przy przewidywaniu obecności / nieobecności gatunku przy użyciu modelu, który generuje prawdopodobieństwa (np. RandomForests), ważny jest wybór progowej prawdopodobieństwa, według której można faktycznie sklasyfikować gatunek jako obecność lub nieobecność i należy nie zawsze polegają na domyślnej wartości 0,5. Potrzebuję w tym …

2
Caret varImp dla modelu randomForest
Mam problem ze zrozumieniem, jak varImpdziała ta funkcja dla modelu randomForest z caretpakietem. W poniższym przykładzie funkcja var3 uzyskuje zerową ważność za pomocą varImpfunkcji Careta, ale leżący u jej podstaw model końcowy randomForest ma niezerowe znaczenie dla cechy var3. Dlaczego tak jest? require(randomForest) require(caret) rf <- train(x, y, method = …
10 r  caret  random-forest 

1
Jak włączyć innowacyjną wartość odstającą przy obserwacji 48 w moim modelu ARIMA?
Pracuję nad zestawem danych. Po zastosowaniu niektórych technik identyfikacji modelu, wyszłam z modelem ARIMA (0,2,1). Użyłem detectIOfunkcji w pakiecie TSAw R do wykrycia innowacyjnej wartości odstającej (IO) przy 48. obserwacji mojego oryginalnego zestawu danych. Jak włączyć tę wartość odstającą do mojego modelu, aby móc jej używać do celów prognozowania? Nie …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 


1
błąd randomForest i zmienna ważność?
Nie dostaję różnicy między rfobject$importancei importance(rfobject)w kolumnie MeanDecreaseAccuracy. Przykład: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) …

4
Czy istnieje sposób wykorzystania krzyżowej weryfikacji do dokonania wyboru zmiennej / cechy w R?
Mam zestaw danych z około 70 zmiennymi, które chciałbym wyciąć. Chcę użyć CV, aby znaleźć najbardziej przydatne zmienne w następujący sposób. 1) Losowo wybierz powiedz 20 zmiennych. 2) Użyj stepwise/ LASSO/ lars/ etc, aby wybrać najważniejsze zmienne. 3) Powtórz ~ 50x i zobacz, które zmienne są najczęściej wybierane (nie eliminowane). …

6
Porównaj R-kwadrat z dwóch różnych modeli Lasu Losowego
Używam pakietu randomForest w R do opracowania losowego modelu lasu w celu wyjaśnienia ciągłego wyniku w „szerokim” zestawie danych z większą liczbą predyktorów niż próbek. W szczególności dopasowuję jeden model RF, umożliwiając procedurze wybranie zestawu ~ 75 zmiennych predykcyjnych, które moim zdaniem są ważne. Testuję, jak dobrze ten model przewiduje …

1
Czy losowe lasy mogą zrobić znacznie lepiej niż błąd testowy 2,8% na MNIST?
Nie znalazłem żadnej literatury na temat zastosowania Losowych Lasów do MNIST, CIFAR, STL-10 itp., Więc pomyślałem, że sam spróbuję ich z MNIST niezmienniczymi permutacjami. W R próbowałem: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Trwało to 2 godziny i wystąpił błąd testu 2,8%. Próbowałem też scikit-learn , z RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) Po …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.