Korzystam z RandomForestpakietu R i nie rozumiem, jak interpretować wartości osi Y na ich wykresach częściowej zależności. Dokumenty pomocnicze stwierdzają, że wykres jest „graficznym przedstawieniem marginalnego wpływu zmiennej na prawdopodobieństwo klasowe”. Nadal jednak nie rozumiem, co dokładnie reprezentuje oś y. W szczególności, co oznaczają wartości ujemne? Co to znaczy mieć …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Próbuję zrozumieć, w jaki sposób korzystać z uczenia maszynowego do przewidywania okresów finansowych 1 lub więcej kroków w przyszłość. Mam finansowe szeregi czasowe z niektórymi danymi opisowymi i chciałbym stworzyć model, a następnie użyć tego modelu do przewidzenia n-krok naprzód. Do tej pory robiłem: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- …
Czy można wyszkolić losowy las, aby odpowiednio przewidywał dane zliczania? Jak by to przebiegło? Mam dość szeroki zakres wartości, więc klasyfikacja naprawdę nie ma sensu. Gdybym użył regresji, czy po prostu obciąłbym wyniki? Jestem tu całkiem zagubiony. Jakieś pomysły?
Rozumiem, że losowy las wybiera losowo zmienne mtry do zbudowania każdego drzewa decyzyjnego. Jeśli więc mtry = ncol / 3, wówczas każda zmienna zostanie użyta średnio w 1/3 drzew. I 2/3 drzew ich nie wykorzysta. Ale co, jeśli wiem, że jedna zmienna jest prawdopodobnie bardzo ważna, czy dobrze byłoby ręcznie …
Korzystam z pakietu randomForest w R i korzystam z danych tęczówki, generowany losowy las jest klasyfikacją, ale kiedy używam zestawu danych z około 700 funkcjami (każdy z nich to piksel na obrazie 28 x 28 pikseli) i kolumna etykiety jest nazywana label, randomForestgenerowana jest regresja. Korzystam z następującego wiersza: rf …
W ostatnim konkursie Kaggle (ręcznie) zdefiniowałem 10 dodatkowych funkcji dla mojego zestawu treningowego, które następnie zostaną wykorzystane do wyszkolenia losowego klasyfikatora lasów. Postanowiłem uruchomić PCA w zestawie danych z nowymi funkcjami, aby zobaczyć, jak się ze sobą porównują. Odkryłem, że ~ 98% wariancji było przenoszone przez pierwszy składnik (pierwszy wektor …
Próbuję rozwiązać zadanie zwane wykrywaniem pieszych i trenuję binarny clasifer na dwóch kategoriach pozytywnych - ludzie, negatywne - tło. Mam zestaw danych: liczba wyników dodatnich = 3752 liczba ujemna = 3800 Używam train \ test split 80 \ 20% i RandomForestClassifier z scikit-learn z parametrami: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) Otrzymuję …
Używam pakietu karetki do trenowania obiektu randomForest z 10x10CV. library(caret) tc <- trainControl("repeatedcv", number=10, repeats=10, classProbs=TRUE, savePred=T) RFFit <- train(Defect ~., data=trainingSet, method="rf", trControl=tc, preProc=c("center", "scale")) Następnie testuję randomForest na testSet (nowe dane) RF.testSet$Prediction <- predict(RFFit, newdata=testSet) Macierz pomieszania pokazuje mi, że model nie jest taki zły. confusionMatrix(data=RF.testSet$Prediction, RF.testSet$Defect) Reference …
Jestem nowy w uczeniu maszynowym. Zastosowałem regresję logistyczną i losowy las w tym samym zbiorze danych. Dostaję więc zmienne znaczenie (współczynnik bezwzględny dla regresji logistycznej i zmienne znaczenie dla losowego lasu). Myślę o połączeniu tych dwóch, aby uzyskać ostateczną zmienną ważność. Czy ktoś może podzielić się swoim doświadczeniem? Sprawdziłem workowanie, …
Mam dane z kilkoma tysiącami funkcji i chcę dokonać rekurencyjnego wyboru funkcji (RFE), aby usunąć te nieinformacyjne. Robię to z karetką i RFE. Jednak zacząłem myśleć, jeśli chcę uzyskać najlepsze dopasowanie regresji (na przykład losowy las), kiedy powinienem przeprowadzić strojenie parametrów ( mtrydla RF)? Tak więc, jak rozumiem, Caret trenuje …
Mam więc macierz o wymiarach około 60 x 1000. Patrzę na nią jako na 60 obiektów z 1000 cechami; 60 obiektów jest pogrupowanych w 3 klasy (a, b, c). 20 obiektów w każdej klasie i znamy prawdziwą klasyfikację. Chciałbym przeprowadzić nadzorowaną naukę na tym zestawie 60 przykładów szkoleniowych. Interesuję się …
Myślę, że jest to proste pytanie, chociaż uzasadnienie dlaczego lub dlaczego nie może być. Powodem, dla którego pytam, jest to, że niedawno napisałem własną implementację RF i chociaż działa on dobrze, nie działa tak dobrze, jak się spodziewałem (na podstawie zestawu danych konkursowych Kaggle Photo Quality Prediction , zwycięskich wyników …
Zauważyłem, że przy budowaniu modeli regresji losowej lasu, przynajmniej w R, przewidywana wartość nigdy nie przekracza maksymalnej wartości zmiennej docelowej widocznej w danych treningowych. Jako przykład zobacz poniższy kod. Buduję model regresji do przewidywania mpgna podstawie mtcarsdanych. Buduję OLS i losowe modele leśne i używam ich do przewidywania mpghipotetycznego samochodu, …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.