Statystyki i duże zbiory danych random-forest

3

Różnica między losowym lasem a wyjątkowo losowymi drzewami

Zrozumiałem, że losowy las i skrajnie losowe drzewa różnią się tym, że podziały drzew w losowym lesie są deterministyczne, podczas gdy są losowe w przypadku ekstremalnie losowych drzew (dokładniej, następny podział jest najlepszym podziałem wśród losowych jednolitych podziałów w wybranych zmiennych dla bieżącego drzewa). Ale nie do końca rozumiem wpływ …

38 machine-learning correlation references random-forest

1

Ręcznie obliczone

Wiem, że jest to dość specyficzne Rpytanie, ale mogę myśleć o wariancji proporcji wyjaśnionej, , niepoprawnie. Tutaj idzie.R2R2R^2 Próbuję użyć Rpakietu randomForest. Mam trochę danych treningowych i danych testowych. Po dopasowaniu losowego modelu lasu randomForestfunkcja umożliwia wprowadzenie nowych danych testowych do przetestowania. Następnie podaje procent wariancji wyjaśniony w tych nowych …

38 r correlation predictive-models random-forest r-squared

6

Popraw klasyfikację za pomocą wielu zmiennych kategorycznych

Pracuję nad zbiorem danych z ponad 200 000 próbek i około 50 cechami na próbkę: 10 zmiennych ciągłych, a pozostałe ~ 40 to zmienne jakościowe (kraje, języki, dziedziny nauki itp.). Dla tych zmiennych kategorialnych masz na przykład 150 różnych krajów, 50 języków, 50 dziedzin naukowych itp. Jak dotąd moje podejście …

37 machine-learning classification categorical-data random-forest many-categories

3

Tworzysz „wynik pewności” z głosów w losowych lasach?

Chcę wyszkolić klasyfikatora, który będzie rozróżniał Type Ai Type Bprzedmioty przy pomocy dość dużego zestawu szkoleniowego złożonego z około 10 000 obiektów, z których około połowa jest, Type Aa połowa z nich jest Type B. Zestaw danych składa się ze 100 ciągłych elementów wyszczególniających właściwości fizyczne komórek (rozmiar, średni promień …

36 r machine-learning random-forest

3

Jak interpretować macierz OOB i zamieszanie dla losowego lasu?

Mam od kogoś skrypt R do uruchomienia losowego modelu lasu. Zmodyfikowałem i uruchomiłem go z niektórymi danymi pracowników. Staramy się przewidzieć dobrowolne separacje. Oto kilka dodatkowych informacji: jest to model klasyfikacji, w którym 0 = pracownik został, 1 = pracownik został zakończony, obecnie obserwujemy tylko tuzin zmiennych predykcyjnych, dane są …

35 r classification error random-forest

3

Jak interpretować średni spadek dokładności i średni spadek GINI w losowych modelach leśnych

Mam trudności ze zrozumieniem, jak interpretować dane wyjściowe o zmiennej ważności z pakietu Losowy las. Średni spadek dokładności jest zwykle opisywany jako „spadek dokładności modelu po permutacji wartości w każdej funkcji”. Czy to stwierdzenie o obiekcie jako całości, czy o określonych wartościach w obiekcie? W obu przypadkach, czy średni spadek …

34 r machine-learning classification random-forest

3

W jaki sposób losowe lasy nie są wrażliwe na wartości odstające?

Czytałem w kilku źródłach, w tym w tym , że Lasy Losowe nie są wrażliwe na wartości odstające (na przykład tak, jak regresja logistyczna i inne metody ML). Jednak dwie intuicje mówią mi inaczej: Ilekroć budowane jest drzewo decyzyjne, wszystkie punkty muszą być klasyfikowane. Oznacza to, że nawet wartości odstające …

33 random-forest bootstrap outliers cart

2

Czy wysoce skorelowane zmienne w losowym lesie nie zniekształcają dokładności i wyboru cech?

W moim rozumieniu wysoce skorelowane zmienne nie spowodują problemów z wieloma kolinearnością w losowym modelu lasu (proszę mnie poprawić, jeśli się mylę). Jednak z drugiej strony, jeśli mam zbyt wiele zmiennych zawierających podobne informacje, czy model będzie ważył za dużo na tym zestawie, a nie na innych? Na przykład istnieją …

32 random-forest multicollinearity ensemble

2

Względne znaczenie zestawu predyktorów w losowej klasyfikacji lasów w R.

Chciałbym określić względną ważność zbiorów zmiennych w stosunku do randomForestmodelu klasyfikacji w R. importanceFunkcja zapewnia MeanDecreaseGinimetrykę dla każdego predyktora - czy jest to tak proste, jak sumowanie tego dla każdego predyktora w zestawie? Na przykład: # Assumes df has variables a1, a2, b1, b2, and outcome rf <- randomForest(outcome ~ …

31 r machine-learning classification random-forest

3

Jak dobrze R skaluje się do zadań klasyfikacji tekstu? [Zamknięte]

Próbuję przyspieszyć z R. W końcu chcę używać bibliotek R do klasyfikacji tekstu. Zastanawiałem się tylko, jakie są ludzkie doświadczenia w odniesieniu do skalowalności języka R, jeśli chodzi o klasyfikację tekstu. Prawdopodobnie napotkam dane o dużych wymiarach (~ 300 tys. Wymiarów). Patrzę na wykorzystanie SVM i Random Forest w szczególności …

30 r machine-learning svm text-mining random-forest

2

Czy niezbędna jest normalizacja SVM i Random Forest?

Każdy wymiar moich funkcji ma inny zakres wartości. Chcę wiedzieć, czy konieczna jest normalizacja tego zestawu danych.

29 machine-learning svm random-forest normalization

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Przeliczanie macierzy podobieństwa na macierz odległości (euklidesowa)

W algorytmie Losowy las Breiman (autor) konstruuje macierz podobieństwa w następujący sposób: Wyślij wszystkie przykłady uczenia się w dół każdego drzewa w lesie Jeśli dwa przykłady wylądują w tym samym przyrostu liścia, odpowiedni element w macierzy podobieństwa o 1 Normalizuj matrycę z liczbą drzew On mówi: Bliskości między przypadkami n …

27 random-forest distance similarities euclidean

4

Kiedy unikać Losowego lasu?

Lasy losowe są dobrze znane z wykonywania dość różnorodnych zadań i określane są mianem rzemieślników metod uczenia się . Czy są jakieś problemy lub szczególne warunki, w których należy unikać korzystania z losowego lasu?

25 machine-learning classification random-forest

4

Czy istnieje implementacja Random Forest, która działa dobrze z bardzo rzadkimi danymi?

Czy istnieje przypadkowa implementacja lasu R, która działa dobrze z bardzo rzadkimi danymi? Mam tysiące lub miliony boolowskich zmiennych wejściowych, ale tylko setki będą PRAWDĄ dla każdego podanego przykładu. Jestem stosunkowo nowy w R i zauważyłem, że istnieje pakiet „Matrix” do radzenia sobie z rzadkimi danymi, ale wydaje się, że …

23 r random-forest sparse

Pytania otagowane jako random-forest