Czy sensowne jest wykonanie PCA przed przeprowadzeniem losowej klasyfikacji lasu? Mam do czynienia z wielowymiarowymi danymi tekstowymi i chcę zrobić redukcję funkcji, aby uniknąć przekleństwa wymiarowości, ale czy losowe lasy już nie zmniejszają wymiarów?
Losowy las to zbiór drzew decyzyjnych według koncepcji workowania. Kiedy przechodzimy z jednego drzewa decyzyjnego do następnego drzewa decyzyjnego, w jaki sposób informacje zdobyte przez ostatnie drzewo decyzyjne przechodzą do następnego? Ponieważ, zgodnie z moim zrozumieniem, nie ma nic takiego jak wyszkolony model, który jest tworzony dla każdego drzewa decyzyjnego, …
Moje pytanie: Dlaczego losowy las rozważa losowe podzbiory funkcji do podziału na poziomie węzłów w obrębie każdego drzewa, a nie na poziomie drzewa ? Tło: To jest pytanie historyczne. Tin Kam Ho opublikował ten artykuł na temat budowy „lasów decyzyjnych”, losowo wybierając podzbiór cech do uprawy każdego drzewa w 1998 …
Obecnie używam przybornika RF na MATLAB do binarnej klasyfikacji problemu Zestaw danych: 50000 próbek i ponad 250 funkcji Jaka powinna być liczba drzew i losowo wybrana funkcja na każdym podziale, aby rosły drzewa? czy jakikolwiek inny parametr może znacząco wpłynąć na wyniki?
Powiedzmy, że mamy problem z klasyfikacją binarną z cechami głównie kategorycznymi. Do nauki tego używamy jakiegoś modelu nieliniowego (np. XGBoost lub Losowe lasy). Czy należy nadal martwić się wielokulturowością? Dlaczego? Jeśli odpowiedź na powyższe pytanie jest prawdziwa, jak należy z tym walczyć, biorąc pod uwagę, że używa się tego rodzaju …
Kiedy oceniamy jakość Losowego Lasu, na przykład za pomocą AUC, czy bardziej odpowiednie jest obliczenie tych ilości na podstawie próbek po wyjęciu z torby lub na podstawie zestawu krzyżowego sprawdzania poprawności? Słyszałem, że obliczenie go na próbkach OOB daje bardziej pesymistyczną ocenę, ale nie rozumiem dlaczego.
Czytając doskonałe modelowanie statystyczne: Dwie kultury (Breiman 2001) , możemy uchwycić całą różnicę między tradycyjnymi modelami statystycznymi (np. Regresja liniowa) a algorytmami uczenia maszynowego (np. Bagging, Random Forest, Boosted trees ...). Breiman krytykuje modele danych (parametryczne), ponieważ opierają się one na założeniu, że obserwacje są generowane przez znany, formalny model …
Jestem całkiem nowy w uczeniu maszynowym, technikach CART i tym podobnych, i mam nadzieję, że moja naiwność nie jest zbyt oczywista. Jak Random Forest obsługuje wielopoziomowe / hierarchiczne struktury danych (na przykład, gdy interesująca jest interakcja między poziomami)? Oznacza to, że zestawy danych z jednostkami analizy na kilku poziomach hierarchicznych …
Wykonuję regresję przy użyciu Losowych lasów do przewidywania cen na podstawie kilku atrybutów. Kod jest napisany w Pythonie przy użyciu Scikit-learn. Jak zdecydować, czy należy przekształcić zmienne za pomocą exp/ logprzed użyciem, aby dopasować je do modelu regresji? Czy jest to konieczne, gdy stosuje się podejście Ensemble, takie jak Losowy …
Próbuję przewidzieć przy użyciu losowego modelu lasu w R. Jednak dostaję błędy, ponieważ niektóre czynniki mają inne wartości w zestawie testowym niż w zestawie treningowym. Na przykład czynnik Cat_2ma wartości 34, 68, 76itp. W zestawie testowym, które nie pojawiają się w zestawie szkoleniowym. Niestety nie mam kontroli nad zestawem testowym …
Gram z randomForest i odkryłem, że ogólnie zwiększenie sampSize prowadzi do lepszej wydajności. Czy istnieje reguła / formuła / itp., Która sugeruje, jaki powinien być optymalny sampSize, czy też jest to kwestia prób i błędów? Chyba inny sposób sformułowania tego; jakie jest moje ryzyko zbyt małego rozmiaru sampSize lub zbyt …
I przeczytać na tej stronie , że widocznie Kinect wykorzystuje lasy losowe algorytm uczenia maszynowego w jakiś sposób. Czy ktoś może wyjaśnić, do czego używa losowych lasów i jak działa ich podejście?
Mam zestaw danych obejmujący 24 wiersze danych miesięcznych. Funkcje obejmują PKB, przyloty na lotnisko, miesiąc i kilka innych. Zmienna zależna to liczba odwiedzających popularny cel turystyczny. Czy Losowy Las byłby odpowiedni na taki problem? Dane są niepubliczne, więc nie mogę opublikować próbki.
Podczas kodowania cech kategorycznych dla regresji liniowej obowiązuje zasada: liczba manekinów powinna być o jeden mniejsza niż całkowita liczba poziomów (aby uniknąć kolinearności). Czy istnieje podobna zasada dla drzew decyzyjnych (spakowane, wzmocnione)? Pytam o to, ponieważ standardową praktyką w Pythonie wydaje się być rozszerzanie npoziomów na nmanekiny (sklearny OneHotEncoderlub Pandy …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.