„Drzewa klasyfikacji i regresji”. CART jest popularną techniką uczenia maszynowego i stanowi podstawę dla technik takich jak losowe lasy i popularne implementacje maszyn zwiększających gradient.
Losowe lasy są uważane za czarne skrzynki, ale ostatnio zastanawiałem się, jaką wiedzę można uzyskać z losowego lasu? Najbardziej oczywistą rzeczą jest znaczenie zmiennych, w najprostszym wariancie można to zrobić po prostu przez obliczenie liczby wystąpień zmiennej. Drugą rzeczą, o której myślałem, były interakcje. Myślę, że jeśli liczba drzew jest …
Zwiększanie drzewa gradientowego, jak zaproponował Friedman, wykorzystuje drzewa decyzyjne jako podstawowych uczniów. Zastanawiam się, czy powinniśmy uczynić podstawowe drzewo decyzyjne tak złożonym, jak to możliwe (w pełni rozwinięte) czy prostszym? Czy istnieje jakieś wyjaśnienie wyboru? Random Forest to kolejna metoda zespołowa, w której drzewa decyzyjne są podstawowymi uczniami. W oparciu …
Czy ktoś może wyjaśnić podstawowe różnice między drzewami wnioskowania warunkowego ( ctreez partypakietu w R) w porównaniu do bardziej tradycyjnych algorytmów drzewa decyzyjnego (takich jak rpartw R)? Co wyróżnia drzewa CI? Mocne i słabe strony? Aktualizacja: Przejrzałem artykuł Horthorna i wsp., Do którego Chi odwołuje się w komentarzach. Nie byłem …
Moje pytania dotyczą Losowych Lasów. Koncepcja tego pięknego klasyfikatora jest dla mnie jasna, ale wciąż istnieje wiele praktycznych pytań dotyczących użytkowania. Niestety nie udało mi się znaleźć żadnego praktycznego przewodnika po RF (szukałem czegoś takiego jak „Praktyczny przewodnik po szkoleniach z ograniczonymi maszynami Boltzmana” autorstwa Geoffrey'a Hintona, ale dla Random …
Każdy otrzymał sugestie dotyczące biblioteki lub kodu dotyczące sposobu wykreślenia kilku przykładowych drzew z: getTree(rfobj, k, labelVar=TRUE) (Tak, wiem, że nie powinieneś tego robić operacyjnie, RF to czarna skrzynka itp. Itp. Chcę wizualnie sprawdzić poprawność drzewa, aby zobaczyć, czy jakieś zmienne zachowują się nieintuicyjnie, potrzebuję ulepszenia / połączenia / dyskretyzacji …
Co to jest „dewiacja”, jak jest obliczana i jakie jest jej zastosowanie w różnych dziedzinach statystyki? W szczególności jestem osobiście zainteresowany jego zastosowaniami w CART (i jego implementacją w rpart w R). Pytam o to, ponieważ artykuł na wiki wydaje się nieco brakuje, a twoje spostrzeżenia będą mile widziane.
Jestem nowy w eksploracji danych i staram się trenować drzewo decyzyjne względem zestawu danych, który jest wysoce niezrównoważony. Mam jednak problemy ze słabą dokładnością predykcyjną. Dane obejmują studentów studiujących kursy, a zmienną klasową jest status kursu, który ma dwie wartości - Wycofany lub Bieżący. Wiek Pochodzenie etniczne Płeć Oczywiście ... …
We wstępie do nauki statystycznej z aplikacjami w R autorzy piszą, że dopasowanie drzewa decyzyjnego jest bardzo szybkie, ale nie ma to dla mnie sensu. Algorytm musi przejść przez każdą funkcję i podzielić ją na wszystkie możliwe sposoby, aby znaleźć optymalny podział. W przypadku operacji numerycznych z obserwacjami może to …
Otrzymuję 100% dokładność dla mojego drzewa decyzyjnego. Co ja robię źle? To jest mój kod: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = …
Drzewa decyzyjne wydają się być bardzo zrozumiałą metodą uczenia maszynowego. Raz utworzony może być łatwo sprawdzony przez człowieka, co jest wielką zaletą w niektórych aplikacjach. Jakie są praktyczne słabe strony drzew decyzyjnych?
Szukam wyjaśnienia, w jaki sposób względna ważność zmiennych jest obliczana w drzewach wspomaganych gradientem, które nie jest zbyt ogólne / uproszczone, takie jak: Miary są oparte na liczbie wyborów zmiennej do podziału, ważone przez podniesienie kwadratu do modelu w wyniku każdego podziału i uśredniane dla wszystkich drzew . [ Elith …
Czytałem w kilku źródłach, w tym w tym , że Lasy Losowe nie są wrażliwe na wartości odstające (na przykład tak, jak regresja logistyczna i inne metody ML). Jednak dwie intuicje mówią mi inaczej: Ilekroć budowane jest drzewo decyzyjne, wszystkie punkty muszą być klasyfikowane. Oznacza to, że nawet wartości odstające …
Jakie są przydatne wskazówki dotyczące testowania parametrów (tj. Głębokość interakcji, dziecko, częstotliwość próbkowania itp.) Za pomocą GBM? Powiedzmy, że mam 70-100 funkcji, populację 200 000 i zamierzam przetestować głębokość interakcji 3 i 4. Oczywiście muszę przeprowadzić testy, aby zobaczyć, która kombinacja parametrów najlepiej trzyma się poza próbą. Wszelkie sugestie dotyczące …
Podczas budowania modelu CART (w szczególności drzewa klasyfikacji) przy użyciu rpart (w R) często interesujące jest wiedzieć, jakie znaczenie mają różne zmienne wprowadzone do modelu. Tak więc moje pytanie brzmi: jakie wspólne miary istnieją dla uszeregowania / pomiaru znaczenia zmiennych uczestniczących zmiennych w modelu CART? I jak można to obliczyć …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.