Rodzina algorytmów łączących słabo predykcyjne modele w silnie predykcyjny model. Najpopularniejsze podejście nazywa się zwiększaniem gradientu, a najczęściej stosowanymi słabymi modelami są drzewa klasyfikacji / regresji.
Czytałem raport o zwycięskim rozwiązaniu konkursu Kaggle ( klasyfikacja złośliwego oprogramowania ). Raport można znaleźć w tym poście na forum . Problemem był problem z klasyfikacją (dziewięć klas, metryką była strata logarytmiczna) ze 10000 elementami w zestawie pociągów, 10000 elementów w zestawie testowym. Podczas zawodów modele były oceniane w stosunku …
Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci neuronowych jako podstawowego ucznia.
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
Czytałem różne (pozornie) sprzeczne stwierdzenia, czy AdaBoost (lub inne techniki wspomagające) są mniej lub bardziej podatne na nadmierne dopasowanie w porównaniu do innych metod uczenia się. Czy istnieją dobre powody, by wierzyć w to jedno lub drugie? Jeśli to zależy, od czego to zależy? Jakie są powody, dla których AdaBoost …
Próbuję zrozumieć, jak działa XGBoost. Już rozumiem, w jaki sposób drzewa wzmocnione gradientem działają na sklearn Pythona. Nie jest dla mnie jasne, czy XGBoost działa w ten sam sposób, ale szybciej, czy istnieją fundamentalne różnice między nim a implementacją Pythona. Kiedy czytam ten artykuł http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Wydaje mi się, że wynik …
Moja konfiguracja jest następująca: Postępuję zgodnie z wytycznymi w „Applied Predictive Modeling”. W związku z tym odfiltrowałem skorelowane funkcje i kończę na następujących: 4900 punktów danych w zestawie treningowym i 1600 punktów danych w zestawie testowym. Mam 26 cech, a celem jest zmienna ciągła. Stosuję 5-krotną walidację krzyżową do trenowania …
Kikut decyzyjny jest drzewem decyzyjnym z tylko jednym podziałem. Można go również zapisać jako funkcję fragmentaryczną. Załóżmy na przykład, że jest wektorem, a jest pierwszym składnikiem , w ustawieniach regresji, niektóre kikuty decyzyjne mogą byćxxx xx1x1x_1xxx f(x)={35x1≤2x1>2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} Ale …
Szybkość uczenia się parametr ( ) gradientu Zwiększenie kurczy wkładu każdego nowego modelu podstawowego -typically zawiera drzewo płytka, że dodaje się w serii. Wykazano, że radykalnie zwiększa dokładność zestawu testowego, co jest zrozumiałe, ponieważ przy mniejszych krokach minimum funkcji straty można uzyskać bardziej precyzyjnie. ν∈ [ 0 , 1 ]ν∈[0,1]\nu …
W podręcznikach i wykładach na YouTubie wiele się nauczyłem o modelach iteracyjnych, takich jak zwiększanie, ale nigdy nie widziałem nic na temat określania przedziału prognoz. Krzyżową walidację stosuje się w następujących przypadkach: Wybór modelu : Wypróbuj różne modele i wybierz ten, który najlepiej pasuje. W przypadku wzmocnienia użyj CV, aby …
Przeczytałem artykuł Alexandru Niculescu-Mizila i Richa Caruany „ Uzyskiwanie skalibrowanych prawdopodobieństw od wzmocnienia ” i dyskusję w tym wątku. Jednak nadal mam problemy ze zrozumieniem i wdrożeniem logistyki lub skalowania Platta, aby skalibrować moc wyjściową mojego wieloklasowego klasyfikatora podwyższającego (łagodne przyspieszanie z kikutami decyzyjnymi). Jestem nieco zaznajomiony z uogólnionymi modelami …
Ogólnie rzecz biorąc, w przypadku problemu z klasyfikacją, w którym celem jest dokładne przewidywanie członkostwa w klasie poza próbą, kiedy nie powinienem używać klasyfikatora grupowego? To pytanie jest ściśle związane z Dlaczego nie zawsze korzystać z nauki zespołowej? . To pytanie pyta, dlaczego nie używamy zespołów cały czas. Chcę wiedzieć, …
Istnieje wiele postów na blogach, filmów na YouTube itp. O pomysłach spakowania lub ulepszenia drzew. Z mojego ogólnego zrozumienia wynika, że pseudo kod dla każdego z nich to: Parcianka: Weź N losowych próbek x% próbek i y% funkcji Dopasuj swój model (np. Drzewo decyzyjne) do każdego z N Przewiduj z …
Pytanie Staram się zrozumieć, w jaki sposób prognoza jest utrzymywana w przedziale [0,1][0,1][0,1] podczas klasyfikacji binarnej z funkcją wzmocnienia gradientu. Załóżmy, że pracujemy nad problemem klasyfikacji binarnej, a naszą funkcją celu jest utrata logów, −∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i)) , gdzie yyy jest zmienną docelową a jest naszym obecnym …
Czy maszyna do zwiększania gradientu Friedmana może osiągnąć lepszą wydajność niż Losowy las Breimana ? Jeśli tak, to w jakich warunkach lub jakiego rodzaju zestaw danych może ulepszyć GBM?
Mam do czynienia z nadzorowanym problemem klasyfikacji binarnej. Chciałbym użyć pakietu GBM do sklasyfikowania osób jako niezainfekowanych / zainfekowanych. Mam 15 razy więcej niezainfekowanych niż zainfekowanych osób. Zastanawiałem się, czy modele GBM cierpią w przypadku niezrównoważonych rozmiarów klas? Nie znalazłem żadnych referencji odpowiadających na to pytanie. Próbowałem skorygować wagi, przypisując …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.