Pytania otagowane jako boosting

Rodzina algorytmów łączących słabo predykcyjne modele w silnie predykcyjny model. Najpopularniejsze podejście nazywa się zwiększaniem gradientu, a najczęściej stosowanymi słabymi modelami są drzewa klasyfikacji / regresji.

4
„Częściowo nadzorowane uczenie się” - czy to jest zbyt dobre?
Czytałem raport o zwycięskim rozwiązaniu konkursu Kaggle ( klasyfikacja złośliwego oprogramowania ). Raport można znaleźć w tym poście na forum . Problemem był problem z klasyfikacją (dziewięć klas, metryką była strata logarytmiczna) ze 10000 elementami w zestawie pociągów, 10000 elementów w zestawie testowym. Podczas zawodów modele były oceniane w stosunku …

2
Zwiększenie sieci neuronowych
Niedawno pracowałem nad uczeniem się algorytmów wzmacniających, takich jak adaboost, zwiększanie gradientu i wiedziałem, że najczęściej używanym słabym uczniem są drzewa. Naprawdę chcę wiedzieć, czy istnieją pewne udane przykłady (mam na myśli kilka artykułów lub artykułów) wykorzystania sieci neuronowych jako podstawowego ucznia.

4
Jak rzutować nowy wektor na przestrzeń PCA?
Po przeprowadzeniu analizy głównego składnika (PCA) chcę rzutować nowy wektor na przestrzeń PCA (tzn. Znaleźć jego współrzędne w układzie współrzędnych PCA). Mam obliczony PCA w języku R użyciu prcomp. Teraz powinienem być w stanie pomnożyć mój wektor przez macierz obrotu PCA. Czy główne elementy tej macierzy powinny być ułożone w …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 


3
Drzewa wzmocnione gradientem XGBoost kontra Python Sklearn
Próbuję zrozumieć, jak działa XGBoost. Już rozumiem, w jaki sposób drzewa wzmocnione gradientem działają na sklearn Pythona. Nie jest dla mnie jasne, czy XGBoost działa w ten sam sposób, ale szybciej, czy istnieją fundamentalne różnice między nim a implementacją Pythona. Kiedy czytam ten artykuł http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Wydaje mi się, że wynik …

1
Dyskusja na temat overfit w xgboost
Moja konfiguracja jest następująca: Postępuję zgodnie z wytycznymi w „Applied Predictive Modeling”. W związku z tym odfiltrowałem skorelowane funkcje i kończę na następujących: 4900 punktów danych w zestawie treningowym i 1600 punktów danych w zestawie testowym. Mam 26 cech, a celem jest zmienna ciągła. Stosuję 5-krotną walidację krzyżową do trenowania …

3
Czy kikut decyzji jest modelem liniowym?
Kikut decyzyjny jest drzewem decyzyjnym z tylko jednym podziałem. Można go również zapisać jako funkcję fragmentaryczną. Załóżmy na przykład, że jest wektorem, a jest pierwszym składnikiem , w ustawieniach regresji, niektóre kikuty decyzyjne mogą byćxxx xx1x1x_1xxx f(x)={35x1≤2x1>2f(x)={3x1≤25x1>2f(x)= \begin{cases} 3& x_1\leq 2 \\ 5 & x_1 > 2 \\ \end{cases} Ale …

2
Zwiększenie: dlaczego współczynnik uczenia się nazywa się parametrem regularyzacji?
Szybkość uczenia się parametr ( ) gradientu Zwiększenie kurczy wkładu każdego nowego modelu podstawowego -typically zawiera drzewo płytka, że dodaje się w serii. Wykazano, że radykalnie zwiększa dokładność zestawu testowego, co jest zrozumiałe, ponieważ przy mniejszych krokach minimum funkcji straty można uzyskać bardziej precyzyjnie. ν∈ [ 0 , 1 ]ν∈[0,1]\nu …


1
Kalibracja klasyfikatora podwyższonego klasy
Przeczytałem artykuł Alexandru Niculescu-Mizila i Richa Caruany „ Uzyskiwanie skalibrowanych prawdopodobieństw od wzmocnienia ” i dyskusję w tym wątku. Jednak nadal mam problemy ze zrozumieniem i wdrożeniem logistyki lub skalowania Platta, aby skalibrować moc wyjściową mojego wieloklasowego klasyfikatora podwyższającego (łagodne przyspieszanie z kikutami decyzyjnymi). Jestem nieco zaznajomiony z uogólnionymi modelami …

3
Kiedy nie powinienem używać klasyfikatora zespołów?
Ogólnie rzecz biorąc, w przypadku problemu z klasyfikacją, w którym celem jest dokładne przewidywanie członkostwa w klasie poza próbą, kiedy nie powinienem używać klasyfikatora grupowego? To pytanie jest ściśle związane z Dlaczego nie zawsze korzystać z nauki zespołowej? . To pytanie pyta, dlaczego nie używamy zespołów cały czas. Chcę wiedzieć, …

1
Wzmacnianie i pakowanie drzew (XGBoost, LightGBM)
Istnieje wiele postów na blogach, filmów na YouTube itp. O pomysłach spakowania lub ulepszenia drzew. Z mojego ogólnego zrozumienia wynika, że ​​pseudo kod dla każdego z nich to: Parcianka: Weź N losowych próbek x% próbek i y% funkcji Dopasuj swój model (np. Drzewo decyzyjne) do każdego z N Przewiduj z …

2
Klasyfikacja ze wzmocnieniem gradientowym: Jak zachować prognozę w [0,1]
Pytanie Staram się zrozumieć, w jaki sposób prognoza jest utrzymywana w przedziale [0,1][0,1][0,1] podczas klasyfikacji binarnej z funkcją wzmocnienia gradientu. Załóżmy, że pracujemy nad problemem klasyfikacji binarnej, a naszą funkcją celu jest utrata logów, −∑yilog(Hm(xi))+(1−yi)log(1−Hm(xi))−∑yilog⁡(Hm(xi))+(1−yi)log⁡(1−Hm(xi))-\sum y_i \log(H_m(x_i)) + (1-y_i) \log(1-H_m(x_i)) , gdzie yyy jest zmienną docelową a jest naszym obecnym …


2
Czy klasyfikacja GBM cierpi na niezrównoważone rozmiary klas?
Mam do czynienia z nadzorowanym problemem klasyfikacji binarnej. Chciałbym użyć pakietu GBM do sklasyfikowania osób jako niezainfekowanych / zainfekowanych. Mam 15 razy więcej niezainfekowanych niż zainfekowanych osób. Zastanawiałem się, czy modele GBM cierpią w przypadku niezrównoważonych rozmiarów klas? Nie znalazłem żadnych referencji odpowiadających na to pytanie. Próbowałem skorygować wagi, przypisując …

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.