Statystyki i duże zbiory danych xgboost

4

Jak dostroić hiperparametry drzew xgboost?

Mam dane niezrównoważone w klasie i chcę dostroić hiperparametry wzmocnionego warkocza za pomocą xgboost. pytania Czy istnieje odpowiednik gridsearchcv lub randomsearchcv dla xgboost? Jeśli nie, jakie jest zalecane podejście do dostrojenia parametrów xgboost?

68 machine-learning cross-validation xgboost boosting

1

Różnice matematyczne między GBM, XGBoost, LightGBM, CatBoost?

Istnieje kilka implementacji rodziny modeli GBDT, takich jak: GBM XGBoost LightGBM Catboost. Jakie są matematyczne różnice między tymi różnymi implementacjami? Catboost wydaje się przewyższać inne implementacje, nawet używając tylko domyślnych parametrów zgodnie z tym testem , ale wciąż jest bardzo powolny. Domyślam się, że catboost nie używa zmumifikowanych zmiennych, więc …

33 boosting xgboost

1

XGBoost Loss function Approximation With Taylor Expansion

Na przykład, ma funkcję celu modelu XGBoost w sprawie ttt „tą iterację procedury: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) gdzie ℓℓ\ell jest utrata funkcji, ftftf_t jest ttt -tym wyjście drzewa i ΩΩ\Omega jest regularyzacji. Jednym z (wielu) kluczowych kroków do szybkiego obliczenia jest przybliżenie: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), w którym gigig_i i hihih_i są to pierwsze i …

28 optimization loss-functions boosting xgboost taylor-series

4

Jakie jest właściwe użycie scale_pos_weight w xgboost dla niezrównoważonych zestawów danych?

Mam bardzo niezrównoważony zestaw danych. Staram się postępować zgodnie ze wskazówkami dotyczącymi tuningu i używać go, scale_pos_weightale nie jestem pewien, jak go dostroić. Widzę, że RegLossObj.GetGradient: if (info.labels[i] == 1.0f) w *= param_.scale_pos_weight więc gradient próbki dodatniej byłby bardziej wpływowy. Jednak zgodnie z artykułem xgboost statystyka gradientów jest zawsze używana …

26 unbalanced-classes xgboost

1

Objaśnienie min_child_weight w algorytmie xgboost

Definicja parametru min_child_weight w xgboost jest podawana jako: minimalna suma wagi instancji (hessian) potrzebna dziecku. Jeśli krok partycji drzewa spowoduje utworzenie węzła liścia o sumie wagi instancji mniejszej niż min_child_weight, wówczas proces budowania przerwie dalsze partycjonowanie. W trybie regresji liniowej odpowiada to po prostu minimalnej liczbie wystąpień wymaganych w każdym …

23 machine-learning xgboost hessian

3

Drzewa wzmocnione gradientem XGBoost kontra Python Sklearn

Próbuję zrozumieć, jak działa XGBoost. Już rozumiem, w jaki sposób drzewa wzmocnione gradientem działają na sklearn Pythona. Nie jest dla mnie jasne, czy XGBoost działa w ten sam sposób, ale szybciej, czy istnieją fundamentalne różnice między nim a implementacją Pythona. Kiedy czytam ten artykuł http://learningsys.org/papers/LearningSys_2015_paper_32.pdf Wydaje mi się, że wynik …

20 scikit-learn boosting gbm xgboost

3

Jakie algorytmy wymagają skalowania funkcji oprócz SVM?

Pracuję z wieloma algorytmami: RandomForest, DecisionTrees, NaiveBayes, SVM (jądro = liniowy i rbf), KNN, LDA i XGBoost. Wszystkie były dość szybkie, z wyjątkiem SVM. Właśnie wtedy dowiedziałem się, że potrzebuje skalowania funkcji, aby działać szybciej. Potem zacząłem się zastanawiać, czy powinienem zrobić to samo dla innych algorytmów.

17 machine-learning svm random-forest naive-bayes xgboost

1

Wzmacnianie i pakowanie drzew (XGBoost, LightGBM)

Istnieje wiele postów na blogach, filmów na YouTube itp. O pomysłach spakowania lub ulepszenia drzew. Z mojego ogólnego zrozumienia wynika, że pseudo kod dla każdego z nich to: Parcianka: Weź N losowych próbek x% próbek i y% funkcji Dopasuj swój model (np. Drzewo decyzyjne) do każdego z N Przewiduj z …

17 cart boosting xgboost bagging

4

Czy należy martwić się o wiele kolinearność przy stosowaniu modeli nieliniowych?

Powiedzmy, że mamy problem z klasyfikacją binarną z cechami głównie kategorycznymi. Do nauki tego używamy jakiegoś modelu nieliniowego (np. XGBoost lub Losowe lasy). Czy należy nadal martwić się wielokulturowością? Dlaczego? Jeśli odpowiedź na powyższe pytanie jest prawdziwa, jak należy z tym walczyć, biorąc pod uwagę, że używa się tego rodzaju …

13 classification random-forest multicollinearity xgboost

1

XGBoost może obsłużyć brakujące dane w fazie prognozowania

Niedawno sprawdziłem algorytm XGBoost i zauważyłem, że ten algorytm może obsłużyć brakujące dane (bez konieczności przypisywania) w fazie szkolenia. Zastanawiałem się, czy XGboost może obsłużyć brakujące dane (bez konieczności imputacji), gdy jest używany do prognozowania nowych obserwacji, czy konieczne jest przypisanie brakujących danych. Z góry dziękuję.

12 machine-learning missing-data data-imputation xgboost

1

Jak działa liniowy uczeń w wzmacnianiu? A jak to działa w bibliotece xgboost?

Wiem, jak zaimplementować liniową funkcję celu i liniowe wzmocnienia w XGBoost. Moje konkretne pytanie brzmi: kiedy algorytm pasuje do resztkowego (lub ujemnego gradientu), czy używa jednej cechy na każdym etapie (tj. Modelu jednoczynnikowego) czy wszystkich cech (model wielowymiarowy)? Będziemy wdzięczni za wszelkie odniesienia do dokumentacji dotyczącej liniowych wzmocnień w XGBoost. …

9 regression machine-learning boosting xgboost

Pytania otagowane jako xgboost