Statystyki i duże zbiory danych cart

1

W jakich implementacjach wymagane jest skalowanie zmiennych (cech) i normalizacja (strojenie) zmiennych (cech)

W wielu algorytmach uczenia maszynowego skalowanie funkcji (inaczej skalowanie zmiennych, normalizacja) jest częstym krokiem wstępnego przetwarzania Wikipedia - Skalowanie funkcji - to pytanie było blisko Pytanie nr 41704 - Jak i dlaczego działa normalizacja i skalowanie funkcji? Mam dwa pytania dotyczące drzew decyzyjnych: Czy są jakieś implementacje drzewa decyzyjnego, które …

10 machine-learning feature-selection cart

1

Dlaczego Anova () i drop1 () podają różne odpowiedzi dla GLMM?

Mam GLMM w postaci: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Kiedy używam drop1(model, test="Chi"), otrzymuję inne wyniki niż w przypadku korzystania Anova(model, type="III")z pakietu samochodowego lub summary(model). Te dwa ostatnie dają te same odpowiedzi. Korzystając z wielu sfabrykowanych danych, odkryłem, że te …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Rozmiar drzewa w wzmocnieniu gradientowym

Zwiększanie drzewa gradientowego, jak zaproponował Friedman, używa drzew decyzyjnych z Jwęzłami końcowymi (= liśćmi) jako podstawowych uczniów. Istnieje wiele sposobów, aby wyhodować drzewo z dokładnie Jwęzłami, na przykład można je wyhodować w pierwszej kolejności w głębokości lub w pierwszej kolejności, ... Czy istnieje ustalony sposób uprawy drzew z dokładnie Jkońcowymi …

10 r cart boosting

1

R regresja liniowa zmienna kategorialna „ukryta” wartość

To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R: a.lm = lm(Y ~ x1 + x2) x1jest zmienną ciągłą. x2jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Badanie różnic między populacjami

Powiedzmy, że mamy próbkę z dwóch populacji: Ai B. Załóżmy, że te populacje składają się z pojedynczych osób i wybieramy opisywanie poszczególnych osób pod względem cech. Niektóre z tych funkcji są jakościowe (np. Czy jeżdżą do pracy?), A niektóre są liczbowe (np. Ich wysokość). Nazwijmy te funkcje: . Zbieramy setki …

9 anova random-forest cart group-differences

2

Czy estymatory drzew ZAWSZE są stronnicze?

Odrabiam pracę domową na drzewach decyzyjnych, a jedno z pytań, na które muszę odpowiedzieć, brzmi: „Dlaczego estymatory zbudowane są z drzew tendencyjnych i jak workowanie pomaga zmniejszyć ich wariancję?”. Wiem teraz, że przeregulowane modele mają tendencję do bardzo niskiego odchylenia, ponieważ próbują dopasować wszystkie punkty danych. I miałem skrypt w …

9 cart bias

2

Czy drzewa CART wychwytują interakcje między predyktorami?

Ten artykuł twierdzi, że w CART, ponieważ podział binarny jest wykonywany na jednej zmiennej towarzyszącej na każdym etapie, wszystkie podziały są ortogonalne, a zatem interakcje między zmiennymi towarzyszącymi nie są brane pod uwagę. Jednak wiele bardzo poważnych odniesień twierdzi, wręcz przeciwnie, że hierarchiczna struktura drzewa gwarantuje, że interakcje między predyktorami …

9 machine-learning classification data-mining cart

2

Jak ocenić dobroć dopasowania do funkcji przetrwania

Jestem nowicjuszem w analizie przeżycia, chociaż mam pewną wiedzę na temat klasyfikacji i regresji. Do regresji mamy statystyki kwadratów MSE i R. Ale jak możemy powiedzieć, że model przeżycia A jest lepszy od modelu przeżycia B, oprócz pewnego rodzaju wykresów graficznych (krzywa KM)? Jeśli to możliwe, proszę wyjaśnić różnicę za …

9 regression survival goodness-of-fit cart rpart

1

Jak wybrać liczbę podziałów w rpart ()?

Użyłem rpart.controldo minsplit=2i dostał następujące wyniki z rpart()funkcji. Czy muszę unikać podziału 3 lub 7, aby uniknąć przeładowania danych? Czy nie powinienem używać splitów 7? Proszę daj mi znać. Zmienne faktycznie używane w konstrukcji drzewa: [1] ct_a ct_b usr_a Root node error: 23205/60 = 386.75 n= 60 CP nsplit rel …

9 r cart rpart

Pytania otagowane jako cart