Statystyki i duże zbiory danych importance

2

Miary o zmiennym znaczeniu w losowych lasach

Bawiłem się losowymi lasami w celu regresji i mam trudności z ustaleniem, co dokładnie oznaczają dwie miary ważności i jak należy je interpretować. importance()Funkcja daje dwie wartości dla każdej zmiennej: %IncMSEa IncNodePurity. Czy istnieją proste interpretacje tych 2 wartości? W IncNodePurityszczególności, czy jest to po prostu kwota wzrostu RSS po …

40 r machine-learning random-forest importance

4

Do czego przydają się rankingi o zmiennym znaczeniu?

Stałem się trochę nihilistą, jeśli chodzi o rankingi o różnym znaczeniu (w kontekście wszelkiego rodzaju modeli wielowymiarowych). Często w trakcie pracy jestem proszony o pomoc innym zespołom w tworzeniu rankingu o zmiennym znaczeniu lub o sporządzenie rankingu o zmiennym znaczeniu z mojej pracy. W odpowiedzi na te pytania zadaję następujące …

25 multiple-regression multivariate-analysis importance

4

Maksymalna liczba zmiennych niezależnych, które można wprowadzić do równania regresji wielokrotnej

Jaki jest limit liczby zmiennych niezależnych, które można wprowadzić w równaniu regresji wielokrotnej? Mam 10 predyktorów, które chciałbym zbadać pod kątem ich względnego udziału w zmiennej wyniku. Czy powinienem zastosować korekcję Bonferroniego, aby dostosować się do wielu analiz?

19 regression predictor importance bonferroni

3

Szacowanie najważniejszych funkcji partycji k-średnich klastra

Czy istnieje sposób na określenie, które cechy / zmienne zestawu danych są najważniejsze / dominujące w ramach rozwiązania k-średnich klastrów?

19 machine-learning clustering k-means importance

2

Zmienna ważność od GLMNET

Patrzę na użycie lasso jako metody wybierania cech i dopasowywania modelu predykcyjnego do celu binarnego. Poniżej znajduje się kod, z którym bawiłem się, aby wypróbować metodę ze znormalizowaną regresją logistyczną. Moje pytanie brzmi: otrzymuję grupę „znaczących” zmiennych, ale czy jestem w stanie uporządkować je w celu oszacowania względnej ważności każdej …

18 logistic importance glmnet

2

Ważność funkcji w przypadku zmiennych zastępczych

Próbuję zrozumieć, w jaki sposób mogę uzyskać znaczenie funkcji zmiennej jakościowej, która została podzielona na zmienne fikcyjne. Używam scikit-learn, który nie obsługuje zmiennych kategorialnych tak jak R lub H2O. Jeśli podzielę zmienną kategorialną na zmienne pozorne, otrzymam osobne importy cech dla każdej klasy w tej zmiennej. Moje pytanie brzmi: czy …

18 categorical-data random-forest interpretation importance

5

Zrozumienie, które cechy były najważniejsze dla regresji logistycznej

Zbudowałem klasyfikator regresji logistycznej, który jest bardzo dokładny na moich danych. Teraz chcę lepiej zrozumieć, dlaczego tak dobrze działa. W szczególności chciałbym uszeregować, które funkcje mają największy udział (które cechy są najważniejsze) i, najlepiej, obliczyć, ile każda cecha przyczynia się do dokładności całego modelu (lub czegoś w tym stylu). Jak …

17 machine-learning logistic feature-selection importance

3

Jak podzielić r-kwadrat między zmienne predykcyjne w regresji wielokrotnej?

Właśnie przeczytałem artykuł, w którym autorzy przeprowadzili regresję wielokrotną z dwoma predyktorami. Ogólna wartość r-kwadrat wynosiła 0,65. Dostarczyły tabelę, która dzieli r-kwadrat między dwa predyktory. Stół wyglądał tak: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 …

16 r multiple-regression r-squared importance variance-decomposition

1

Dlaczego w Random Forest losowy podzbiór funkcji jest wybierany na poziomie węzła, a nie na poziomie drzewa?

Moje pytanie: Dlaczego losowy las rozważa losowe podzbiory funkcji do podziału na poziomie węzłów w obrębie każdego drzewa, a nie na poziomie drzewa ? Tło: To jest pytanie historyczne. Tin Kam Ho opublikował ten artykuł na temat budowy „lasów decyzyjnych”, losowo wybierając podzbiór cech do uprawy każdego drzewa w 1998 …

14 machine-learning feature-selection random-forest importance history

4

Porównywanie znaczenia różnych zestawów predyktorów

Doradzałem studentowi badawczemu z konkretnym problemem i chciałem uzyskać wkład innych na tej stronie. Kontekst: Badacz miał trzy typy zmiennych predykcyjnych. Każdy typ zawiera inną liczbę zmiennych predykcyjnych. Każdy predyktor był zmienną ciągłą: Społecznościowe: S1, S2, S3, S4 (tj. Cztery predyktory) Poznawcze: C1, C2 (tj. Dwa predyktory) Zachowanie: B1, B2, …

13 regression predictor importance

2

Jak obliczyć względne znaczenie zmiennej w regresji logistycznej w kategoriach p?

Załóżmy, że model regresji logistycznej służy do przewidywania, czy kupujący online kupi produkt (wynik: zakup) po kliknięciu zestawu reklam online (predyktory: Ad1, Ad2 i Ad3). Wynikiem jest zmienna binarna: 1 (zakupiona) lub 0 (nie zebrana). Predyktory są również zmiennymi binarnymi: 1 (kliknięte) lub 0 (nie kliknięte). Więc wszystkie zmienne są …

11 logistic importance

1

błąd randomForest i zmienna ważność?

Nie dostaję różnicy między rfobject$importancei importance(rfobject)w kolumnie MeanDecreaseAccuracy. Przykład: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) …

10 r random-forest importance

2

Zmienne znaczenie losowe Najmniejsze wartości ujemne

Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?

10 machine-learning feature-selection random-forest importance

1

Jak porównać obserwowane i oczekiwane zdarzenia?

Załóżmy, że mam jedną próbkę częstotliwości 4 możliwych zdarzeń: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 i mam spodziewane prawdopodobieństwo wystąpienia moich zdarzeń: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 Dzięki sumie obserwowanych częstotliwości moich czterech zdarzeń (18) mogę obliczyć …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

Pytania otagowane jako importance