Bawiłem się losowymi lasami w celu regresji i mam trudności z ustaleniem, co dokładnie oznaczają dwie miary ważności i jak należy je interpretować. importance()Funkcja daje dwie wartości dla każdej zmiennej: %IncMSEa IncNodePurity. Czy istnieją proste interpretacje tych 2 wartości? W IncNodePurityszczególności, czy jest to po prostu kwota wzrostu RSS po …
Stałem się trochę nihilistą, jeśli chodzi o rankingi o różnym znaczeniu (w kontekście wszelkiego rodzaju modeli wielowymiarowych). Często w trakcie pracy jestem proszony o pomoc innym zespołom w tworzeniu rankingu o zmiennym znaczeniu lub o sporządzenie rankingu o zmiennym znaczeniu z mojej pracy. W odpowiedzi na te pytania zadaję następujące …
Jaki jest limit liczby zmiennych niezależnych, które można wprowadzić w równaniu regresji wielokrotnej? Mam 10 predyktorów, które chciałbym zbadać pod kątem ich względnego udziału w zmiennej wyniku. Czy powinienem zastosować korekcję Bonferroniego, aby dostosować się do wielu analiz?
Patrzę na użycie lasso jako metody wybierania cech i dopasowywania modelu predykcyjnego do celu binarnego. Poniżej znajduje się kod, z którym bawiłem się, aby wypróbować metodę ze znormalizowaną regresją logistyczną. Moje pytanie brzmi: otrzymuję grupę „znaczących” zmiennych, ale czy jestem w stanie uporządkować je w celu oszacowania względnej ważności każdej …
Próbuję zrozumieć, w jaki sposób mogę uzyskać znaczenie funkcji zmiennej jakościowej, która została podzielona na zmienne fikcyjne. Używam scikit-learn, który nie obsługuje zmiennych kategorialnych tak jak R lub H2O. Jeśli podzielę zmienną kategorialną na zmienne pozorne, otrzymam osobne importy cech dla każdej klasy w tej zmiennej. Moje pytanie brzmi: czy …
Zbudowałem klasyfikator regresji logistycznej, który jest bardzo dokładny na moich danych. Teraz chcę lepiej zrozumieć, dlaczego tak dobrze działa. W szczególności chciałbym uszeregować, które funkcje mają największy udział (które cechy są najważniejsze) i, najlepiej, obliczyć, ile każda cecha przyczynia się do dokładności całego modelu (lub czegoś w tym stylu). Jak …
Właśnie przeczytałem artykuł, w którym autorzy przeprowadzili regresję wielokrotną z dwoma predyktorami. Ogólna wartość r-kwadrat wynosiła 0,65. Dostarczyły tabelę, która dzieli r-kwadrat między dwa predyktory. Stół wyglądał tak: rsquared beta df pvalue whole model 0.65 NA 2, 9 0.008 predictor 1 0.38 1.01 1, 10 0.002 predictor 2 0.27 0.65 …
Moje pytanie: Dlaczego losowy las rozważa losowe podzbiory funkcji do podziału na poziomie węzłów w obrębie każdego drzewa, a nie na poziomie drzewa ? Tło: To jest pytanie historyczne. Tin Kam Ho opublikował ten artykuł na temat budowy „lasów decyzyjnych”, losowo wybierając podzbiór cech do uprawy każdego drzewa w 1998 …
Doradzałem studentowi badawczemu z konkretnym problemem i chciałem uzyskać wkład innych na tej stronie. Kontekst: Badacz miał trzy typy zmiennych predykcyjnych. Każdy typ zawiera inną liczbę zmiennych predykcyjnych. Każdy predyktor był zmienną ciągłą: Społecznościowe: S1, S2, S3, S4 (tj. Cztery predyktory) Poznawcze: C1, C2 (tj. Dwa predyktory) Zachowanie: B1, B2, …
Załóżmy, że model regresji logistycznej służy do przewidywania, czy kupujący online kupi produkt (wynik: zakup) po kliknięciu zestawu reklam online (predyktory: Ad1, Ad2 i Ad3). Wynikiem jest zmienna binarna: 1 (zakupiona) lub 0 (nie zebrana). Predyktory są również zmiennymi binarnymi: 1 (kliknięte) lub 0 (nie kliknięte). Więc wszystkie zmienne są …
Zadaję sobie pytanie, czy dobrym pomysłem jest usunięcie tych zmiennych o ujemnej wartości ważności zmiennej („% IncMSE”) w kontekście regresji. A jeśli da mi to lepsze prognozy? Co myślisz?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.