Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć. Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery zostały uznane za znaczące. Jeśli usunę tylko niektóre z …
W zbiorze danych dwóch nie pokrywających się populacji (pacjenci i osoby zdrowe, ogółem n=60n=60n=60 ) chciałbym znaleźć (spośród zmiennych niezależnych) znaczące predyktory dla zmiennej zależnej ciągłej. Występuje korelacja między predyktorami. Chcę dowiedzieć się, czy któryś z predyktorów jest powiązany ze zmienną zależną „w rzeczywistości” (zamiast przewidywać zmienną zależną tak dokładnie, …
Typowe procedury wyboru zmiennych oparte na danych (na przykład do przodu, do tyłu, krokowo, wszystkie podzbiory) mają tendencję do uzyskiwania modeli o niepożądanych właściwościach, w tym: Współczynniki odchylone od zera. Błędy standardowe, które są zbyt małe, a przedziały ufności, które są zbyt wąskie. Testuj statystyki i wartości p, które nie …
Jakiego wyboru zmiennych / cech preferujesz do klasyfikacji binarnej, gdy w zestawie do nauki jest o wiele więcej zmiennych / cech niż obserwacji? Celem jest omówienie procedury wyboru funkcji, która najlepiej redukuje błąd klasyfikacji. Możemy poprawić notacje dla spójności: dla , niech będą zestawem uczącym się obserwacji z grupy . …
Mam zestaw danych z 9 ciągłymi zmiennymi niezależnymi. Staram się wybierać między tymi zmiennymi, aby dopasować model do jednego procentu (zależnej) zmiennej Score. Niestety wiem, że między kilkoma zmiennymi wystąpi poważna kolinearność. Próbowałem użyć stepAIC()funkcji w R do wyboru zmiennych, ale ta metoda, co dziwne, wydaje się wrażliwa na kolejność, …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Mam klasyfikator, na którym przeprowadzam walidację krzyżową, wraz z około setką funkcji, które wybieram do przodu, aby znaleźć optymalne kombinacje funkcji. Porównuję to również z przeprowadzaniem tych samych eksperymentów z PCA, w których biorę potencjalne cechy, stosuję SVD, przekształcam oryginalne sygnały w nową przestrzeń współrzędnych i używam najlepszych funkcji w …
Dla regresji Lasso załóżmy że najlepsze rozwiązanie (na przykład minimalny błąd testowania) wybiera k funkcji, więc \ hat {\ beta} ^ {lasso} = \ left (\ hat {\ beta} _1 ^ {lasso}, \ hat {\ beta} _2 ^ {lasso}, ..., \ hat {\ beta} _k ^ {lasso}, 0, ... 0 …
Mam zestaw danych zawierający maksymalnie 150 przykładów (z podziałem na szkolenia i testy), z wieloma funkcjami (ponad 1000). Muszę porównać klasyfikatory i metody wyboru cech, które dobrze sprawdzają się w danych. Tak więc używam trzech metod klasyfikacji (J48, NB, SVM) i 2 metod wyboru funkcji (CFS, WrapperSubset) z różnymi metodami …
Wprowadzenie: Mam zestaw danych z klasycznym „dużym problemem p, małym n”. Liczba dostępnych próbek n = 150, a liczba możliwych predyktorów p = 400. Wynik jest zmienną ciągłą. Chcę znaleźć najważniejsze „deskryptory”, tj. Te, które są najlepszymi kandydatami do wyjaśnienia wyniku i pomocy w zbudowaniu teorii. Po badaniach na ten …
Próbując wybrać spośród różnych modeli lub liczby funkcji do uwzględnienia, powiedzmy przewidywanie, że mogę wymyślić dwa podejścia. Podziel dane na zestawy szkoleniowe i testowe. Jeszcze lepiej, użyj ładowania początkowego lub krzyżowej weryfikacji K-fold. Trenuj na zestawie treningowym za każdym razem i oblicz błąd w stosunku do zestawu testowego. Błąd testu …
Jaka jest właściwość wyroczni estymatora? Dla jakich celów modelowania właściwość wyroczni jest istotna (predykcyjne, wyjaśniające, ...)? Mile widziane są zarówno teoretycznie rygorystyczne, jak i (szczególnie) intuicyjne wyjaśnienia.
Przeprowadzam mały eksperyment z regresją LASSO w R, aby sprawdzić, czy jest w stanie znaleźć idealną parę predyktorów. Para jest zdefiniowana w następujący sposób: f1 + f2 = wynik Rezultatem jest z góry ustalony wektor o nazwie „wiek”. F1 i f2 są tworzone przez pobranie połowy wektora wieku i ustawienie …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.