Resztki modelu to wartości rzeczywiste minus wartości prognozowane. Wiele modeli statystycznych przyjmuje założenia dotyczące błędu, który jest szacowany na podstawie reszt.
To pytanie wynika z mojego faktycznego zamieszania dotyczącego tego, jak zdecydować, czy model logistyczny jest wystarczająco dobry. Mam modele, które wykorzystują stan par projekt indywidualny dwa lata po ich uformowaniu jako zmienna zależna. Wynik jest udany (1) lub nie (0). Mam zmienne niezależne mierzone w czasie tworzenia par. Moim celem …
Dyskutowałem na ten temat z kilkoma członkami laboratorium i poszliśmy do kilku źródeł, ale wciąż nie do końca mamy odpowiedź: Kiedy mówimy, że GLM ma rodzinę Poissona , powiedzmy, czy mówimy o rozkładzie reszt lub zmiennej odpowiedzi? Punkty sporne Czytając ten artykuł, stwierdza się, że założenia GLM to: statystyczna niezależność …
Stroiłem model przy użyciu caret, ale potem ponownie uruchomiłem model przy użyciu gbmpakietu. Rozumiem, że caretpakiet używa gbmi wynik powinien być taki sam. Jednak tylko szybki test przy użyciu data(iris)wykazuje rozbieżność w modelu około 5% przy użyciu RMSE i R ^ 2 jako metryki oceny. Chcę znaleźć optymalną wydajność modelu …
Podczas modelowania szeregów czasowych można (1) modelować strukturę korelacyjną terminów błędów, ponieważ np. Proces AR (1) (2) obejmuje zmienną zależną opóźnioną jako zmienną objaśniającą (po prawej stronie) Rozumiem, że są to czasem istotne powody, dla których warto (2). Jakie są jednak metodologiczne powody, aby zrobić (1) lub (2), a nawet …
W tym miejscu omawiana jest błędna interpretacja założenia normalności w regresji liniowej (że „normalność” odnosi się do X i / lub Y zamiast do reszt), a plakat pyta, czy możliwe jest uzyskanie nietypowo rozłożonych X i Y i nadal mają normalnie rozłożone resztki. Moje pytanie brzmi: czy zwykle rozkład X …
Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …
Dlaczego konieczne jest założenie podziału na błędy, tj yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , z ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) . Dlaczego nie napisać? yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , z yi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , gdzie w obu przypadkach ϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} . Podkreśliłem, że założenia dystrybucyjne dotyczą błędów, a …
Jestem doktorantem z psychologii eksperymentalnej i staram się doskonalić swoje umiejętności i wiedzę na temat analizy moich danych. Do piątego roku studiów w psychologii myślałem, że modele podobne do regresji (np. ANOVA) zakładają następujące rzeczy: normalność danych jednorodność wariancji danych i tak dalej Moje studia licencjackie doprowadziły mnie do przekonania, …
Wykonuję uogólniony model liniowy, w którym muszę określić rodzinę inną niż normalna. Jaki jest oczekiwany rozkład reszt? Na przykład, czy reszty powinny być rozkładane normalnie?
To pytanie jest dość ogólne i wyczerpujące, ale proszę o wyrozumiałość. W mojej aplikacji mam wiele zestawów danych, z których każdy składa się z ~ 20 000 punktów danych z ~ 50 funkcjami i jedną zależną zmienną binarną. Usiłuję modelować zestawy danych przy użyciu regularnej regresji logistycznej (pakiet R glmnet …
Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …
W prostej regresji liniowej często chce się sprawdzić, czy spełnione są pewne założenia, aby móc wnioskować (np. Reszty są zwykle rozkładane). Czy uzasadnione jest sprawdzenie założeń poprzez sprawdzenie, czy dopasowane wartości są zwykle rozkładane?
Mam regresję liniową, która, jak sądzę, jest całkiem dobra (dotyczy projektu uniwersyteckiego, więc tak naprawdę nie muszę być bardzo dokładna). Chodzi o to, że jeśli wykreślę wartości rezydualne w stosunku do wartości przewidywanych, to (według mojego nauczyciela) jest wskazówka heteroskedastyczności. Ale jeśli wykreślę wykres QQ reszt, jasne jest, że są …
Kiedy wykonujesz regresję OLS i wykreślasz wynikowe reszty, w jaki sposób możesz stwierdzić, czy reszty są autokorelowane? Wiem, że istnieją na to testy (Durbin, Breusch-Godfrey), ale zastanawiałem się, czy możesz po prostu spojrzeć na wykres, aby ocenić, czy autokorelacja może stanowić problem (ponieważ dla heteroskedastyczności jest to dość łatwe).
Próbuję oszacować wielokrotną regresję liniową w R za pomocą następującego równania: regr <- lm(rate ~ constant + askings + questions + 0) pytania i pytania są kwartalnymi szeregami czasowymi danych, zbudowanymi z askings <- ts(...). Problem polega na tym, że otrzymałem resztki autokorelowane. Wiem, że można dopasować regresję za pomocą …
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.