Statystyki i duże zbiory danych modeling

2

Biorąc pod uwagę dwa modele regresji liniowej, który model byłby lepszy?

Na studiach podjąłem kurs uczenia maszynowego. W jednym z quizów zadano to pytanie. Model 1: y=θx+ϵy=θx+ϵ y = \theta x + \epsilon Model 2: y=θx+θ2x+ϵy=θx+θ2x+ϵ y = \theta x + \theta^2 x + \epsilon Który z powyższych modeli lepiej pasowałby do danych? (załóżmy, że dane mogą być modelowane przy użyciu …

14 regression machine-learning self-study modeling model

3

Koncepcje modeli efektów stałych / losowych

Czy ktoś może mi pomóc zrozumieć modele efektów stałych / losowych? Możesz albo wyjaśnić na swój sposób, czy trawiłeś te pojęcia, albo skierować mnie do zasobu (książki, notatek, strony internetowej) z określonym adresem (numer strony, rozdział itp.), Abym mógł się ich nauczyć bez żadnych wątpliwości. Czy to prawda: „Mamy ogólnie …

14 mixed-model modeling random-effects-model fixed-effects-model

1

Współczynniki regresji, czyli pytania o Kronmal

Niedawno losowe przeglądanie pytań wywołało wspomnienie podpowiedzi jednego z moich profesorów sprzed kilku lat ostrzegających o stosowaniu współczynników w modelach regresji. Zacząłem więc o tym czytać, prowadząc ostatecznie do Kronmal 1993. Chcę się upewnić, że poprawnie interpretuję jego sugestie dotyczące sposobu ich modelowania. Dla modelu o stosunku o tym samym …

14 regression modeling interaction weighted-regression ratio

2

Model szacowania gęstości zaludnienia

Baza danych (populacja, powierzchnia, kształt) może być wykorzystana do mapowania gęstości zaludnienia poprzez przypisanie stałej wartości populacji / obszaru do każdego kształtu (który jest wielokątem, takim jak blok spisu, obszar, okręg, stan, cokolwiek innego). Jednak populacje zwykle nie są równomiernie rozmieszczone w obrębie swoich wielokątów. Mapowanie dasymetryczne to proces udoskonalania …

14 modeling unbiased-estimator spatial

2

Wyjaśnij dostosowanie modelu, w prostym języku angielskim

Czytając o metodach i wynikach analizy statystycznej, szczególnie w epidemiologii, bardzo często słyszę o dostosowaniu lub kontroli modeli. Jak wytłumaczyłbyś niestatystycznemu cel tego? Jak interpretujesz swoje wyniki po kontrolowaniu pewnej zmiennej? Mały spacer po Stata lub R, lub wskaźnik do jednego online, byłby prawdziwym klejnotem.

14 regression modeling epidemiology

3

Zastąpienie zmiennych WoE (waga dowodu) w regresji logistycznej

To pytanie dotyczy praktyki lub metody stosowanej przez niektórych moich kolegów. Podczas tworzenia modelu regresji logistycznej widziałem, jak ludzie zastępują zmienne kategoryczne (lub zmienne ciągłe, które są binowane) ich odpowiednią wagą dowodu (WoE). Podobno ma to na celu ustanowienie monotonicznej relacji między regresorem a zmienną zależną. O ile rozumiem, po …

14 regression logistic categorical-data modeling

2

Czy przewidywanie jest „złotym kryterium” do oceny zdolności statystycznych?

W zeszły weekend czytałem podręczniki modeli liniowych Faraway z R (1. edycja). Faraway miał rozdział zatytułowany „Strategia statystyczna i niepewność modelu”. Opisał (strona 158), że sztucznie wygenerowany niektóre dane przy użyciu bardzo skomplikowany model, a następnie poprosił swoich uczniów do modelowania danych i porównać studentów przewidywanych wyników vs odczytu wyników. …

13 predictive-models modeling interpretation

1

Parametry a zmienne ukryte

Pytałem o to wcześniej i naprawdę miałem problemy z określeniem, co czyni parametr modelu, a co czyni go zmienną ukrytą. Więc patrząc na różne wątki na ten temat na tej stronie, głównym rozróżnieniem wydaje się być: Zmienne utajone nie są obserwowane, ale mają z nimi powiązany rozkład prawdopodobieństwa, ponieważ są …

13 bayesian modeling random-variable latent-variable

1

Błąd addytywny czy błąd mnożenia?

Jestem stosunkowo nowy w statystyce i byłbym wdzięczny za pomoc w lepszym zrozumieniu tego. W mojej dziedzinie znajduje się powszechnie stosowany model formularza: P.t= Po( Vt)αPt=Po(Vt)αP_t = P_o(V_t)^\alpha Kiedy ludzie dopasowują model do danych, zwykle linearyzują go i dopasowują do poniższych log( Pt) = log( Po) + dziennik α( Vt) …

13 modeling model error curve-fitting measurement-error

1

AIC / BIC: dla ilu parametrów liczy się permutacja?

Powiedzmy, że mam problem z wyborem modelu i próbuję użyć AIC lub BIC do oceny modeli. Jest to proste w przypadku modeli, które mają pewną liczbę parametrów o wartościach rzeczywistych.kkk Co jednak, jeśli jeden z naszych modeli (na przykład model Mallowsa ) ma permutację plus niektóre parametry o wartości rzeczywistej …

13 modeling maximum-likelihood aic fitting bic

1

Techniki analizy wskaźników

Szukam porad i komentarzy dotyczących analizy wskaźników i stawek. W dziedzinie, w której pracuję, analiza wskaźników jest powszechna, ale przeczytałem kilka artykułów, które sugerują, że może to być problematyczne, myślę o: Kronmal, Richard A. 1993. Ponownie zbadano fałszywą korelację i błędność standardu współczynnika. Journal of Royal Statistics Society Series A …

13 modeling multiple-regression generalized-linear-model interaction confounding

2

Komplikacje posiadania bardzo małej próbki w modelu równań strukturalnych

Korzystam z modelu równań strukturalnych (SEM) w Amos 18. Szukałem 100 uczestników do mojego eksperymentu (używanego luźno), który prawdopodobnie został uznany za niewystarczający do przeprowadzenia udanego SEM. Wielokrotnie mówiono mi, że SEM (wraz z EFA, CFA) jest procedurą statystyczną „dużej próby”. Krótko mówiąc, nie dotarłem do 100 uczestników (co za …

13 modeling sample-size bootstrap sem

1

LARS vs zejście współrzędnych dla lasso

Jakie są zalety i wady korzystania z LARS [1] w porównaniu ze stosowaniem opadania współrzędnych w celu dopasowania regresji liniowej regulowanej przez L1? Interesują mnie głównie aspekty wydajności (moje problemy występują zwykle Nw setkach tysięcy i p<20). Jednak wszelkie inne spostrzeżenia byłyby również mile widziane. edytuj: Od kiedy opublikowałem pytanie, …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

5

Kiedy używać wielu modeli do prognozowania?

To jest dość ogólne pytanie: Zazwyczaj stwierdziłem, że użycie wielu różnych modeli przewyższa jeden model, gdy próbuję przewidzieć szereg czasowy na podstawie próby. Czy są jakieś dobre dokumenty, które pokazują, że kombinacja modeli przewyższy pojedynczy model? Czy istnieją jakieś najlepsze praktyki dotyczące łączenia wielu modeli? Niektóre referencje: Hui Zoua, Yuhong …

13 time-series modeling model-comparison

1

Pakiet GBM vs. Caret korzystający z GBM

Stroiłem model przy użyciu caret, ale potem ponownie uruchomiłem model przy użyciu gbmpakietu. Rozumiem, że caretpakiet używa gbmi wynik powinien być taki sam. Jednak tylko szybki test przy użyciu data(iris)wykazuje rozbieżność w modelu około 5% przy użyciu RMSE i R ^ 2 jako metryki oceny. Chcę znaleźć optymalną wydajność modelu …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

Pytania otagowane jako modeling