Statystyki i duże zbiory danych regression

2

Dopasowuję model efektów losowych glmerdo niektórych danych biznesowych. Celem jest analiza wyników sprzedaży przez dystrybutora, z uwzględnieniem różnic regionalnych. Mam następujące zmienne: distcode: identyfikator dystrybutora z około 800 poziomami region: identyfikator geograficzny najwyższego poziomu (północ, południe, wschód, zachód) zone: zagnieżdżona geografia średniego poziomu region, w sumie około 30 poziomów territory: …

12 r regression mixed-model lme4-nlme

1

Kryteria wyboru „najlepszego” modelu w ukrytym modelu Markowa

Mam zestaw danych szeregów czasowych, do którego próbuję dopasować ukryty model Markowa (HMM) w celu oszacowania liczby stanów ukrytych w danych. Mój pseudo-kod do tego jest następujący: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } Teraz, …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

2

Związek i różnica między szeregami czasowymi a regresją?

Jakie są zależności i różnice między szeregami czasowymi a regresją? Czy w przypadku modeli i założeń jest prawdą, że modele regresji zakładają niezależność między zmiennymi wyjściowymi dla różnych wartości zmiennej wejściowej, podczas gdy model szeregów czasowych nie? Jakie są inne różnice? Dla metod , od strony internetowej przez Darlington Istnieje …

12 regression time-series box-jenkins

1

Testowanie niektórych kontrastów: czy jest to trudny problem, czy nie?

Wysłałem to do mathoverflow i nikt nie odpowiada: Metoda Scheffé do identyfikacji statystycznie istotnych kontrastów jest powszechnie znana. Kontrast wśród środków , o populacji jest liniową kombinacją w którym , a skalarna wielokrotność kontrastu jest zasadniczo tym samym kontrastem, więc można powiedzieć, że zestaw kontrastów jest przestrzenią rzutową. Metoda Scheffé'a …

12 regression hypothesis-testing contrasts np

2

Różnica w raportowanych wartościach p między lm i aov w R

Co wyjaśnia różnice w wartościach p poniżej aovi lmwywołań? Czy różnica wynika tylko z różnych rodzajów obliczeń sum kwadratów? set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

12 r regression anova linear-model sums-of-squares

3

Prognozowanie danych zliczania w losowym lesie

Czy można wyszkolić losowy las, aby odpowiednio przewidywał dane zliczania? Jak by to przebiegło? Mam dość szeroki zakres wartości, więc klasyfikacja naprawdę nie ma sensu. Gdybym użył regresji, czy po prostu obciąłbym wyniki? Jestem tu całkiem zagubiony. Jakieś pomysły?

12 r regression random-forest prediction count-data

3

Czy korelacja lub współczynnik determinacji odnoszą się do odsetka wartości, które mieszczą się wzdłuż linii regresji?

Korelacja jest miarą liniowego powiązania między dwiema zmiennymi. Współczynnik determinacji, , jest miarą tego, jak dużą zmienność jednej zmiennej można „wyjaśnić” zmiennością drugiej.r 2rrrr2)r2r^2 Na przykład, jeśli jest korelacją między dwiema zmiennymi, to . Stąd 64% zmienności w jednym z nich można wytłumaczyć różnicami w drugim. Dobrze?r 2 = 0,64r …

12 regression correlation r-squared

1

Regresja liniowa z powtarzanymi pomiarami w R

Nie byłem w stanie wymyślić, jak przeprowadzić regresję liniową w R dla projektu z powtarzanymi pomiarami. W poprzednim pytaniu (wciąż bez odpowiedzi) zasugerowano mi, aby nie używać, lmale raczej używać modeli mieszanych. Użyłem lmw następujący sposób: lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (więcej szczegółów na temat zestawu danych można znaleźć pod linkiem …

12 r regression mixed-model repeated-measures

1

Różnice między PROC Mixed i lme / lmer w R - stopnie swobody

Uwaga: to pytanie jest repost, ponieważ moje poprzednie pytanie musiało zostać usunięte ze względów prawnych. Porównując PROC MIXED z SAS z funkcją lmez nlmepakietu w R, natknąłem się na pewne dość mylące różnice. Mówiąc dokładniej, stopnie swobody w różnych testach różnią się między PROC MIXEDi lmezastanawiałem się, dlaczego. Zacznij od …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

1

Jak wybierać zmienne w modelu regresji?

Tradycyjne podejście do wyboru zmiennych polega na znalezieniu zmiennych, które najbardziej przyczyniają się do przewidywania nowej odpowiedzi. Ostatnio dowiedziałem się o alternatywie. W modelowaniu zmiennych, które określają efekt leczenia - jak na przykład w badaniu klinicznym farmaceutyka - mówi się, że zmienna oddziałuje jakościowoz leczeniem, jeśli pozostawiając inne rzeczy naprawione, …

12 regression feature-selection

2

Analiza współczynników regresji logistycznej

Oto lista współczynników regresji logistycznej (pierwszy to przechwycenie) -1059.61966694592 -1.23890500515482 -8.57185269220438 -7.50413155570413 0 1.03152408392552 1.19874787949191 -4.88083274930613 -5.77172565873336 -1.00610998453393 Dziwne wydaje mi się, że przecięcie jest tak niskie i mam współczynnik, który w rzeczywistości jest równy 0. Nie jestem w pełni pewien, jak bym to zinterpretował. Czy 0 wskazuje, że konkretna …

12 regression logistic

2

Krzyżowa walidacja i porządkowa regresja logistyczna

Próbuję zrozumieć cross-validation dla porządkowej regresji logistycznej. Celem gry jest sprawdzenie modelu zastosowanego w analizie ... Najpierw buduję zestaw danych zabawek: set.seed(1) N <- 10000 # predictors x1 <- runif(N) x2 <- runif(N) x3 <- runif(N) # coeffs in the model a <- c(-2,-1) x <- -x1+2*x2+x3 # P( y …

12 regression cross-validation ordered-logit rms

1

Częściowa regresja najmniejszych kwadratów w R: dlaczego PLS na znormalizowanych danych nie jest równoważny maksymalizacji korelacji?

Jestem bardzo nowy w częściowych najmniejszych kwadratach (PLS) i staram się zrozumieć wynik funkcji R plsr()w plspakiecie. Symulujmy dane i uruchom PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- …

12 r regression partial-least-squares

1

Hosmer-Lemeshow vs AIC dla regresji logistycznej

Jeśli Hosmer-Lemeshow wskazuje na brak dopasowania, ale AIC jest najniższy spośród wszystkich modeli ... czy nadal powinieneś używać tego modelu? Jeśli usunę zmienną, statystyka Hosmera-Lemeshowa nie będzie znacząca (co oznacza, że nie ma rażącego braku dopasowania). Ale AIC wzrasta. Edycja : Ogólnie myślę, że jeśli AIC różnych modeli są sobie …

12 regression logistic hosmer-lemeshow-test

2

Różnica między testem t a ANOVA w regresji liniowej

Zastanawiam się, jakie są różnice między testem t a ANOVA w regresji liniowej? Czy test t sprawdza, czy którykolwiek z nachyleń i przecięcia ma średnią zero, podczas gdy ANOVA sprawdza, czy wszystkie nachylenia mają średnią zero? Czy to jedyna różnica między nimi? W prostej regresji liniowej, tj. Gdy istnieje tylko …

12 regression anova t-test

Pytania otagowane jako regression