Statystyki i duże zbiory danych regression

2

Jaka jest skorygowana formuła R-kwadrat w lm w R i jak należy ją interpretować?

Jaka jest dokładna formuła zastosowana w R lm() dla skorygowanego kwadratu R? Jak mogę to zinterpretować? Skorygowane formuły r-kwadrat Wydaje się, że istnieje kilka wzorów do obliczania skorygowanego kwadratu R. Wzór Wherry:1 - ( 1 - R2)) ( n - 1 )( n - v )1-(1-R2))(n-1)(n-przeciwko)1-(1-R^2)\frac{(n-1)}{(n-v)} Wzór McNemara:1 - ( …

35 r regression r-squared lm shrinkage

2

Cel funkcji połączenia w uogólnionym modelu liniowym

Jaki jest cel funkcji łączenia jako elementu uogólnionego modelu liniowego? Dlaczego tego potrzebujemy? Wikipedia stwierdza: Wygodne może być dopasowanie dziedziny funkcji link do zakresu średniej funkcji dystrybucji Jaka jest zaleta robienia tego?

35 regression generalized-linear-model link-function irls

5

Jakie są najlepsze praktyki w identyfikowaniu efektów interakcji?

Inne niż dosłowne testowanie każdej możliwej kombinacji zmiennych w modelu ( x1:x2lub x1*x2 ... xn-1 * xn). Jak rozpoznać, czy interakcja POWINNA lub MOŻE istnieć między zmiennymi niezależnymi (miejmy nadzieję)? Jakie są najlepsze praktyki w próbach identyfikacji interakcji? Czy istnieje technika graficzna, której możesz użyć?

35 regression modeling interaction

7

Wybór zmiennych do uwzględnienia w modelu wielokrotnej regresji liniowej

Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć. Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery zostały uznane za znaczące. Jeśli usunę tylko niektóre z …

35 regression multiple-regression feature-selection modeling model-selection

1

Regresja logistyczna: test chi-kwadrat anova vs. istotność współczynników (anova () vs podsumowanie () w R)

Mam logistyczny model GLM z 8 zmiennymi. Przeprowadziłem test chi-kwadrat w R, anova(glm.model,test='Chisq')a 2 zmienne okazały się predykcyjne, gdy zamówiono je u góry testu, i nie tak bardzo, gdy zamówiono u dołu. summary(glm.model)Sugeruje, że ich współczynniki są nieznaczne (wysoka wartość p). W tym przypadku wydaje się, że zmienne nie są …

35 r regression logistic statistical-significance generalized-linear-model

3

Sprzeczność istotności w regresji liniowej: istotny test t dla współczynnika vs nieistotna ogólna statystyka F

Dopasowuję model wielokrotnej regresji liniowej między 4 zmiennymi kategorialnymi (z 4 poziomami każda) i danymi liczbowymi. Mój zestaw danych ma 43 obserwacje. Regresja daje mi następujące wartości z testu dla każdego współczynnika nachylenia: . Tak więc współczynnik dla 4. predyktora jest istotny na poziomie ufności .pppttt.15 , .67 , .27 …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

3

Co to jest pozostały błąd standardowy?

Podczas uruchamiania modelu regresji wielokrotnej w R jednym z wyjść jest resztkowy błąd standardowy wynoszący 0,0589 przy 95161 stopniach swobody. Wiem, że 95.161 stopni swobody wynika z różnicy między liczbą obserwacji w mojej próbce a liczbą zmiennych w moim modelu. Jaki jest pozostały błąd standardowy?

35 regression standard-error residuals

4

Dlaczego regresja logistyczna staje się niestabilna, gdy klasy są dobrze rozdzielone?

Dlaczego regresja logistyczna staje się niestabilna, gdy klasy są dobrze rozdzielone? Co oznaczają dobrze oddzielone klasy? Byłbym bardzo wdzięczny, gdyby ktoś mógł wyjaśnić na przykładzie.

34 r regression logistic separation

5

Co jeśli moje dane regresji liniowej zawierają kilka współzależnych zależności liniowych?

Powiedzmy, że badam, jak żonkile reagują na różne warunki glebowe. Zebrałem dane na temat pH gleby w porównaniu do dojrzałej wysokości żonkila. Oczekuję relacji liniowej, więc zaczynam o regresji liniowej. Jednak nie zdawałem sobie sprawy, kiedy rozpocząłem badanie, że populacja zawiera dwie odmiany żonkila, z których każda reaguje bardzo różnie …

34 regression linear-model dataset

3

R - Mylone z terminologią resztkową

Błąd średniej kwadratowej rezydualna suma kwadratów błąd resztkowy standardowy średni błąd kwadratu błąd testu Myślałem, że kiedyś rozumiałem te terminy, ale im więcej robię problemów statystycznych, tym bardziej się mylę, gdy się domyślam. Chciałbym trochę pewności i konkretnego przykładu Potrafię łatwo znaleźć równania w Internecie, ale mam problem z uzyskaniem …

34 r regression residuals

2

Interpretacja wykresu reszt i dopasowanych wartości w celu weryfikacji założeń modelu liniowego

Rozważ następującą liczbę z modeli liniowych Faraway z R (2005, s. 59). Pierwszy wykres wydaje się wskazywać, że reszty i dopasowane wartości są nieskorelowane, ponieważ powinny być w homoscedastycznym modelu liniowym z błędami o rozkładzie normalnym. Dlatego drugi i trzeci wykres, które wydają się wskazywać na zależność między wartościami resztkowymi …

34 regression residuals assumptions graphical-model

4

X i Y nie są skorelowane, ale X jest znaczącym predyktorem Y w regresji wielokrotnej. Co to znaczy?

X i Y nie są skorelowane (-.01); jednak gdy umieszczam X w regresji wielokrotnej przewidującej Y, obok trzech (A, B, C) innych (powiązanych) zmiennych, X i dwie inne zmienne (A, B) są znaczącymi predyktorami Y. Zwróć uwagę, że dwie pozostałe ( A, B) zmienne są istotnie skorelowane z Y poza …

34 regression correlation interpretation causality

3

W jaki sposób walidacja krzyżowa rozwiązuje problem nadmiernego dopasowania?

Dlaczego procedura walidacji krzyżowej rozwiązuje problem nadmiernego dopasowania modelu?

34 regression model-selection cross-validation

6

Eksploracja danych: jak powinienem znaleźć formę funkcjonalną?

Jestem ciekaw powtarzalnych procedur, które mogą być wykorzystane do odkrywania postaci funkcyjnej funkcji y = f(A, B, C) + error_term, gdzie jest mój tylko wejście jest zbiorem obserwacji ( y, A, Bi C). Należy pamiętać, że funkcjonalna forma fjest nieznana. Rozważ następujący zestaw danych: AA BB CC DD EE FF …

34 regression machine-learning algorithms model-selection data-mining

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

Pytania otagowane jako regression