Statystyki i duże zbiory danych multiple-regression

3

Dlaczego regresja wielomianowa jest uważana za szczególny przypadek wielokrotnej regresji liniowej?

Jeśli regresja wielomianowa modeluje relacje nieliniowe, to jak można to uznać za szczególny przypadek wielokrotnej regresji liniowej? Wikipedia zauważa, że „Chociaż regresja wielomianowa pasuje do danych do modelu nieliniowego, jako problem estymacji statystycznej jest ona liniowa, w tym sensie, że funkcja regresji jest liniowa dla nieznanych parametrów, które są szacowane …

38 regression multiple-regression linear-model nonlinear-regression polynomial

2

Regresja wielokrotna czy współczynnik korelacji częściowej? I relacje między nimi

Nie wiem nawet, czy to pytanie ma sens, ale jaka jest różnica między regresją wielokrotną a korelacją częściową (oprócz oczywistych różnic między korelacją a regresją, do czego nie dążę)? Chcę dowiedzieć się, co następuje: Mam dwie zmienne niezależne ( , ) i jedną zmienną zależną ( ). Teraz indywidualnie zmienne …

35 multiple-regression regression-coefficients partial-correlation

7

Wybór zmiennych do uwzględnienia w modelu wielokrotnej regresji liniowej

Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć. Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery zostały uznane za znaczące. Jeśli usunę tylko niektóre z …

35 regression multiple-regression feature-selection modeling model-selection

3

Sprzeczność istotności w regresji liniowej: istotny test t dla współczynnika vs nieistotna ogólna statystyka F

Dopasowuję model wielokrotnej regresji liniowej między 4 zmiennymi kategorialnymi (z 4 poziomami każda) i danymi liczbowymi. Mój zestaw danych ma 43 obserwacje. Regresja daje mi następujące wartości z testu dla każdego współczynnika nachylenia: . Tak więc współczynnik dla 4. predyktora jest istotny na poziomie ufności .pppttt.15 , .67 , .27 …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

5

Jak uzyskać estymator najmniejszych kwadratów dla wielokrotnej regresji liniowej?

W przypadku prostej regresji liniowej można uzyskać estymator najmniejszych kwadratów tak, że nie musisz znać aby oszacowaćy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 Załóżmy, że mam y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , jak uzyskać β^1β^1\hat\beta_1 bez szacowania β^2β^2\hat\beta_2 ? czy to nie jest możliwe?

30 regression multiple-regression generalized-linear-model linear-model

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Jak niepoprawny jest model regresji, gdy założenia nie są spełnione?

Przy dopasowywaniu modelu regresji, co się stanie, jeśli założenia wyników nie zostaną spełnione, w szczególności: Co się stanie, jeśli pozostałości nie będą homoscedastyczne? Jeśli reszty wykazują rosnący lub malejący wzór na wykresie Resztki vs. Dopasowany. Co się stanie, jeśli reszty nie zostaną normalnie rozłożone i nie przejdą testu Shapiro-Wilka? Test …

28 regression multiple-regression error assumptions normality-assumption

2

Dlaczego wartości p wprowadzają w błąd po dokonaniu selekcji stopniowej?

Rozważmy na przykład model regresji liniowej. Słyszałem, że w eksploracji danych, po przeprowadzeniu selekcji krokowej na podstawie kryterium AIC, mylące jest spojrzenie na wartości p w celu przetestowania hipotezy zerowej, że każdy prawdziwy współczynnik regresji wynosi zero. Słyszałem, że należy rozważyć wszystkie zmienne pozostawione w modelu jako mające prawdziwy współczynnik …

28 multiple-regression predictive-models data-mining stepwise-regression

6

Dlaczego potrzebujemy regresji wielowymiarowej (w przeciwieństwie do szeregu regresji jednowymiarowych)?

Właśnie przejrzałem tę cudowną książkę: Zastosowana wielowymiarowa analiza statystyczna autorstwa Johnsona i Wichern . Ironią jest to, że wciąż nie jestem w stanie zrozumieć motywacji do korzystania z modeli wielowymiarowych (regresyjnych) zamiast osobnych modeli jednowymiarowych (regresyjnych). Przeszedłem przez stats.statexchange posty 1 i 2, które wyjaśniają (a) różnicę między regresją wielowymiarową …

28 regression multiple-regression inference multivariate-regression

3

Jak radzić sobie z wielokoliniowością podczas wyboru zmiennych?

Mam zestaw danych z 9 ciągłymi zmiennymi niezależnymi. Staram się wybierać między tymi zmiennymi, aby dopasować model do jednego procentu (zależnej) zmiennej Score. Niestety wiem, że między kilkoma zmiennymi wystąpi poważna kolinearność. Próbowałem użyć stepAIC()funkcji w R do wyboru zmiennych, ale ta metoda, co dziwne, wydaje się wrażliwa na kolejność, …

28 r multiple-regression feature-selection multicollinearity

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Jak odróżnić modele regresji liniowej od nieliniowej?

Czytałem następujący link o regresji nieliniowej SAS Nieliniowy . Rozumiem po przeczytaniu pierwszego rozdziału „Regresja nieliniowa vs. regresja liniowa”, że poniższe równanie jest w rzeczywistości regresją liniową, czy to prawda? Jeśli tak to dlaczego? y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c Czy mam również zrozumieć, że w regresji …

27 regression multiple-regression nonlinear-regression multicollinearity

2

Transformowanie zmiennych dla regresji wielokrotnej w R.

Próbuję wykonać regresję wielokrotną w R. Jednak moja zmienna zależna ma następujący wykres: Oto macierz wykresu rozrzutu ze wszystkimi moimi zmiennymi ( WARjest zmienną zależną): Wiem, że muszę wykonać transformację tej zmiennej (i ewentualnie zmiennych niezależnych?), Ale nie jestem pewien dokładnej wymaganej transformacji. Czy ktoś może skierować mnie we właściwym …

26 r regression multiple-regression data-transformation

4

Do czego przydają się rankingi o zmiennym znaczeniu?

Stałem się trochę nihilistą, jeśli chodzi o rankingi o różnym znaczeniu (w kontekście wszelkiego rodzaju modeli wielowymiarowych). Często w trakcie pracy jestem proszony o pomoc innym zespołom w tworzeniu rankingu o zmiennym znaczeniu lub o sporządzenie rankingu o zmiennym znaczeniu z mojej pracy. W odpowiedzi na te pytania zadaję następujące …

25 multiple-regression multivariate-analysis importance

3

Jak modelować ten dziwny rozkład (prawie odwrotny J)

Moja zmienna zależna pokazana poniżej nie pasuje do żadnej znanej mi dystrybucji. Regresja liniowa wytwarza nieco nienormalne, wypaczone w prawo resztki, które w dziwny sposób odnoszą się do przewidywanego Y (drugi wykres). Wszelkie sugestie dotyczące transformacji lub innych sposobów uzyskania najbardziej aktualnych wyników i najlepszej dokładności predykcyjnej? Jeśli to możliwe, …

25 regression multiple-regression data-transformation censoring

Pytania otagowane jako multiple-regression