Statystyki i duże zbiory danych regression

2

Czy istnieje założenie regresji logistycznej?

Czy istnieje założenie dotyczące zmiennej odpowiedzi regresji logistycznej? Załóżmy na przykład, że mamy punktów danych. Wygląda na to, że odpowiedź pochodzi z dystrybucji Bernoulliego z . Dlatego powinniśmy mieć rozkładów Bernoulliego z innym parametrem .100010001000YiYiY_ipi=logit(β0+β1xi)pi=logit(β0+β1xi)p_i=\text{logit}(\beta_0+\beta_1 x_i)100010001000ppp Są więc „niezależni”, ale nie są „identyczni”. Czy mam rację? PS. Nauczyłem się regresji …

18 regression logistic assumptions iid

6

Intuicyjne wyjaśnienie terminu w wariancie estymatora najmniejszych kwadratów

Jeśli ma pełną pozycję, istnieje odwrotność i otrzymujemy oszacowanie najmniejszych kwadratów: iXXXXTXXTXX^TXβ^=(XTX)−1XYβ^=(XTX)−1XY\hat\beta = (X^TX)^{-1}XYVar(β^)=σ2(XTX)−1Var⁡(β^)=σ2(XTX)−1\operatorname{Var}(\hat\beta) = \sigma^2(X^TX)^{-1} Jak intuicyjnie wyjaśnić we wzorze wariancji? Technika wyprowadzania jest dla mnie jasna.(XTX)−1(XTX)−1(X^TX)^{-1}

18 regression variance least-squares

4

Dlaczego zwykłe najmniejsze kwadraty działają lepiej niż regresja Poissona?

Próbuję dopasować regresję, aby wyjaśnić liczbę zabójstw w każdej dzielnicy miasta. Chociaż wiem, że moje dane są zgodne z rozkładem Poissona, próbowałem dopasować taki OLS: log(y+1)=α+βX+ϵlog(y+1)=α+βX+ϵlog(y+1) = \alpha + \beta X + \epsilon Następnie spróbowałem (oczywiście!) Regresji Poissona. Problemem jest to, że lepsze wyniki w regresji OLS: pseudo jest wyższa …

18 regression least-squares poisson-regression

1

Ściągawka ANOVA Alfabet Zupa i odpowiedniki regresji

Czy mogę uzyskać pomoc w ukończeniu tej wstępnej (w toku) próby uzyskania orientacji na równoważnikach ANOVA i REGRESSION? Próbowałem pogodzić pojęcia, nazewnictwo i składnię tych dwóch metod. Na tej stronie znajduje się wiele postów na temat ich podobieństwa, na przykład to czy tamto , ale nadal dobrze jest mieć szybką …

18 regression anova mixed-model

1

Dowód formuły LOOCV

Z An Introduction to Statistical Learning przez James i wsp., Przerwa, jeden z krzyżowego (LOOCV) oszacowanie jest określone przez CV(n)=1n∑i=1nMSEiCV(n)=1n∑i=1nMSEi\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_i gdzieMSEi=(yi−y^i)2MSEi=(yi−y^i)2\text{MSE}_i = (y_i-\hat{y}_i)^2. Bez dowodu równanie (5.2) stwierdza, że dla regresji metodą najmniejszych kwadratów lub wielomianu (to, czy dotyczy to regresji tylko jednej zmiennej, jest dla mnie nieznane), …

18 regression self-study cross-validation least-squares

1

Gaussian RBF vs. jądro Gaussa

Jaka jest różnica między przeprowadzaniem regresji liniowej za pomocą Gaussian Radial Basis Function (RBF) a wykonywaniem regresji liniowej za pomocą jądra Gaussa?

18 regression normal-distribution kernel-trick

4

Regresja liniowa z ograniczeniem nachylenia

Chcę wykonać bardzo prostą regresję liniową w R. Formuła jest tak prosta, jak . Chciałbym jednak, aby nachylenie ( ) znajdowało się w przedziale, powiedzmy, między 1,4 a 1,6.y= a x + by=zax+by = ax + bzazaa Jak można to zrobić?

18 r regression constrained-regression

1

Ograniczona regresja liniowa przez określony punkt

Mam punkt (x, y), że potrzebuję regresora liniowego, aby przejść przez dany zestaw danych (X, Y). Jak zaimplementować to w R?

18 r regression

4

Zmiana hipotezy zerowej w regresji liniowej

Mam pewne wysoce skorelowane dane. Jeśli przeprowadzę regresję liniową, otrzymam linię regresji o nachyleniu zbliżonym do jednego (= 0,93). Chciałbym przetestować, czy to nachylenie różni się znacznie od 1,0. Oczekuję, że tak nie jest. Innymi słowy, chciałbym zmienić hipotezę zerową regresji liniowej z nachylenia zera na nachylenie jednego. Czy to …

18 regression correlation hypothesis-testing

4

Określanie najlepszej funkcji dopasowania krzywej spośród funkcji liniowych, wykładniczych i logarytmicznych

Kontekst: Z pytania dotyczącego wymiany stosów matematycznych (czy mogę zbudować program) , ktoś ma zestaw punktów i chce dopasować do niego krzywą, liniową, wykładniczą lub logarytmiczną. Zwykłą metodą jest rozpoczęcie od wybrania jednego z nich (który określa model), a następnie wykonanie obliczeń statystycznych.x - yx-yx-y Ale tak naprawdę potrzebne jest …

18 regression predictive-models model-selection curve-fitting

3

Uzyskanie wzoru na granice predykcji w modelu liniowym (tj .: przedziały prognozowania)

Weźmy następujący przykład: set.seed(342) x1 <- runif(100) x2 <- runif(100) y <- x1+x2 + 2*x1*x2 + rnorm(100) fit <- lm(y~x1*x2) Tworzy to model y oparty na x1 i x2 przy użyciu regresji OLS. Jeśli chcemy przewidzieć y dla danego x_vec, moglibyśmy po prostu użyć wzoru, który otrzymujemy z summary(fit). Co …

18 r regression predictive-models prediction-interval

4

Czy mogę po prostu usunąć jedną z dwóch zmiennych predykcyjnych, które są wysoce skorelowane liniowo?

Korzystając z współczynnika korelacji Pearsona, mam kilka zmiennych, które są wysoce skorelowane ( i dla 2 par zmiennych, które są w moim modelu).ρ = 0,978ρ=0,978\rho = 0.978ρ = 0,989ρ=0,989\rho = 0.989 Powodem niektórych zmiennych są silnie skorelowane jest z powodu jedna zmienna jest używana w obliczeniach dla innej zmiennej. Przykład: …

18 regression correlation modeling

3

Jak obsługiwać porządkową zmienną kategorialną jako zmienną niezależną

Korzystam z modelu logit. Moja zmienna zależna jest binarna. Jednak mam niezależną zmienną, która jest kategoryczne i zawiera odpowiedzi: 1.very good, 2.good, 3.average, 4.poor and 5.very poor. Jest to więc porządkowe („ilościowe jakościowe”). Nie jestem pewien, jak sobie z tym poradzić w modelu. Używam gretl. [Uwaga z @ttnphns: Chociaż pytanie …

18 regression logistic ordinal-data predictor

2

Co wyjaśnia Dodany wykres zmienny (wykres częściowej regresji) w regresji wielokrotnej?

Mam model zestawu danych Filmy i użyłem regresji: model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies) library(ggplot2) res <- qplot(fitted(model), resid(model)) res+geom_hline(yintercept=0) Co dało wynik: Teraz próbowałem po raz pierwszy pracować nad czymś o nazwie Dodany wykres zmienny …

18 regression data-visualization multiple-regression scatterplot

5

Jaki jest powód transformacji dziennika w przypadku rozkładów o skośnych prawach?

Kiedyś to słyszałem transformacja log jest najbardziej popularna dla rozkładów o skośnych prawach w regresji liniowej lub regresji kwantowej Chciałbym wiedzieć, czy jest jakiś powód tego stwierdzenia? Dlaczego transformacja logów jest odpowiednia dla dystrybucji o skośnych prawach? Co powiesz na rozkład pochylony w lewo?

18 regression distributions data-transformation skewness

Pytania otagowane jako regression