Statystyki i duże zbiory danych regression

4

Jak przetłumaczyć wyniki z lm () na równanie?

Możemy użyć lm()do przewidywania wartości, ale w niektórych przypadkach nadal potrzebujemy równania formuły wynikowej. Na przykład dodaj równanie do wykresów.

29 r regression lm

4

Pseudo-R2 Interpretacja McFaddena

Mam binarny model regresji logistycznej z pseudo-kwadratem McFaddena wynoszącym 0,192 ze zmienną zależną o nazwie płatność (1 = płatność i 0 = brak płatności). Jaka jest interpretacja tego pseudo R-kwadrat? Czy jest to porównanie względne dla modeli zagnieżdżonych (np. Model 6 zmiennych ma pseudo R kwadrat McFaddena równy 0,192, podczas …

29 regression self-study logistic

3

Regresja wielomianowa za pomocą scikit-learn

Próbuję użyć scikit-learn do regresji wielomianowej. Z tego, co czytam, regresja wielomianowa jest szczególnym przypadkiem regresji liniowej. Miałem nadzieję, że może jeden z uogólnionych modeli liniowych scikit może zostać sparametryzowany, aby pasował do wielomianów wyższego rzędu, ale nie widzę takiej możliwości. Udało mi się użyć Support Vector Regressor z wielordzeniowym …

29 regression machine-learning large-data polynomial scikit-learn

4

Jak interpretujesz RMSLE (błąd logarytmiczny średniej kwadratowej)?

Brałem udział w konkursie uczenia maszynowego, w którym używają RMSLE (Root Mean Squared Logarithmic Error) do oceny wydajności przewidującej cenę sprzedaży danej kategorii sprzętu. Problem w tym, że nie jestem pewien, jak interpretować sukces mojego końcowego wyniku. Na przykład, jeśli osiągnąłem RMSLE na poziomie czy mogę podnieść moc wykładniczą i …

29 regression machine-learning interpretation measurement-error theory

4

W jaki sposób wyprowadza się funkcję kosztu z regresji logistycznej

Robię kurs Machine Learning Stanford na Coursera. W rozdziale dotyczącym regresji logistycznej funkcja kosztu jest następująca: Następnie uzyskuje się tutaj: Próbowałem uzyskać pochodną funkcji kosztu, ale dostałem coś zupełnie innego. Jak otrzymuje się pochodną? Jakie są kroki pośrednie?

29 regression logistic gradient-descent derivative

3

R: Losowy las wyrzucający NaN / Inf w błędzie „wywołanie funkcji zagranicznej” pomimo braku NaN w zbiorze danych [zamknięte]

Zamknięte. To pytanie jest nie na temat . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby było tematem dotyczącym weryfikacji krzyżowej. Zamknięte 2 lata temu . Używam karetki, aby uruchomić sprawdzony krzyżowo losowy las w zbiorze danych. Zmienna Y jest czynnikiem. W moim zestawie danych nie ma …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Jak niepoprawny jest model regresji, gdy założenia nie są spełnione?

Przy dopasowywaniu modelu regresji, co się stanie, jeśli założenia wyników nie zostaną spełnione, w szczególności: Co się stanie, jeśli pozostałości nie będą homoscedastyczne? Jeśli reszty wykazują rosnący lub malejący wzór na wykresie Resztki vs. Dopasowany. Co się stanie, jeśli reszty nie zostaną normalnie rozłożone i nie przejdą testu Shapiro-Wilka? Test …

28 regression multiple-regression error assumptions normality-assumption

1

Dlaczego moje wyprowadzenie rozwiązania lasso w zamkniętej formie jest nieprawidłowe?

Problem lasso ma rozwiązanie w formie zamkniętej: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + jeśli X ma kolumny ortonormalne. Pokazano to w tym wątku: Wyprowadzenie …

28 regression lasso regularization

5

Jakie są niebezpieczeństwa związane z naruszeniem założenia homoscedastyczności dla regresji liniowej?

Jako przykład rozważmy ChickWeightzestaw danych w R. Wariancja oczywiście rośnie z czasem, więc jeśli użyję prostej regresji liniowej, takiej jak: m <- lm(weight ~ Time*Diet, data=ChickWeight) Moje pytania: Które aspekty modelu będą wątpliwe? Czy problemy ograniczają się do ekstrapolacji poza tym Timezakresem? Jak tolerancyjna jest regresja liniowa na naruszenie tego …

28 r regression heteroscedasticity assumptions

4

Kwadratowa formuła Pseudo R dla GLM

Znaleziono, że wzór na pseudo- w książce rozszerzającej się model liniowy z R Julian J. recz (str. 59).R2)R2R^2 .1 - ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}} Jest to wspólna formuła pseudo- na GLMs?R2)R2R^2

28 r regression generalized-linear-model r-squared

1

Obliczanie powtarzalności efektów z modelu Lmer

Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

5

Wybór najlepszego modelu spośród różnych „najlepszych” modeli

Jak wybrać model spośród różnych modeli wybranych różnymi metodami (np. Wybór do tyłu lub do przodu)? Co to jest model oszczędny?

28 regression model-selection

6

Dlaczego potrzebujemy regresji wielowymiarowej (w przeciwieństwie do szeregu regresji jednowymiarowych)?

Właśnie przejrzałem tę cudowną książkę: Zastosowana wielowymiarowa analiza statystyczna autorstwa Johnsona i Wichern . Ironią jest to, że wciąż nie jestem w stanie zrozumieć motywacji do korzystania z modeli wielowymiarowych (regresyjnych) zamiast osobnych modeli jednowymiarowych (regresyjnych). Przeszedłem przez stats.statexchange posty 1 i 2, które wyjaśniają (a) różnicę między regresją wielowymiarową …

28 regression multiple-regression inference multivariate-regression

3

Dlaczego centrowanie zmiennych niezależnych może zmieniać główne efekty z umiarem?

Mam pytanie związane z regresją wielokrotną i interakcją, zainspirowane tym wątkiem CV: Pojęcie interakcji za pomocą analizy hierarchicznej regresji zmiennych centrowanych? Jakie zmienne powinniśmy wyśrodkować? Podczas sprawdzania efektu moderacji centruję zmienne niezależne i mnożę zmienne wyśrodkowane, aby obliczyć termin interakcji. Następnie przeprowadzam analizę regresji i sprawdzam efekty główne i interakcyjne, …

28 regression interaction centering

2

Dlaczego RSS jest dystrybuowany chi razy razy np?

Chciałbym zrozumieć, dlaczego w modelu OLS rozkłada się RSS (resztkową sumę kwadratów) χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p) ( ppp oznacza liczbę parametrów w modelu, nnn liczbę obserwacji). Przepraszam, że zadałem tak podstawowe pytanie, ale wydaje się, że nie jestem w stanie znaleźć odpowiedzi online (lub w moich, bardziej zorientowanych na aplikację podręcznikach).

28 regression distributions least-squares

Pytania otagowane jako regression