Statystyki i duże zbiory danych regression

7

Jaka jest korzyść z rozbicia ciągłej zmiennej predykcyjnej?

Zastanawiam się, jaka jest wartość biorąc ciągłą zmienną predykcyjną i dzieląc ją (np. Na kwintyle) przed użyciem jej w modelu. Wydaje mi się, że binowanie zmiennej powoduje utratę informacji. Czy to tylko po to, abyśmy mogli modelować efekty nieliniowe? Gdybyśmy utrzymywali zmienną ciągłą i nie byłaby to tak naprawdę prosta …

78 regression modeling continuous-data binning regression-strategies

3

Przykład: regresja LASSO z użyciem glmnet dla wyniku binarnego

Zaczynam bawić sięglmnet za pomocą regresji LASSO, gdzie moje wyniki zainteresowania są dychotomiczne. Poniżej utworzyłem małą próbną ramkę danych: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, …

77 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

3

Kiedy R jest kwadratem ujemne?

Mi się, że nie mogą być ujemne, jak to jest kwadratem R. Jednakże uruchomiony prostą regresję liniową w SPSS z jedną zmienną niezależną i zmienną zależną. Moje wyjście SPSS dają mi ujemną wartość R 2 . Jeśli nie było obliczyć tego ręką z R wówczas R 2 to pozytywny. Co …

77 regression spss r-squared

5

Jakie są nowoczesne, łatwe w użyciu alternatywy dla regresji stopniowej?

Mam zestaw danych z około 30 zmiennymi niezależnymi i chciałbym zbudować uogólniony model liniowy (GLM) w celu zbadania zależności między nimi a zmienną zależną. Wiem, że metoda, której nauczono mnie w tej sytuacji, stopniowa regresja, jest obecnie uważana za grzech statystyczny . Jakie nowoczesne metody wyboru modelu należy zastosować w …

76 regression generalized-linear-model model-selection stepwise-regression

3

Dlaczego Lasso zapewnia wybór zmiennych?

Czytałem Elementy uczenia statystycznego i chciałbym wiedzieć, dlaczego Lasso zapewnia wybór zmiennych, a regresja grzbietu nie. Obie metody minimalizują resztkową sumę kwadratów i ograniczają możliwe wartości parametrów . W przypadku Lasso ograniczenie wynosi , podczas gdy dla kalenicy jest to , dla niektórych .ββ\beta||β||1≤t||β||1≤t||\beta||_1 \le t||β||2≤t||β||2≤t||\beta||_2 \le tttt Widziałem w …

76 regression feature-selection lasso regularization

3

Dlaczego regresja logistyczna nie jest nazywana klasyfikacją logistyczną?

Ponieważ regresja logistyczna jest statystycznym modelem klasyfikacji zajmującym się zmiennymi zależnymi kategorycznie, dlaczego nie nazywa się to klasyfikacją logistyczną ? Czy nazwa „regresji” nie powinna być zarezerwowana dla modeli zajmujących się ciągłymi zmiennymi zależnymi?

75 regression machine-learning logistic classification terminology

3

Diagnostyka regresji logistycznej?

W przypadku regresji liniowej możemy sprawdzić wykresy diagnostyczne (wykresy resztek, normalne wykresy QQ itp.), Aby sprawdzić, czy naruszone są założenia regresji liniowej. W przypadku regresji logistycznej mam problem ze znalezieniem zasobów wyjaśniających, jak zdiagnozować dopasowanie modelu regresji logistycznej. Po wykopaniu niektórych notatek o kursie dla GLM stwierdza się po prostu, …

74 regression logistic

6

Po co używać opadania gradientu do regresji liniowej, gdy dostępne jest rozwiązanie matematyczne w formie zamkniętej?

Biorę kursy uczenia maszynowego online i dowiedziałem się o spadku gradientu do obliczania optymalnych wartości w hipotezie. h(x) = B0 + B1X dlaczego musimy używać zejścia gradientu, jeśli możemy łatwo znaleźć wartości za pomocą poniższej formuły? To też wygląda na proste i łatwe. ale GD potrzebuje wielu iteracji, aby uzyskać …

73 regression machine-learning gradient-descent

9

Jak należy sobie radzić z wartościami odstającymi w analizie regresji liniowej?

Często analityk statystyczny otrzymuje zestaw danych i jest proszony o dopasowanie modelu przy użyciu techniki takiej jak regresja liniowa. Bardzo często do zestawu danych dołączone jest oświadczenie podobne do „Och tak, pomieszaliśmy zbieranie niektórych z tych punktów danych - rób co możesz”. Ta sytuacja prowadzi do dopasowań regresyjnych, na które …

73 regression outliers

7

Praktyczne zasady dotyczące minimalnej wielkości próby dla regresji wielokrotnej

W kontekście propozycji badań w naukach społecznych zadano mi następujące pytanie: Zawsze ustalałem minimalną wielkość próby dla regresji wielokrotnej o 100 + m (gdzie m jest liczbą predyktorów). Czy to jest właściwe? Często otrzymuję podobne pytania, często o różnych regułach. Często czytałem takie praktyczne zasady w różnych podręcznikach. Czasami zastanawiam …

72 regression sample-size power-analysis rule-of-thumb

10

Jaka jest pełna lista typowych założeń regresji liniowej?

Jakie są typowe założenia regresji liniowej? Czy obejmują one: liniowa zależność między zmienną niezależną i zależną niezależne błędy normalny rozkład błędów homoscedastyczność Czy są jeszcze jakieś?

72 regression assumptions

2

Rozwiązywanie parametrów regresji w formie zamkniętej vs opadanie gradientu

Na kursie uczenia maszynowego Andrew Nga wprowadza regresję liniową i regresję logistyczną oraz pokazuje, jak dopasować parametry modelu za pomocą spadku gradientu i metody Newtona. Wiem, że zejście gradientowe może być przydatne w niektórych aplikacjach uczenia maszynowego (np. Propagacja wsteczna), ale w bardziej ogólnym przypadku jest jakiś powód, dla którego …

71 regression machine-learning logistic gradient-descent

8

Wygeneruj zmienną losową ze zdefiniowaną korelacją z istniejącą zmienną (zmiennymi)

Dla badań symulacyjnych mam do generowania zmiennych losowych, które wykazują prefined (populacji) korelację do istniejącej zmiennej .YYY I spojrzał w Ropakowaniach copula, a CDVinektóre mogą powodować przypadkowe wielowymiarowych rozkładów danej struktury zależności. Nie można jednak naprawić jednej z powstałych zmiennych do istniejącej zmiennej. Wszelkie pomysły i linki do istniejących funkcji …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

4

Jak wizualizować, co robi analiza kanoniczna (w porównaniu z tym, co robi analiza głównych składowych)?

Kanoniczna analiza korelacji (CCA) jest techniką związaną z analizą głównych składników (PCA). Chociaż łatwo jest nauczyć się PCA lub regresji liniowej za pomocą wykresu punktowego (zobacz kilka tysięcy przykładów w wyszukiwaniu obrazów w Google), nie widziałem podobnego intuicyjnego dwuwymiarowego przykładu dla CCA. Jak wizualnie wyjaśnić, co robi liniowy CCA?

70 regression data-visualization pca canonical-correlation geometry

12

Jakie są najczęstsze nieporozumienia na temat regresji liniowej?

Ciekawe, dla tych z was, którzy mają duże doświadczenie we współpracy z innymi badaczami, jakie są najczęstsze nieporozumienia na temat regresji liniowej, które napotykasz? Myślę, że może to być przydatne ćwiczenie, aby pomyśleć o typowych nieporozumieniach przed czasem, aby to zrobić Przewiduj błędy ludzi i potrafisz wyartykułować, dlaczego niektóre nieporozumienia …

70 regression multiple-regression

Pytania otagowane jako regression