Statystyki i duże zbiory danych regression

2

KKT kontra nieograniczone sformułowanie regresji lasso

Regresja penalizowana przez L1 (aka lasso) jest prezentowana w dwóch formulacjach. Niech dwie funkcje celu to Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. Następnie dwie różne formulacje to argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 zastrzeżeniem ||β||1≤t,||β||1≤t, ||\beta||_1 \leq t, i równoważnie argminβQ2.argminβQ2. \text{argmin}_\beta \; Q_2. …

20 regression lasso penalized

2

Rzucanie wielowymiarowego modelu liniowego jako regresji wielokrotnej

Czy przekształcenie wielowymiarowego modelu regresji liniowej jako wielokrotnej regresji liniowej jest całkowicie równoważne? Ja nie odnosząc się po prostu działa ttt oddzielnych regresji. Przeczytałem o tym w kilku miejscach (Bayesian Data Analysis - Gelman i wsp. Oraz Multivariate Old School - Marden), że wielowymiarowy model liniowy można łatwo sparametryzować jako …

20 regression multiple-regression linear-model multivariate-regression

3

Jak interpretować współczynniki regresji, gdy odpowiedź została przekształcona przez 4. pierwiastek?

Używam czwartej 1/4transformacji mocy root ( ) na mojej zmiennej odpowiedzi, w wyniku heteroscedastyczności. Ale teraz nie jestem pewien, jak interpretować moje współczynniki regresji. Zakładam, że musiałbym przestawić współczynniki na czwartą potęgę podczas transformacji wstecznej (patrz poniżej dane wyjściowe regresji). Wszystkie zmienne wyrażone są w jednostkach dolara w milionach, ale …

20 regression data-transformation

4

Radzenie sobie z wartościami 0,1 w regresji beta

Mam pewne dane w [0,1], które chciałbym przeanalizować za pomocą regresji beta. Oczywiście należy coś zrobić, aby uwzględnić wartości 0,1. Nie lubię modyfikować danych, aby pasowały do modelu. również nie uważam, aby inflacja zero i 1 była dobrym pomysłem, ponieważ uważam, że w tym przypadku należy uznać wartości zerowe za …

20 regression generalized-linear-model beta-distribution zero-inflation beta-regression

1

Obliczanie przedziałów prognoz dla regresji logistycznej

Chciałbym zrozumieć, jak generować przedziały prognoz dla oszacowań regresji logistycznej. Poradzono mi, aby postępować zgodnie z procedurami zawartymi w Collett's Modeling Binary Data , 2nd Ed str. 98-99. Po wdrożeniu tej procedury i porównaniu jej z R predict.glm, tak naprawdę uważam, że ta książka pokazuje procedurę obliczania przedziałów ufności , …

20 r regression confidence-interval logistic prediction-interval

6

Kiedy upuścić termin z modelu regresji?

Czy ktoś może doradzić, czy następujące działania mają sens: Mam do czynienia ze zwykłym modelem liniowym z 4 predyktorami. Zastanawiam się, czy porzucić najmniej znaczący termin. Jego wartość wynosi nieco ponad 0,05. Opowiedziałem się za upuszczeniem go według następujących zasad: Pomnożenie oszacowania tego terminu przez (na przykład) zakres międzykwartylowy danych …

20 regression model-selection

4

Podsumowanie wyników „Large p, Small n”

Czy ktoś może skierować mnie do ankiety na temat wyników „Duże , Małe n ”? Interesuje mnie, jak ten problem objawia się w różnych kontekstach badawczych, np. Regresji, klasyfikacji, teście Hotellinga itp .pppnnn

20 regression classification multivariate-analysis

2

Jaka jest różnica między regresją dwumianową a regresją logistyczną?

Zawsze myślałem o regresji logistycznej jako po prostu szczególnym przypadku regresji dwumianowej, w którym funkcja połączenia jest funkcją logistyczną (zamiast, powiedzmy, funkcji probit). Jednak po przeczytaniu odpowiedzi na inne pytanie brzmię, jakbym mógł się pomylić, i istnieje różnica między regresją logistyczną a regresją dwumianową z łączem logistycznym. Co za różnica?

20 regression logistic binomial

6

Prosta interpretacja wyników regresji liniowej

Przeprowadziłem prostą regresję liniową logarytmu naturalnego 2 zmiennych, aby ustalić, czy są one skorelowane. Moje wyniki są następujące: R^2 = 0.0893 slope = 0.851 p < 0.001 Jestem zdezorientowany. Patrząc na wartość , powiedziałbym, że dwie zmienne nie są skorelowane, ponieważ jest tak bliskie . Jednak nachylenie linii regresji wynosi …

20 regression r-squared

4

Uśrednianie wartości korelacji

Powiedzmy, że testuję, jak zmienna Yzależy od zmiennej Xw różnych warunkach eksperymentalnych i otrzymuję następujący wykres: Linie przerywane na powyższym wykresie reprezentują regresję liniową dla każdej serii danych (konfiguracja eksperymentalna), a liczby w legendzie oznaczają korelację Pearsona dla każdej serii danych. Chciałbym obliczyć „średnią korelację” (lub „średnią korelację”) pomiędzy Xi …

20 regression correlation mean average

2

Oszacowanie R-kwadrat i istotności statystycznej na podstawie modelu regresji karanej

Używam ukaranego pakietu R, aby uzyskać skurczone oszacowania współczynników dla zbioru danych, w którym mam dużo predyktorów i mało wiem, które z nich są ważne. Po wybraniu parametrów dostrajania L1 i L2 i jestem zadowolony z moich współczynników, czy istnieje statystycznie rozsądny sposób na podsumowanie dopasowania modelu z czymś w …

20 regression lasso stepwise-regression ridge-regression

5

Kiedy można użyć kryteriów opartych na danych, aby określić model regresji?

Słyszałem, że gdy wiele specyfikacji modelu regresji (powiedzmy w OLS) jest rozważanych jako możliwości zestawu danych, powoduje to wiele problemów z porównaniem, a wartości p i przedziały ufności nie są już wiarygodne. Jednym z ekstremalnych przykładów jest regresja stopniowa. Kiedy mogę użyć samych danych, aby pomóc w określeniu modelu, a …

20 regression frequentist multiple-comparisons

4

Jakie są prawidłowe wartości precyzji i przywołania w przypadkach krawędzi?

Precyzja jest zdefiniowana jako: p = true positives / (true positives + false positives) Czy jest to prawidłowe, że, jak true positivesi false positivespodejście 0, precyzja zbliża 1? To samo pytanie do przypomnienia: r = true positives / (true positives + false negatives) Obecnie wdrażam test statystyczny, w którym muszę …

20 precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

2

Jak sensowne jest wykonywanie OLS po wyborze zmiennej LASSO?

Ostatnio odkryłem, że w stosowanej literaturze ekonometrycznej, gdy mamy do czynienia z problemami wyboru cech, nierzadko wykonuje się LASSO, a następnie regresję OLS przy użyciu wybranych zmiennych. Zastanawiałem się, jak możemy zakwalifikować ważność takiej procedury. Czy spowoduje to problemy takie jak pominięte zmienne? Jakieś dowody wskazujące, że jest on bardziej …

20 regression feature-selection econometrics least-squares lasso

2

Wykresy rezydualne: dlaczego wykres kontra wartości dopasowane, a nie obserwowane wartości ?

W kontekście regresji OLS rozumiem, że wykres resztkowy (w porównaniu z dopasowanymi wartościami) jest konwencjonalnie oglądany w celu przetestowania stałej wariancji i oceny specyfikacji modelu. Dlaczego reszty są wykreślane względem pasowań, a nie wartości ? Czym różnią się informacje od tych dwóch wykresów?YYY Pracuję nad modelem, który wytworzył następujące wykresy …

20 regression residuals

Pytania otagowane jako regression