Statystyki i duże zbiory danych regression

2

Źle uwarunkowana macierz kowariancji w regresji GP dla optymalizacji bayesowskiej

Tło i problem Korzystam z procesów Gaussa (GP) do regresji i późniejszej optymalizacji bayesowskiej (BO). Do regresji używam pakietu gpml dla MATLAB z kilkoma niestandardowymi modyfikacjami, ale problem jest ogólny. Jest dobrze znanym faktem, że gdy dwa dane treningowe znajdują się zbyt blisko w przestrzeni wejściowej, macierz kowariancji może stać …

12 regression covariance-matrix gaussian-process bayesian-optimization

1

Oczekiwana wartość , współczynnik determinacji, pod hipotezą zerową

Jestem ciekawy stwierdzenia dokonanego na dole pierwszej strony tego tekstu dotyczącego korektyR2adjustedRadjusted2R^2_\mathrm{adjusted} R2adjusted=1−(1−R2)(n−1n−m−1).Radjusted2=1−(1−R2)(n−1n−m−1).R^2_\mathrm{adjusted} =1-(1-R^2)\left({\frac{n-1}{n-m-1}}\right). Tekst stanowi: Logika korekty jest następująca: w zwykłej regresji wielokrotnej predyktor losowy wyjaśnia średnio proporcję 1/(n–1)1/(n–1)1/(n – 1) zmiany odpowiedzi, tak że mmm losowych predyktorów wyjaśnia razem, średnio m/(n–1)m/(n–1)m/(n – 1) wariantu odpowiedzi; innymi słowy, oczekiwana …

12 regression expected-value goodness-of-fit r-squared

4

Wskazówki, że problem jest odpowiedni dla regresji liniowej

Uczę się regresji liniowej za pomocą Wstępu do analizy regresji liniowej autorstwa Montgomery'ego, Pecka i Vininga . Chciałbym wybrać projekt analizy danych. Naiwnie uważam, że regresja liniowa jest odpowiednia tylko wtedy, gdy podejrzewa się, że istnieją liniowe zależności funkcjonalne między zmiennymi objaśniającymi a zmiennymi odpowiedzi. Ale niewiele rzeczywistych aplikacji wydaje …

12 regression data-transformation model linear regression-strategies

2

Tłumaczenie problemu uczenia maszynowego na ramy regresji

Załóżmy, że mam panel zmiennych objaśniających , dla , , a także wektor zmiennych zależnych od wyniku binarnego . Zatem obserwuje się tylko w czasie końcowym a nie w żadnym wcześniejszym czasie. Całkowicie ogólnym przypadkiem jest wielokrotność dla dla każdej jednostki w każdym czasie , ale skupmy się na przypadku …

12 regression machine-learning reinforcement-learning

3

Dlaczego metoda Holdout (dzielenie danych na szkolenia i testy) nie jest stosowana w statystyce klasycznej?

W mojej klasie podczas eksploracji danych wprowadzono metodę wstrzymania jako sposób oceny wydajności modelu. Kiedy jednak wziąłem pierwszą klasę modeli liniowych, nie zostało to wprowadzone jako metoda walidacji lub oceny modelu. Moje badania online również nie wykazały żadnego skrzyżowania. Dlaczego metoda Holdout nie jest stosowana w statystyce klasycznej?

12 regression validation model-evaluation out-of-sample

3

Zrozumienie parametrów funkcji podstawy Gaussa do zastosowania w regresji liniowej

Chciałbym zastosować funkcję bazową Gaussa do implementacji regresji liniowej. Niestety trudno mi zrozumieć kilka parametrów funkcji podstawowej. W szczególności i .μμ\muσσ\sigma Mój zestaw danych to macierz 10 000 x 31. 10 000 próbek i 31 funkcji. Przeczytałem, że „Każda funkcja podstawowa przekształca wektor wejściowy x w wartość skalarną”. Zakładam więc, …

12 regression machine-learning basis-function

2

Czy normalnie rozłożone X i Y częściej powodują powstanie resztek normalnie rozłożonych?

W tym miejscu omawiana jest błędna interpretacja założenia normalności w regresji liniowej (że „normalność” odnosi się do X i / lub Y zamiast do reszt), a plakat pyta, czy możliwe jest uzyskanie nietypowo rozłożonych X i Y i nadal mają normalnie rozłożone resztki. Moje pytanie brzmi: czy zwykle rozkład X …

12 regression normal-distribution data-transformation residuals assumptions

5

Jak wykonać przypisanie wartości w bardzo dużej liczbie punktów danych?

Mam bardzo duży zestaw danych i brakuje około 5% wartości losowych. Te zmienne są ze sobą skorelowane. Poniższy przykładowy zestaw danych R jest tylko zabawkowym przykładem z fałszywymi skorelowanymi danymi. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Czy możemy tworzyć twierdzenia probabilistyczne z przedziałami prognozowania?

Przeczytałem wiele doskonałych dyskusji na stronie dotyczących interpretacji przedziałów ufności i przedziałów prognoz, ale jedna koncepcja wciąż jest nieco zagadkowa: Rozważmy ramy OLS a my uzyskał dopasowanego modelu y = X p . Otrzymaliśmy x ∗ i poprosiliśmy o przewidzenie jego odpowiedzi. Obliczamy x * T p i, jako bonus, …

12 regression confidence-interval prediction-interval

2

Stopniowa regresja w R - Krytyczna wartość p

Jaka jest krytyczna wartość p używana przez step()funkcję w R do regresji krokowej? Zakładam, że jest to 0,15, ale czy moje założenie jest prawidłowe? Jak mogę zmienić krytyczną wartość p?

12 r regression p-value stepwise-regression

1

Informacje poza matrycą dla regresji logistycznej

Jest dla mnie jasne i dobrze wyjaśnione na wielu stronach, jakie informacje wartości na przekątnej macierzy kapelusza dają regresję liniową. Macierz kapeluszowa modelu regresji logistycznej jest dla mnie mniej jasna. Czy jest identyczny z informacjami uzyskanymi z matrycy kapelusza przy zastosowaniu regresji liniowej? Oto definicja macierzy kapelusza, którą znalazłem na …

12 regression logistic

4

Założenia dotyczące regresji resztkowej regresji

Dlaczego konieczne jest założenie podziału na błędy, tj yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , z ϵi∼N(0,σ2)ϵi∼N(0,σ2)\epsilon_{i} \sim \mathcal{N}(0,\sigma^{2}) . Dlaczego nie napisać? yi=Xβ+ϵiyi=Xβ+ϵiy_i = X\beta + \epsilon_{i} , z yi∼N(Xβ^,σ2)yi∼N(Xβ^,σ2)y_i \sim \mathcal{N}(X\hat{\beta},\sigma^{2}) , gdzie w obu przypadkach ϵi=yi−y^ϵi=yi−y^\epsilon_i = y_i - \hat{y} . Podkreśliłem, że założenia dystrybucyjne dotyczą błędów, a …

12 regression normal-distribution residuals assumptions notation

1

Modelowanie, gdy zmienna zależna ma „punkt odcięcia”

Z góry przepraszamy, jeśli jakakolwiek terminologia, której używam, jest niepoprawna. Z zadowoleniem przyjąłbym każdą korektę. Jeśli to, co opisuję jako „punkt odcięcia”, ma inną nazwę, daj mi znać, a mogę zaktualizować pytanie. Interesuje mnie sytuacja: masz zmienne niezależne i jedną zmienną zależną y . Pozostawię to niejasne, ale zakładam, że …

12 regression modeling survival censoring

5

Rekurencyjny (online) uregulowany algorytm najmniejszych kwadratów

Czy ktoś może skierować mnie w stronę internetowego (rekurencyjnego) algorytmu regularyzacji Tichonowa (uregulowane najmniejsze kwadraty)? W trybie offline obliczyłem β^=(XTX+λI)−1XTYβ^=(XTX+λI)−1XTY\hat\beta=(X^TX+λI)^{−1}X^TY przy użyciu mojego oryginalnego zestawu danych, w którym znaleziono λλλ przy użyciu n-krotnej weryfikacji krzyżowej. Nową wartość yyy można przewidzieć dla danego xxx używając y=xTβ^y=xTβ^y=x^T\hat\beta . W trybie online ciągle …

12 regression machine-learning least-squares regularization online

2

Dlaczego niektórzy ludzie testują założenia modelu przypominającego regresję na swoich surowych danych, a inni testują je na poziomie resztkowym?

Jestem doktorantem z psychologii eksperymentalnej i staram się doskonalić swoje umiejętności i wiedzę na temat analizy moich danych. Do piątego roku studiów w psychologii myślałem, że modele podobne do regresji (np. ANOVA) zakładają następujące rzeczy: normalność danych jednorodność wariancji danych i tak dalej Moje studia licencjackie doprowadziły mnie do przekonania, …

12 regression dataset residuals assumptions

Pytania otagowane jako regression