Statystyki i duże zbiory danych regression

4

Dlaczego regresja liniowa i ANOVA dają inną wartość w przypadku rozważania interakcji między zmienną?

Próbowałem dopasować dane z szeregu czasowego (bez replik) za pomocą modelu regresji. Dane wyglądają następująco: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 …

22 r regression statistical-significance anova p-value

1

Typowe testy statystyczne jako modele liniowe

(AKTUALIZACJA: Zagłębiłem się w to i opublikowałem wyniki tutaj ) Lista nazwanych testów statystycznych jest ogromna. Wiele powszechnych testów opiera się na wnioskowaniu z prostych modeli liniowych, np. Test t dla jednej próbki to po prostu y = β + ε, który jest testowany względem modelu zerowego y = μ …

22 regression correlation anova t-test linear-model

3

W jaki sposób termin błędu regresji może być kiedykolwiek skorelowany ze zmiennymi objaśniającymi?

Pierwsze zdanie tej strony wiki głosi, że „W ekonometrii problem endogeniczności występuje, gdy zmienna objaśniająca jest skorelowana z terminem błędu. ” 1 Moje pytanie brzmi: jak to się może stać? Czy regresja beta nie jest wybrana w taki sposób, że błąd jest prostopadły do przestrzeni kolumn macierzy projektowej?

22 regression

9

Jak określić pewność prognozy sieci neuronowej?

Aby zilustrować moje pytanie, załóżmy, że mam zestaw treningowy, w którym sygnał wejściowy ma pewien poziom szumu, ale wynik nie, na przykład; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] tutaj …

22 regression machine-learning neural-networks confidence-interval prediction-interval

3

Zrozumienie paradoksu Simpsona: przykład Andrew Gelmana z regresją dochodów z seksu i wzrostu

Andrew Gelman w jednym ze swoich najnowszych postów na blogu mówi: Nie sądzę, aby scenariusz Simpsona wymagał działania alternatywnego lub potencjalnych wyników. Mówię to, ponieważ można skonfigurować paradoks Simpsona ze zmiennymi, których nie można manipulować lub dla których manipulacje nie są bezpośrednio interesujące. Paradoks Simpsona jest częścią bardziej ogólnego problemu, …

22 regression interaction simpsons-paradox

2

Test Walda w regresji (OLS i GLM): rozkład t- vs.

Rozumiem, że test Walda dla współczynników regresji oparta jest na następujących nieruchomości, które posiada asymptotycznie (np Wasserman (2006): Wszystko statystyk , stron 153, 214-215): gdzieβoznacza oszacowany współczynnik regresji,^se(β)oznacza błąd standardowy współczynnik regresji iβ0jest wartością zainteresowania (β0zazwyczaj wynosi 0 aby sprawdzić, czy współczynnik różni się znacznie od 0). ZatemtestαWaldwielkości: odrzucajH0,gdy| W| …

22 r regression hypothesis-testing generalized-linear-model

3

Dlaczego Lars i Glmnet oferują różne rozwiązania problemu Lasso?

Chcę lepiej zrozumieć pakiety R Larsi Glmnetużywane do rozwiązania problemu Lasso: (dla zmiennych i próbek , patrz www.stanford.edu/~hastie/Papers/glmnet.pdf na stronie 3)m i n( β0β) ∈ Rp + 1[ 12)N.∑ja = 1N.( yja- β0- xT.jaβ)2)+ λ | |β| |l1]mjan(β0β)∈Rp+1[12)N.∑ja=1N.(yja-β0-xjaT.β)2)+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppN.N.N Dlatego zastosowałem je oba …

22 r regression machine-learning lasso regularization

5

Próbkowanie dla niezrównoważonych danych w regresji

Pojawiły się dobre pytania dotyczące postępowania z niezrównoważonymi danymi w kontekście klasyfikacji , ale zastanawiam się, co ludzie robią, aby próbować pod kątem regresji. Powiedzmy, że dziedzina problemowa jest bardzo wrażliwa na znak, ale tylko w pewnym stopniu wrażliwa na wielkość celu. Jednak wielkość jest na tyle ważna, że modelem …

22 regression sampling unbalanced-classes

5

Surowa czy ortogonalna regresja wielomianowa?

Chcę regresować zmienną na . Czy powinienem to zrobić przy użyciu surowych czy ortogonalnych wielomianów? Spojrzałem na pytanie na stronie, które się nimi zajmują, ale tak naprawdę nie rozumiem, jaka jest różnica między ich używaniem. yyyx , x2), … , X5x,x2),…,x5x,x^2,\ldots,x^5 Dlaczego nie mogę po prostu wykonać „normalnej” regresji, aby …

22 r regression polynomial

1

Upuszczenie jednej z kolumn podczas kodowania na gorąco

Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …

22 regression machine-learning categorical-data discrete-data categorical-encoding

4

Różnica między założeniami leżącymi u podstaw korelacji a regresywnymi testami nachylenia istotności

Moje pytanie wyrosło z dyskusji z @whuber w komentarzach do innego pytania . W szczególności komentarz @whuber był następujący: Jednym z powodów, dla których może cię zaskoczyć, jest to, że założenia leżące u podstaw testu korelacji i testu nachylenia regresji są różne - więc nawet jeśli rozumiemy, że korelacja i …

21 regression correlation p-value assumptions

2

Dodawanie wag do regresji logistycznej w przypadku niezrównoważonych danych

Chcę modelować regresję logistyczną z niezrównoważonymi danymi (9: 1). Chciałem wypróbować opcję wag w glmfunkcji w R, ale nie jestem w 100% pewien, co ona robi. Powiedzmy, że moja zmienna wyjściowa to c(0,0,0,0,0,0,0,0,0,1). teraz chcę nadać „1” 10-krotnie większą wagę. więc podaję argument wagi weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Gdy to zrobię, zostanie to …

21 regression logistic classification unbalanced-classes weighted-data

1

Zestawy danych podobne do Anscombe z tym samym polem i wykresem wąsów (średnia / standardowa / mediana / MAD / min / maks.)

EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja). Kwartet Anscombe (patrz Cel wizualizacji danych wielowymiarowych? ) Jest znanym przykładem czterech zestawów danych - , z tym samym …

21 regression descriptive-statistics curve-fitting estimators

2

Dlaczego normalność reszt jest „w ogóle nieistotna” w celu oszacowania linii regresji?

Gelman i Hill (2006) piszą na s. 46, że: Założeniem regresji, które jest na ogół najmniej ważne, jest to, że błędy są zwykle rozkładane. W rzeczywistości, w celu oszacowania linii regresji (w porównaniu z przewidywaniem poszczególnych punktów danych), założenie normalności nie jest wcale ważne. Zatem, w przeciwieństwie do wielu podręczników …

21 regression residuals assumptions

1

Jaka jest różnica między regresją logistyczną a regresją logit?

Jaka jest różnica między regresją logistyczną a regresją logit? Rozumiem, że są one podobne (lub nawet takie same), ale czy ktoś mógłby wyjaśnić różnicę między nimi? Czy chodzi o szanse?

21 regression logistic terminology logit odds

Pytania otagowane jako regression