Statystyki i duże zbiory danych regression

2

Określanie modelu różnic w różnicach z wieloma przedziałami czasowymi

Gdy oszacuję model różnic w dwóch przedziałach czasowych, model regresji równoważnej byłby następujący za. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} gdzie jest manekinem równym 1, jeśli obserwacja pochodzi z grupy poddanej leczeniuTreatmentTreatmentTreatment i jest obojętne, które jest równe 1, w okresie czasu po leczeniu doszłoddd Zatem …

20 regression modeling econometrics panel-data difference-in-difference

2

Co się stanie, gdy w regresji uwzględnię zmienną kwadratową?

Zaczynam od mojej regresji OLS: gdzie D jest zmienną fikcyjną, szacunki różnią się od zera niską wartością p. Następnie wykonuję test RESETU Ramseya i stwierdzam, że mam trochę błędnej specyfikacji równania, a zatem uwzględniam kwadrat x: y = β 0 + β 1 x 1 + β 2 x 2 …

20 regression multiple-regression interpretation least-squares polynomial

2

Budujesz model liniowy dla stosunku vs procent?

Załóżmy, że chcę zbudować model, aby przewidzieć pewien stosunek lub procent. Na przykład, powiedzmy, że chcę przewidzieć liczbę chłopców w porównaniu z dziewczynami, którzy wezmą udział w imprezie, a cechami imprezy, których mogę użyć w modelu, są między innymi ilość reklamy na imprezę, wielkość miejsca, czy to tam na przyjęciu …

20 regression logistic

3

Kiedy należy stosować regresję wielokrotną z kodowaniem fikcyjnym a ANCOVA?

Niedawno przeanalizowałem eksperyment, w którym manipulowano 2 zmiennymi kategorycznymi i jedną zmienną ciągłą za pomocą ANCOVA. Jednak recenzent zasugerował, że regresja wielokrotna ze zmienną kategorialną zakodowaną jako zmienne pozorne jest bardziej odpowiednim testem dla eksperymentów ze zmiennymi kategorycznymi i ciągłymi. Kiedy należy zastosować ANCOVA vs. regresję wielokrotną ze zmiennymi fikcyjnymi …

20 regression multiple-regression ancova categorical-encoding

2

Kolejność zmiennych w ANOVA ma znaczenie, prawda?

Czy słusznie rozumiem, że kolejność, w której zmienne są określone w wieloczynnikowej ANOVA, robi różnicę, ale że kolejność nie ma znaczenia przy wykonywaniu wielokrotnej regresji liniowej? Zakładając wynik, taki jak zmierzona utrata krwi y i dwie kategoryczne zmienne metoda adenoidektomii a , metoda wycięcia migdałków b . Model y~a+bróżni się …

20 regression hypothesis-testing anova unbalanced-classes sums-of-squares

3

Dlaczego tłumić intercept w regresji liniowej?

W wielu pakietach statystycznych, w tym SAS, SPSS i może więcej, istnieje opcja „stłumienia przechwytywania”. Dlaczego chcesz to zrobić?

20 regression

6

Zawsze zgłaszaj solidne (białe) błędy standardowe?

Angrist i Pischke zasugerowali, że Odporne (tj. Odporne na heteroskedastyczność lub nierówne wariancje) Błędy standardowe są zgłaszane jako rzecz oczywista, a nie testowanie. Dwa pytania: Jaki jest wpływ na standardowe błędy popełniane w przypadku homoskedastyczności? Czy ktoś faktycznie robi to w swojej pracy?

20 regression standard-error heteroscedasticity robust-standard-error

2

Co oznacza superskrypt 2 indeks dolny 2 w kontekście norm?

Jestem nowy w optymalizacji. Ciągle widzę równania, które mają indeks górny 2 i indeks dolny 2 po prawej stronie normy. Na przykład tutaj jest równanie najmniejszych kwadratów min||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Wydaje mi się, że rozumiem indeks górny 2: oznacza to wyprostowanie wartości normy. Ale czym jest indeks dolny 2? Jak mam …

20 regression optimization notation

3

Oczekiwany błąd prognozy - wyprowadzenie

Usiłuję zrozumieć wyprowadzenie oczekiwanego błędu prognozy na niższy poziom (ESL), szczególnie na podstawie wyprowadzenia 2.11 i 2.12 (warunkowanie, krok w kierunku minimum punktowego). Wszelkie wskazówki lub linki są mile widziane. Poniżej raportuję fragment z ESL str. 18. Pierwsze dwa równania to w kolejności równanie 2.11 i 2.12. Niech oznacza losowy …

20 regression prediction error

2

Extreme learning machine: o co w tym wszystkim chodzi?

Od ponad roku zastanawiam się, wdrażam i stosuję paradygmat Extreme Learning Machine (ELM), a im dłużej to robię, tym bardziej wątpię, czy to naprawdę dobra rzecz. Wydaje mi się jednak, że moja opinia jest sprzeczna ze środowiskiem naukowym, w którym - gdy używa się cytatów i nowych publikacji jako środka …

20 regression

5

Unikaj nadmiernego dopasowania w regresji: alternatywy dla regularyzacji

Regularyzacja w regresji (liniowa, logistyczna ...) jest najpopularniejszym sposobem ograniczenia nadmiernego dopasowania. Kiedy celem jest dokładność prognoz (nie wyjaśniając), czy istnieją jakieś dobre alternatywy dla regularyzacji, szczególnie odpowiednie dla dużych zbiorów danych (mi / miliardy obserwacji i miliony funkcji)?

19 regression regularization overfitting

1

Zastosowanie predyktorów kołowych w regresji liniowej

Próbuję dopasować model, wykorzystując dane wiatru (0, 359) i porę dnia (0, 23), ale martwię się, że źle pasują one do regresji liniowej, ponieważ same nie są parametrami liniowymi. Chciałbym je przekształcić za pomocą Pythona. Widziałem wzmiankę o obliczaniu wektora przez wzięcie grzechu i cos stopni, przynajmniej w przypadku wiatru, …

19 regression python circular-statistics

1

Co wyciągnąć z tej fabuły lasso (glmnet)

Poniżej znajduje się wykres glmnet z domyślną wartością alfa (1, stąd lasso) przy użyciu mtcarszestawu danych w R mpgjako DV i innych jako zmiennych predykcyjnych. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) Co możemy wywnioskować z tej działki dotyczące różnych zmiennych, zwłaszcza am, cyli wt(czerwone, czarne i jasne niebieskie linie)? Jak sformułujemy wynik w raporcie, …

19 regression feature-selection lasso glmnet

2

Co oznacza nazwa „regresja logistyczna”?

Mam sprawdzanie implementację regresja logistyczna z tutaj . Po przeczytaniu tego artykułu wydaje się, że ważną częścią jest znalezienie najlepszych współczynników do określenia funkcji sigmoidalnej. Zastanawiam się więc, dlaczego ta metoda nazywa się „regresją logistyczną”. Czy jest to związane z funkcją logarytmiczną? Może potrzebuję informacji historycznych, aby lepiej to zrozumieć.

19 regression machine-learning logistic

1

Uzyskiwanie wartości p dla „multinom” w R (pakiet nnet)

Jak uzyskać wartości p za pomocą multinomfunkcji nnetpakiet w R? Mam zestaw danych, który składa się z „wyników patologii” (nieobecny, łagodny, ciężki) jako zmiennej wynikowej oraz dwóch głównych efektów: wieku (dwa czynniki: dwadzieścia / trzydzieści dni) i grupy leczenia (cztery czynniki: zainfekowany bez ATB; zainfekowany + ATB1; zainfekowany + ATB2; …

19 r regression p-value multinomial

Pytania otagowane jako regression