Statystyki i duże zbiory danych regression

1

Czy podczas budowania modelu regresji przy użyciu oddzielnych zestawów modelowania / sprawdzania poprawności należy „ponownie wprowadzić do obiegu” dane sprawdzania poprawności?

Załóżmy, że mam podział 80/20 między obserwacjami modelowania / walidacji. Dopasowałem model do zestawu danych modelowania i czuję się dobrze z błędem, który widzę w zestawie danych sprawdzania poprawności. Przed wdrożeniem mojego modelu do oceny przyszłych obserwacji, czy właściwe jest połączenie weryfikacji z powrotem z danymi modelowania, aby uzyskać zaktualizowane …

13 regression predictive-models validation

1

Znormalizowana zmienna zależna w grupie w modelach danych panelowych?

Czy standaryzacja zmiennej zależnej w grupie identyfikacyjnej ma sens? Poniższy dokument roboczy (Spowolnienie wylesiania w legalnej Amazonii; Ceny czy zasady ?, pdf ) wykorzystuje znormalizowaną zmienną zależną do analizy wpływu ogólnej zmiany polityki w Brazylii na wylesianie. Standaryzacja odbywa się w następujący sposób: Ynewit=Yit−Yi¯¯¯¯¯sd(Yit)Yitnew=Yit−Yi¯sd(Yit) Y^{new}_{it} = \frac{Y_{it} - \overline{Y_i}}{sd(Y_{it})} Autorzy …

13 regression time-series panel-data standardization fixed-effects-model

2

Kiedy rejestrować / wyeksponować zmienne podczas korzystania z losowych modeli lasu?

Wykonuję regresję przy użyciu Losowych lasów do przewidywania cen na podstawie kilku atrybutów. Kod jest napisany w Pythonie przy użyciu Scikit-learn. Jak zdecydować, czy należy przekształcić zmienne za pomocą exp/ logprzed użyciem, aby dopasować je do modelu regresji? Czy jest to konieczne, gdy stosuje się podejście Ensemble, takie jak Losowy …

13 regression machine-learning predictive-models python random-forest

1

Czy standardowe błędy ładowania i przedziały ufności są odpowiednie w regresjach, w których naruszone jest założenie homoscedastyczności?

Jeśli w standardowych regresjach OLS zostaną naruszone dwa założenia (normalny rozkład błędów, homoscedastyczność), to czy standardowe błędy początkowe i przedziały ufności są odpowiednią alternatywą dla uzyskania znaczących wyników w odniesieniu do znaczenia współczynników regresora? Czy testy istotności ze standardowymi błędami ładowania i przedziałami ufności nadal „działają” z heteroscedastycznością? Jeśli tak, …

13 regression bootstrap least-squares heteroscedasticity

3

Co oznaczają normalne wartości resztkowe i co to mówi mi o moich danych?

Dość podstawowe pytanie: Co oznacza normalny rozkład reszt z regresji liniowej? Pod względem tego, w jaki sposób wpływa to na moje oryginalne dane z regresji? Jestem totalnie zakłopotany, dzięki chłopaki

13 regression residuals

1

Zrozumienie prognoz regresji logistycznej

Moje przewidywania pochodzące z modelu regresji logistycznej (glm w R) nie są ograniczone od 0 do 1, jak bym się spodziewał. Rozumiem, że regresja logistyczna polega na tym, że parametry wejściowe i modelowe są łączone liniowo, a odpowiedź jest przekształcana w prawdopodobieństwo za pomocą funkcji logit link. Ponieważ funkcja logit …

13 r regression logistic generalized-linear-model

2

Jak interpretować model probitowy w Stata?

Nie jestem pewien, jak interpretować tę regresję probitową, którą uruchomiłem na Stacie. Dane dotyczą zatwierdzenia pożyczki, a biała jest zmienną fikcyjną, która = 1, jeśli dana osoba była biała, lub = 0, jeśli dana osoba nie była. Bardzo pomocna byłaby jak to przeczytać. Najbardziej szukam tego, jak znaleźć szacunkowe prawdopodobieństwo …

13 regression multiple-regression stata

2

Jeśli p> n, lasso wybiera co najwyżej n zmiennych

Jedną z motywów elastycznej siatki było następujące ograniczenie LASSO: W przypadku lasso wybiera co najwyżej n zmiennych przed nasyceniem, ze względu na naturę problemu optymalizacji wypukłej. Wydaje się, że jest to cecha ograniczająca metodę wyboru zmiennych. Co więcej, lasso nie jest dobrze zdefiniowane, chyba że granica normy L1 współczynników jest …

13 regression optimization feature-selection lasso

5

Szacowanie odsetków jako zmiennej zależnej w regresji

Mam procentowe stopnie studentów na 38 egzaminach jako zmienną zależną w moim badaniu. Procent rangi jest obliczany na podstawie (rangi studenta / liczby studentów na egzaminie). Ta zmienna zależna ma prawie jednolity rozkład i chcę oszacować wpływ niektórych zmiennych na zmienną zależną. Jakiego podejścia regresji używam?

13 regression distributions

2

Regresja liniowa, gdy znasz tylko

Załóżmy, że .Xβ=YXβ=YX\beta =Y Nie wiemy dokładnie, tylko jego korelację z każdego czynnika prognostycznego, .YYYXtYXtYX^\mathrm{t}Y Zwykłym rozwiązaniem najmniejszych kwadratów (OLS) jest i nie ma problemu.β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y Załóżmy jednak, że jest bliskie liczbie pojedynczej (wielokoliniowość) i musisz oszacować optymalny parametr grzbietu. Wszystkie metody wydaje się potrzeba dokładnych wartości .XtXXtXX^\mathrm{t}XYYY Czy …

13 regression multicollinearity

3

Regresja zwykła a regresja przy różnicowaniu zmiennych

Próbuję po prostu zrozumieć, jaki jest związek między normalną regresją wielokrotną / prostą a regresją wielokrotną / prostą, gdy zmienne są różnicowane. Na przykład analizuję związek między saldem depozytów ( ) a stopami rynkowymi ( ) Jeśli uruchomię prostą regresję liniową, korelacja jest ujemna i dość znacząca (około -74). Jeśli …

13 regression time-series

3

Jak porównać stoki regresji rozruchowej?

Załóżmy, że mam dwa zestawy danych z n obserwacjami par danych zmiennej niezależnej x i zmiennej zależnej y . Załóżmy dalej, że chcę wygenerować rozkład nachyleń regresji dla każdego zestawu danych, ładując obserwacje (z zamianą) N razy i obliczając regresję y = a + bxza każdym razem. Jak porównać oba …

13 regression statistical-significance bootstrap

6

Endogeniczność kontra nieobserwowana heterogeniczność

Jaka jest różnica między endogennością a nieobserwowaną heterogenicznością? Wiem, że endogenność pochodzi na przykład z pominiętych zmiennych? Ale o ile rozumiem, nieobserwowana heterogeniczność powoduje ten sam problem. Ale gdzie dokładnie leży różnica między tymi dwoma pojęciami?

13 regression assumptions

4

Porównywanie znaczenia różnych zestawów predyktorów

Doradzałem studentowi badawczemu z konkretnym problemem i chciałem uzyskać wkład innych na tej stronie. Kontekst: Badacz miał trzy typy zmiennych predykcyjnych. Każdy typ zawiera inną liczbę zmiennych predykcyjnych. Każdy predyktor był zmienną ciągłą: Społecznościowe: S1, S2, S3, S4 (tj. Cztery predyktory) Poznawcze: C1, C2 (tj. Dwa predyktory) Zachowanie: B1, B2, …

13 regression predictor importance

3

Czy predyktor o większej wariancji jest „lepszy”?

Mam pytanie dotyczące koncepcji „podstawowych statystyk”. Jako student chciałbym wiedzieć, czy myślę o tym całkowicie źle i dlaczego, jeśli tak: Powiedzmy, że próbuję hipotetycznie spojrzeć na związek między „problemami zarządzania gniewem” i powiedzieć rozwód (tak / nie) w regresji logistycznej i mam możliwość zastosowania dwóch różnych wyników zarządzania gniewem - …

13 regression logistic

Pytania otagowane jako regression