Pytania otagowane jako regression

Techniki analizy zależności między jedną (lub więcej) zmiennymi „zależnymi” a zmiennymi „niezależnymi”.





3
Zrozumienie paradoksu Simpsona: przykład Andrew Gelmana z regresją dochodów z seksu i wzrostu
Andrew Gelman w jednym ze swoich najnowszych postów na blogu mówi: Nie sądzę, aby scenariusz Simpsona wymagał działania alternatywnego lub potencjalnych wyników. Mówię to, ponieważ można skonfigurować paradoks Simpsona ze zmiennymi, których nie można manipulować lub dla których manipulacje nie są bezpośrednio interesujące. Paradoks Simpsona jest częścią bardziej ogólnego problemu, …

2
Test Walda w regresji (OLS i GLM): rozkład t- vs.
Rozumiem, że test Walda dla współczynników regresji oparta jest na następujących nieruchomości, które posiada asymptotycznie (np Wasserman (2006): Wszystko statystyk , stron 153, 214-215): gdzieβoznacza oszacowany współczynnik regresji,^se(β)oznacza błąd standardowy współczynnik regresji iβ0jest wartością zainteresowania (β0zazwyczaj wynosi 0 aby sprawdzić, czy współczynnik różni się znacznie od 0). ZatemtestαWaldwielkości: odrzucajH0,gdy| W| …

3
Dlaczego Lars i Glmnet oferują różne rozwiązania problemu Lasso?
Chcę lepiej zrozumieć pakiety R Larsi Glmnetużywane do rozwiązania problemu Lasso: (dla zmiennych i próbek , patrz www.stanford.edu/~hastie/Papers/glmnet.pdf na stronie 3)m i n( β0β) ∈ Rp + 1[ 12)N.∑ja = 1N.( yja- β0- xT.jaβ)2)+ λ | |β| |l1]mjan(β0β)∈Rp+1[12)N.∑ja=1N.(yja-β0-xjaT.β)2)+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppN.N.N Dlatego zastosowałem je oba …

5
Próbkowanie dla niezrównoważonych danych w regresji
Pojawiły się dobre pytania dotyczące postępowania z niezrównoważonymi danymi w kontekście klasyfikacji , ale zastanawiam się, co ludzie robią, aby próbować pod kątem regresji. Powiedzmy, że dziedzina problemowa jest bardzo wrażliwa na znak, ale tylko w pewnym stopniu wrażliwa na wielkość celu. Jednak wielkość jest na tyle ważna, że ​​modelem …

5
Surowa czy ortogonalna regresja wielomianowa?
Chcę regresować zmienną na . Czy powinienem to zrobić przy użyciu surowych czy ortogonalnych wielomianów? Spojrzałem na pytanie na stronie, które się nimi zajmują, ale tak naprawdę nie rozumiem, jaka jest różnica między ich używaniem. yyyx , x2), … , X5x,x2),…,x5x,x^2,\ldots,x^5 Dlaczego nie mogę po prostu wykonać „normalnej” regresji, aby …

1
Upuszczenie jednej z kolumn podczas kodowania na gorąco
Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …

4
Różnica między założeniami leżącymi u podstaw korelacji a regresywnymi testami nachylenia istotności
Moje pytanie wyrosło z dyskusji z @whuber w komentarzach do innego pytania . W szczególności komentarz @whuber był następujący: Jednym z powodów, dla których może cię zaskoczyć, jest to, że założenia leżące u podstaw testu korelacji i testu nachylenia regresji są różne - więc nawet jeśli rozumiemy, że korelacja i …

2
Dodawanie wag do regresji logistycznej w przypadku niezrównoważonych danych
Chcę modelować regresję logistyczną z niezrównoważonymi danymi (9: 1). Chciałem wypróbować opcję wag w glmfunkcji w R, ale nie jestem w 100% pewien, co ona robi. Powiedzmy, że moja zmienna wyjściowa to c(0,0,0,0,0,0,0,0,0,1). teraz chcę nadać „1” 10-krotnie większą wagę. więc podaję argument wagi weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Gdy to zrobię, zostanie to …

1
Zestawy danych podobne do Anscombe z tym samym polem i wykresem wąsów (średnia / standardowa / mediana / MAD / min / maks.)
EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja). Kwartet Anscombe (patrz Cel wizualizacji danych wielowymiarowych? ) Jest znanym przykładem czterech zestawów danych - , z tym samym …

2
Dlaczego normalność reszt jest „w ogóle nieistotna” w celu oszacowania linii regresji?
Gelman i Hill (2006) piszą na s. 46, że: Założeniem regresji, które jest na ogół najmniej ważne, jest to, że błędy są zwykle rozkładane. W rzeczywistości, w celu oszacowania linii regresji (w porównaniu z przewidywaniem poszczególnych punktów danych), założenie normalności nie jest wcale ważne. Zatem, w przeciwieństwie do wielu podręczników …


Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.