(AKTUALIZACJA: Zagłębiłem się w to i opublikowałem wyniki tutaj ) Lista nazwanych testów statystycznych jest ogromna. Wiele powszechnych testów opiera się na wnioskowaniu z prostych modeli liniowych, np. Test t dla jednej próbki to po prostu y = β + ε, który jest testowany względem modelu zerowego y = μ …
Pierwsze zdanie tej strony wiki głosi, że „W ekonometrii problem endogeniczności występuje, gdy zmienna objaśniająca jest skorelowana z terminem błędu. ” 1 Moje pytanie brzmi: jak to się może stać? Czy regresja beta nie jest wybrana w taki sposób, że błąd jest prostopadły do przestrzeni kolumn macierzy projektowej?
Aby zilustrować moje pytanie, załóżmy, że mam zestaw treningowy, w którym sygnał wejściowy ma pewien poziom szumu, ale wynik nie, na przykład; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] tutaj …
Andrew Gelman w jednym ze swoich najnowszych postów na blogu mówi: Nie sądzę, aby scenariusz Simpsona wymagał działania alternatywnego lub potencjalnych wyników. Mówię to, ponieważ można skonfigurować paradoks Simpsona ze zmiennymi, których nie można manipulować lub dla których manipulacje nie są bezpośrednio interesujące. Paradoks Simpsona jest częścią bardziej ogólnego problemu, …
Rozumiem, że test Walda dla współczynników regresji oparta jest na następujących nieruchomości, które posiada asymptotycznie (np Wasserman (2006): Wszystko statystyk , stron 153, 214-215): gdzieβoznacza oszacowany współczynnik regresji,^se(β)oznacza błąd standardowy współczynnik regresji iβ0jest wartością zainteresowania (β0zazwyczaj wynosi 0 aby sprawdzić, czy współczynnik różni się znacznie od 0). ZatemtestαWaldwielkości: odrzucajH0,gdy| W| …
Chcę lepiej zrozumieć pakiety R Larsi Glmnetużywane do rozwiązania problemu Lasso: (dla zmiennych i próbek , patrz www.stanford.edu/~hastie/Papers/glmnet.pdf na stronie 3)m i n( β0β) ∈ Rp + 1[ 12)N.∑ja = 1N.( yja- β0- xT.jaβ)2)+ λ | |β| |l1]mjan(β0β)∈Rp+1[12)N.∑ja=1N.(yja-β0-xjaT.β)2)+λ||β||l1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]pppN.N.N Dlatego zastosowałem je oba …
Pojawiły się dobre pytania dotyczące postępowania z niezrównoważonymi danymi w kontekście klasyfikacji , ale zastanawiam się, co ludzie robią, aby próbować pod kątem regresji. Powiedzmy, że dziedzina problemowa jest bardzo wrażliwa na znak, ale tylko w pewnym stopniu wrażliwa na wielkość celu. Jednak wielkość jest na tyle ważna, że modelem …
Chcę regresować zmienną na . Czy powinienem to zrobić przy użyciu surowych czy ortogonalnych wielomianów? Spojrzałem na pytanie na stronie, które się nimi zajmują, ale tak naprawdę nie rozumiem, jaka jest różnica między ich używaniem. yyyx , x2), … , X5x,x2),…,x5x,x^2,\ldots,x^5 Dlaczego nie mogę po prostu wykonać „normalnej” regresji, aby …
Rozumiem, że w uczeniu maszynowym może być problem, jeśli zestaw danych ma wysoce skorelowane funkcje, ponieważ skutecznie kodują te same informacje. Ostatnio ktoś zauważył, że gdy wykonujesz kodowanie na gorąco na zmiennej kategorialnej, masz skorelowane cechy, więc powinieneś upuścić jedną z nich jako „odniesienie”. Na przykład kodowanie płci jako dwóch …
Moje pytanie wyrosło z dyskusji z @whuber w komentarzach do innego pytania . W szczególności komentarz @whuber był następujący: Jednym z powodów, dla których może cię zaskoczyć, jest to, że założenia leżące u podstaw testu korelacji i testu nachylenia regresji są różne - więc nawet jeśli rozumiemy, że korelacja i …
Chcę modelować regresję logistyczną z niezrównoważonymi danymi (9: 1). Chciałem wypróbować opcję wag w glmfunkcji w R, ale nie jestem w 100% pewien, co ona robi. Powiedzmy, że moja zmienna wyjściowa to c(0,0,0,0,0,0,0,0,0,1). teraz chcę nadać „1” 10-krotnie większą wagę. więc podaję argument wagi weights=c(1,1,1,1,1,1,1,1,1,1,1,10). Gdy to zrobię, zostanie to …
EDYCJA: Ponieważ to pytanie zostało zawyżone, podsumowanie: znalezienie różnych znaczących i możliwych do interpretacji zestawów danych z tymi samymi mieszanymi statystykami (średnia, mediana, średnica i związane z nimi dyspersje oraz regresja). Kwartet Anscombe (patrz Cel wizualizacji danych wielowymiarowych? ) Jest znanym przykładem czterech zestawów danych - , z tym samym …
Gelman i Hill (2006) piszą na s. 46, że: Założeniem regresji, które jest na ogół najmniej ważne, jest to, że błędy są zwykle rozkładane. W rzeczywistości, w celu oszacowania linii regresji (w porównaniu z przewidywaniem poszczególnych punktów danych), założenie normalności nie jest wcale ważne. Zatem, w przeciwieństwie do wielu podręczników …
Jaka jest różnica między regresją logistyczną a regresją logit? Rozumiem, że są one podobne (lub nawet takie same), ale czy ktoś mógłby wyjaśnić różnicę między nimi? Czy chodzi o szanse?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.