Statystyki i duże zbiory danych regression

1

Czy są -te przekształcenia katalogu głównego?

Mój kolega chce przeanalizować niektóre dane po przekształceniu zmiennej odpowiedzi przez podniesienie jej do potęgi (to znaczy ). i0,1251818\frac18y0,125y0,125y^{0.125} Nie czuję się z tym komfortowo, ale próbuję wyjaśnić, dlaczego. Nie mogę wymyślić żadnego mechanistycznego uzasadnienia tej transformacji. Nigdy wcześniej tego nie widziałem i martwię się, że być może podwyższa to …

12 regression data-transformation aic

5

Czy regresja liniowa jest przestarzała? [Zamknięte]

Zamknięte . To pytanie jest oparte na opiniach . Obecnie nie przyjmuje odpowiedzi. Chcesz poprawić to pytanie? Zaktualizuj pytanie, aby można było na nie odpowiedzieć faktami i cytatami, edytując ten post . Zamknięte 2 lata temu . Obecnie uczęszczam na klasę regresji liniowej, ale nie mogę pozbyć się wrażenia, że …

12 regression machine-learning linear teaching

1

Jak radzić sobie z brakującymi danymi podczas korzystania z splajnów lub wielomianów ułamkowych?

Czytam Multivariable Model Building: Pragmatyczne podejście do analizy regresji w oparciu o ułamkowe wielomiany do modelowania zmiennych ciągłych przez Patrick Royston i Willie Sauerbrei. Jak dotąd jestem pod wrażeniem i jest to interesujące podejście, którego wcześniej nie rozważałem. Ale autorzy nie zajmują się brakującymi danymi. Rzeczywiście, na str. 17 twierdzą, …

12 regression missing-data fractional-polynomial

2

Zrozumienie regresji logistycznej i prawdopodobieństwa

Jak naprawdę działa oszacowanie parametru / Szkolenie regresji logistycznej? Spróbuję umieścić to, co do tej pory mam. Dane wyjściowe są danymi wyjściowymi funkcji logistycznej w postaci prawdopodobieństwa zależnego od wartości x: P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} Dla jednego wymiaru tak zwane szanse są zdefiniowane w następujący sposób: p(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1xp(y=1|x)1−p(y=1|x)=p(y=1|x)p(y=0|x)=eω0+ω1x{{p(y=1|x)}\over{1-p(y=1|x)}}={{p(y=1|x)}\over{p(y=0|x)}}=e^{\omega_0+\omega_1x} Teraz dodajemy logfunkcję, aby uzyskać …

12 regression logistic likelihood

2

Czy źle jest wybierać funkcje oparte na wartości p?

Istnieje kilka postów na temat wybierania funkcji. Jedna z metod opisuje ważność funkcji na podstawie statystyki t. W R varImp(model)zastosowanym na modelu liniowym ze znormalizowanymi cechami stosuje się wartość bezwzględną statystyki t dla każdego parametru modelu. Zasadniczo wybieramy funkcję na podstawie jej statystyki t, co oznacza, jak precyzyjny jest współczynnik. …

12 regression p-value feature-selection

2

Spadek gradientu nie znajduje rozwiązania dla zwykłych najmniejszych kwadratów w tym zestawie danych?

Studiowałem regresję liniową i wypróbowałem ją poniżej zestawu {(x, y)}, gdzie x określał powierzchnię domu w metrach kwadratowych, ay określał cenę w dolarach. To jest pierwszy przykład w notatkach Andrew Ng . 2104,400 1600,330 2400,369 1416,232 3000,540 Opracowałem przykładowy kod, ale kiedy go uruchamiam, koszt rośnie z każdym krokiem, podczas …

12 regression least-squares gradient-descent supervised-learning

2

Jak rozwiązać najmniejsze odchylenie bezwzględne metodą simpleks?

Oto problem najmniejszych odchyleń bezwzględnych:. Wiem, że można to zmienić jako problem LP w następujący sposób:argminwL ( w ) = ∑ni = 1|yi−wTx |arg⁡minwL.(w)=∑ja=1n|yja-wT.x| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min ∑ni = 1ujamin∑ja=1nuja\min \sum_{i=1}^{n}u_{i} uja≥ xT.w - yjai = 1 , … , nuja≥xT.w-yjaja=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n uja≥ - …

12 regression optimization quantile-regression linear-programming least-absolute-deviations

3

Regresja moderowana: Dlaczego obliczamy termin * iloczyn * między predyktorami?

Analizy moderowanej regresji są często stosowane w naukach społecznych do oceny interakcji między dwoma lub więcej predyktorami / zmiennymi towarzyszącymi. Zazwyczaj przy dwóch zmiennych predykcyjnych stosuje się następujący model: Y=β0+β1∗X+β2∗M+β3∗XM+eY=β0+β1∗X+β2∗M+β3∗XM+eY = β_0 + β_1*X + β_2*M + β_3*XM + e Zauważ, że test moderacji jest operacjonalizowany przez iloczyn produktu XMXMXM …

12 regression interaction

1

Intuicja dla stopni swobody LASSO

Zou i in. „O„ stopniach swobody lasso ” (2007) pokazują, że liczba niezerowych współczynników jest obiektywnym i spójnym oszacowaniem dla stopni swobody lasso. Wydaje mi się to trochę sprzeczne z intuicją. Załóżmy, że mamy model regresji (gdzie zmienne mają średnią zerową) y= βx + ε .y=βx+ε.y=\beta x + \varepsilon. Załóżmy, …

12 regression lasso degrees-of-freedom shrinkage

3

Jaki jest przykład doskonałej wielokoliniowości?

Jaki jest przykład idealnej kolinearności pod względem macierzy projektowej ?XXX Chciałbym przykład, w którym nie można oszacować, ponieważ nie jest odwracalny.β^=(X′X)−1X′Yβ^=(X′X)−1X′Y\hat \beta = (X'X)^{-1}X'Y(X′X)(X′X)(X'X)

12 regression multicollinearity matrix matrix-inverse

3

Czy założenie błędów normalnych oznacza, że Y jest również normalne?

O ile się nie mylę, zakłada się, że w modelu liniowym rozkład odpowiedzi ma składową systematyczną i składową losową. Termin błędu przechwytuje składową losową. Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana? Myślę, że tak, ale stwierdzenia takie jak …

12 regression assumptions

1

Jak radzić sobie z nadmierną dyspersją w regresji Poissona: quasi-prawdopodobieństwo, ujemny dwumianowy GLM lub efekt losowy na poziomie podmiotu?

Natknąłem się na trzy propozycje rozwiązania problemu nadmiernej dyspersji w zmiennej odpowiedzi Poissona i modelu początkowym o ustalonych efektach: Użyj modelu quasi; Użyj ujemnego dwumianowego GLM; Użyj modelu mieszanego z losowym efektem na poziomie przedmiotu. Ale co właściwie wybrać i dlaczego? Czy jest wśród nich jakieś rzeczywiste kryterium?

12 regression negative-binomial poisson-regression overdispersion quasi-likelihood

2

Kiedy regresja logistyczna jest odpowiednia?

Obecnie uczę się, jak dokonywać klasyfikacji, a konkretnie przyglądam się trzem metodom: obsłudze maszyn wektorowych, sieci neuronowych i regresji logistycznej. Próbuję zrozumieć, dlaczego regresja logistyczna miałaby kiedykolwiek lepszą wydajność niż pozostałe dwa. Z mojego zrozumienia regresji logistycznej, pomysł polega na dopasowaniu funkcji logistycznej do całych danych. Więc jeśli moje dane …

12 regression machine-learning logistic classification regression-strategies

2

Regresja, gdy każdy punkt ma swoją niepewność zarówno w

Wykonałem pomiarów dwóch zmiennych x i y . Obaj znają niepewności σ x i σ y z nimi związane. Chcę znaleźć zależność między X i Y . Jak mogę to zrobić?nnnxxxyyyσxσx\sigma_xσyσy\sigma_yxxxyyy Edycja : każdy z ma inny Ď X , i wiąże się z nim, a tym samym z y …

12 r regression deming-regression

1

Jaki jest najbardziej odpowiedni sposób na przekształcenie proporcji, gdy są one zmienną niezależną?

Myślałem, że rozumiem ten problem, ale teraz nie jestem tego taki pewien i chciałbym skonsultować się z innymi, zanim przejdę dalej. Mam dwie zmienne Xi Y. Yjest stosunkiem i nie jest ograniczony przez 0 i 1 i jest zwykle rozkładem normalnym. Xjest proporcją i jest ograniczony przez 0 i 1 …

12 r regression data-transformation nonlinear-regression proportion

Pytania otagowane jako regression