Statystyki i duże zbiory danych regression

2

Stopnie swobody w teście Hosmera-Lemeshowa

Statystyka testu dla testu Hosmera-Lemeshowa (HLT) dla dobroci dopasowania (GOF) modelu regresji logistycznej jest zdefiniowana następująco: Próbka jest następnie dzielona na decyli, , na decyl jeden oblicza następujące ilości:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , tj. Zaobserwowana liczba pozytywnych przypadków w decylu ;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in …

33 regression logistic goodness-of-fit degrees-of-freedom hosmer-lemeshow-test

4

(Dlaczego) czy modele przebudowane mają zwykle duże współczynniki?

Wyobrażam sobie, że im większy współczynnik dla zmiennej, tym większa zdolność modelu do „kołysania się” w tym wymiarze, co zapewnia większą możliwość dopasowania hałasu. Chociaż myślę, że mam rozsądne wyczucie związku między wariancją w modelu a dużymi współczynnikami, nie mam tak dobrego zrozumienia, dlaczego występują one w modelach z dopasowaniem. …

33 regression variance linear-model bias regularization

1

Czy regresja z regularyzacją L1 jest taka sama jak Lasso, a z regularyzacją L2 jest taka sama jak regresja kalenicy? A jak napisać „Lasso”?

Jestem inżynierem oprogramowania uczącym się uczenia maszynowego, szczególnie poprzez kursy uczenia maszynowego Andrew Ng . Badając regresję liniową z regularyzacją , znalazłem terminy, które są mylące: Regresja z regularyzacją L1 lub regularyzacją L2 LASSO Regresja kalenicy Więc moje pytania: Czy regresja z regularyzacją L1 jest dokładnie taka sama jak LASSO? …

33 regression terminology lasso regularization ridge-regression

2

Czy regularyzacja Tichonowa jest taka sama jak regresja grzbietu?

Regulararyzacja Tichonowa i regresja kalenicowa to terminy często używane tak, jakby były identyczne. Czy można dokładnie określić różnicę?

33 regression terminology regularization ridge-regression tikhonov-regularization

2

Zrozumienie kształtu i obliczanie pasm ufności w regresji liniowej

Próbuję zrozumieć pochodzenie zakrzywionych kształtów pasm ufności związanych z regresją liniową OLS i sposób, w jaki odnosi się to do przedziałów ufności parametrów regresji (nachylenie i przecięcie), na przykład (przy użyciu R): require(visreg) fit <- lm(Ozone ~ Solar.R,data=airquality) visreg(fit) Wydaje się, że pasmo jest powiązane z granicami linii obliczonymi z …

33 regression confidence-interval

2

Teoria stojąca za częściową regresją najmniejszych kwadratów

Czy ktoś może polecić dobre przedstawienie teorii stojącej za częściową regresją najmniejszych kwadratów (dostępną online) dla kogoś, kto rozumie SVD i PCA? Przejrzałem wiele źródeł online i nie znalazłem niczego, co miałoby właściwe połączenie rygorystyczności i dostępności. Przyjrzałem się elementom uczenia statystycznego , które zostały zasugerowane w komentarzu do pytania …

33 regression references regularization svd partial-least-squares

4

Po co stosować regularyzację w regresji wielomianowej zamiast obniżać stopień?

Na przykład podczas regresji, dwoma hiperparametrami do wyboru są często pojemność funkcji (np. Największy wykładnik wielomianu) i ilość regularyzacji. Jestem zdezorientowany, dlaczego nie po prostu wybrać funkcję niskiej pojemności, a następnie zignorować jakąkolwiek regularyzację? W ten sposób nie będzie pasował. Jeśli mam funkcję dużej pojemności wraz z regularyzacją, czy to …

32 regression machine-learning optimization regularization polynomial

3

Zestawy danych zbudowane w celu podobnym do kwartetu Anscombe

Właśnie natknąłem się na kwartet Anscombe (cztery zestawy danych, które mają prawie nie do odróżnienia statystyki opisowe, ale wyglądają zupełnie inaczej po wydrukowaniu) i jestem ciekawy, czy istnieją inne mniej lub bardziej znane zestawy danych, które zostały stworzone, aby pokazać znaczenie niektórych aspektów analiz statystycznych.

32 regression data-visualization dataset

1

Dlaczego R miałby zwracać NA jako współczynnik lm ()?

Dopasowuję lm()model do zestawu danych, który zawiera wskaźniki dla kwartału finansowego (I kw., II kw., III kw., Domyślnie ustawiam Q4). Za pomocą lm(Y~., data = data) otrzymuję NAjako współczynnik dla Q3 i ostrzeżenie, że jedna zmienna została wykluczona z powodu osobliwości. Czy muszę dodać kolumnę Q4?

32 r regression

7

Czy istnieją algorytmy obliczania „działających” parametrów regresji liniowej lub logistycznej?

Artykuł „Dokładne obliczanie wariancji biegu” na stronie http://www.johndcook.com/standard_deviation.html pokazuje, jak obliczyć średnią biegu, wariancję i odchylenia standardowe. Czy istnieją algorytmy, w których parametry modelu regresji liniowej lub logistycznej mogą być podobnie „dynamicznie” aktualizowane w miarę dostarczania każdego nowego rekordu szkolenia?

32 regression logistic online

2

Funkcja kosztu w regresji liniowej OLS

Jestem trochę mylony z wykładem na temat regresji liniowej wygłoszonym przez Andrew Ng na Coursera na temat uczenia maszynowego. Tam podał funkcję kosztu, która minimalizuje sumę kwadratów jako: 12m∑i=1m(hθ(X(i))−Y(i))212m∑i=1m(hθ(X(i))−Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Rozumiem gdzie 1212\frac{1}{2} pochodzi z. Myślę, że zrobił to tak, że gdy wykonał pochodną na kwadracie, 2 …

32 regression machine-learning loss-functions

1

Jaka jest różnica między „współczynnikiem determinacji” a „średnim kwadratowym błędem”?

W przypadku problemu z regresją widziałem, jak ludzie używają „współczynnika determinacji” (inaczej R do kwadratu), aby dokonać wyboru modelu, np. Znajdując odpowiedni współczynnik kary dla uregulowania. Jednak często stosuje się „średni błąd kwadratowy” lub „średni błąd kwadratowy” jako miarę dokładności regresji. Więc jaka jest główna różnica między tymi dwoma? Czy …

32 regression r-squared

1

Architektury CNN do regresji?

Pracowałem nad problemem regresji, w którym dane wejściowe to obraz, a etykieta ma wartość ciągłą od 80 do 350. Obrazy mają związek chemiczny po zajściu reakcji. Kolor, który się okazuje, wskazuje stężenie innej chemikaliów, która pozostała, i to właśnie model ma wytworzyć - stężenie tej substancji chemicznej. Obrazy można obracać, …

32 regression machine-learning neural-networks conv-neural-network tensorflow

2

Regresja logistyczna: Scikit Learn vs Statsmodels

Próbuję zrozumieć, dlaczego wyniki regresji logistycznej tych dwóch bibliotek dają różne wyniki. Używam zestawu danych z UCLA Idre poradnik , przewidywania admitna podstawie gre, gpai rank. rankjest traktowany jako zmienna kategorialna, dlatego najpierw jest konwertowany na zmienną fikcyjną rank_1. Dodano także kolumnę przechwytującą. df = pd.read_csv("https://stats.idre.ucla.edu/stat/data/binary.csv") y, X = dmatrices('admit …

31 regression logistic python scikit-learn statsmodels

1

Pytanie o negatywną regresję dwumianową - czy to zły model?

Czytam bardzo interesujący artykuł Sellersa i Shmueli na temat modeli regresji dla danych zliczania. Na początku (s. 944) przytaczają McCullaugh i Nelder (1989), twierdząc, że regresja dwumianowa jest niepopularna i ma problematyczne powiązanie kanoniczne. Znalazłem wspomniany fragment i mówi (s. 374 M i N) „Wydaje się, że w aplikacjach mało …

31 regression modeling negative-binomial

Pytania otagowane jako regression