Statystyki i duże zbiory danych regression

1

Dokładny test Fishera i rozkład hipergeometryczny

Chciałem lepiej zrozumieć dokładny test Fishera, więc wymyśliłem następujący przykład zabawki, w którym f i m odpowiada płci męskiej i żeńskiej, a n i y odpowiada takiemu „zużyciu sody”: > soda_gender f m n 0 5 y 5 0 Oczywiście jest to drastyczne uproszczenie, ale nie chciałem, aby kontekst przeszkadzał. …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

1

Dlaczego diagnostyka opiera się na pozostałościach?

W prostej regresji liniowej często chce się sprawdzić, czy spełnione są pewne założenia, aby móc wnioskować (np. Reszty są zwykle rozkładane). Czy uzasadnione jest sprawdzenie założeń poprzez sprawdzenie, czy dopasowane wartości są zwykle rozkładane?

12 regression residuals diagnostic

3

Oblicz niepewność nachylenia regresji liniowej na podstawie niepewności danych

Jak obliczyć niepewność nachylenia regresji liniowej na podstawie niepewności danych (być może w programie Excel / Mathematica)? Przykład: miejmy punkty danych (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16), ale każda wartość y ma niepewność wynosząca 4. Większość funkcji, które znalazłem, obliczałoby niepewność jako 0, ponieważ punkty idealnie pasują do …

12 regression uncertainty

2

Heteroskedastyczność i normalność reszt

Mam regresję liniową, która, jak sądzę, jest całkiem dobra (dotyczy projektu uniwersyteckiego, więc tak naprawdę nie muszę być bardzo dokładna). Chodzi o to, że jeśli wykreślę wartości rezydualne w stosunku do wartości przewidywanych, to (według mojego nauczyciela) jest wskazówka heteroskedastyczności. Ale jeśli wykreślę wykres QQ reszt, jasne jest, że są …

12 regression normal-distribution residuals heteroscedasticity

2

Jak stwierdzić, czy reszty są autokorelowane z grafiką

Kiedy wykonujesz regresję OLS i wykreślasz wynikowe reszty, w jaki sposób możesz stwierdzić, czy reszty są autokorelowane? Wiem, że istnieją na to testy (Durbin, Breusch-Godfrey), ale zastanawiałem się, czy możesz po prostu spojrzeć na wykres, aby ocenić, czy autokorelacja może stanowić problem (ponieważ dla heteroskedastyczności jest to dość łatwe).

12 regression autocorrelation residuals

4

Jakie zalety ma regresja Poissona w porównaniu z regresją liniową w tym przypadku?

Otrzymałem zestaw danych, który zawiera liczbę nagród zdobytych przez uczniów w jednym liceum, gdzie predyktory liczby zdobytych nagród obejmują rodzaj programu, w którym uczeń został zapisany, oraz wynik z egzaminu z matematyki. Zastanawiałem się, czy ktoś mógłby mi powiedzieć, dlaczego model regresji liniowej może być nieodpowiedni w tym przypadku i …

12 regression generalized-linear-model poisson-distribution count-data

2

Porównanie dwóch modeli regresji liniowej

Chciałbym porównać dwa modele regresji liniowej, które reprezentują szybkości degradacji mRNA w czasie w dwóch różnych warunkach. Dane dla każdego modelu zbierane niezależnie. Oto zestaw danych. Rejestr czasu (godziny) (leczenie A) dziennik (leczenie B) 0 2,02 1,97 0 2,04 2,06 0 1,93 1,96 2 2,02 1,91 2 2,00 1,95 2 …

12 regression model-comparison

2

Wybór funkcji i dostrajanie parametrów z karetką losowego lasu

Mam dane z kilkoma tysiącami funkcji i chcę dokonać rekurencyjnego wyboru funkcji (RFE), aby usunąć te nieinformacyjne. Robię to z karetką i RFE. Jednak zacząłem myśleć, jeśli chcę uzyskać najlepsze dopasowanie regresji (na przykład losowy las), kiedy powinienem przeprowadzić strojenie parametrów ( mtrydla RF)? Tak więc, jak rozumiem, Caret trenuje …

12 regression feature-selection random-forest caret

3

Związek między dwoma szeregami czasowymi: ARIMA

Biorąc pod uwagę następujące dwa szeregi czasowe ( x , y ; patrz poniżej), jaka jest najlepsza metoda modelowania związku między długoterminowymi trendami w tych danych? Oba szeregi czasowe mają znaczące testy Durbina-Watsona, gdy są modelowane jako funkcja czasu i żadne z nich nie jest stacjonarne (jak rozumiem ten termin, …

12 regression time-series arima

3

Po co używać opóźnionego DV jako zmiennej instrumentalnej?

Odziedziczyłem kod analizy danych, który nie będąc ekonometrycznym, staram się zrozumieć. Jeden model uruchamia regresję zmiennych instrumentalnych za pomocą następującego polecenia Stata ivreg my_dv var1 var2 var3 (L.my_dv = D2.my_dv D3.my_dv D4.my_dv) Ten zestaw danych jest panelem z wieloma sekwencyjnymi obserwacjami dla tego zestawu zmiennych. Dlaczego ten kod używa opóźnionych …

12 regression stata instrumental-variables

2

Jaka jest różnica między wynikiem

Czytałam o metryki regresji w pytona scikit-learn obsługi i choć każdy z nich ma swoją własną formułę, nie mogę powiedzieć intuicyjnie, jaka jest różnica między R2R2)R^2 i wynik wariancji, a zatem kiedy używać jednego lub inny ocenić mój modele.

12 regression variance scikit-learn r-squared model-evaluation

3

Wyprowadzenie regularnej funkcji kosztu regresji liniowej na kurs Coursera Machine Learning

Kilka miesięcy temu wziąłem kurs Andrew Machine na „Machine Learning” przez Coursera, nie zwracając uwagi na większość matematyki / pochodnych i skupiając się na implementacji i praktyczności. Od tego czasu zacząłem wracać, aby studiować niektóre z podstawowych teorii i ponownie zapoznałem się z niektórymi wykładami prof. Ng. Czytałem przez jego …

12 regression self-study

2

Interpretacja modelu regresji logistycznej z wieloma predyktorami

Przeprowadziłem wielowymiarową regresję logistyczną ze zmienną zależną Ybędącą śmiercią w domu opieki w pewnym okresie wejścia i otrzymałem następujące wyniki (zwróć uwagę, że zmienne zaczynają się w Anim, to ciągła wartość, podczas gdy te rozpoczynające się Bsą kategoryczne): Call: glm(Y ~ A1 + B2 + B3 + B4 + B5 …

12 r regression logistic

2

W jaki sposób wektor zmiennych może reprezentować hiperpłaszczyznę?

Czytam Elementy uczenia statystycznego i na stronie 12 (sekcja 2.3) zapisano model liniowy jako: Yˆ=XTβˆY^=XTβ^\widehat{Y} = X^{T} \widehat{\beta} ... gdzie jest transpozycją wektora kolumnowego predyktorów / zmiennych niezależnych / danych wejściowych. (Stwierdzono wcześniej, że „przyjmuje się, że wszystkie wektory są wektorami kolumnowymi”, więc czy nie byłby wektorem wiersza, a wektorem …

12 regression references statistical-learning

1

Dlaczego LKJcorr jest dobrym rozwiązaniem dla macierzy korelacji?

Czytam rozdział 13 „Przygody w kowariancji” w ( znakomitej ) książce „ Rethinking statystyczny” Richarda McElreath, w której przedstawia on następujący model hierarchiczny: ( Rjest macierzą korelacji) Autor wyjaśnia, że LKJcorrjest to słabo pouczający uprzedni, który działa jako uprzedni regularyzujący dla matrycy korelacji. Ale dlaczego tak jest? Jakie cechy LKJcorrrozkładu …

12 regression self-study correlation prior hierarchical-bayesian

Pytania otagowane jako regression