Statystyki i duże zbiory danych regression

5

Wykrywanie znaczących predyktorów spośród wielu zmiennych niezależnych

W zbiorze danych dwóch nie pokrywających się populacji (pacjenci i osoby zdrowe, ogółem n=60n=60n=60 ) chciałbym znaleźć (spośród zmiennych niezależnych) znaczące predyktory dla zmiennej zależnej ciągłej. Występuje korelacja między predyktorami. Chcę dowiedzieć się, czy któryś z predyktorów jest powiązany ze zmienną zależną „w rzeczywistości” (zamiast przewidywać zmienną zależną tak dokładnie, …

31 regression pca feature-selection stepwise-regression underdetermined

4

Analiza ze złożonymi danymi, coś innego?

Powiedzmy na przykład, że robisz model liniowy, ale dane są złożone.yyy y=xβ+ϵy=xβ+ϵ y = x \beta + \epsilon Mój zestaw danych jest złożony, ponieważ we wszystkich liczbach mają postać . Czy jest coś proceduralnie odmiennego podczas pracy z takimi danymi?yyy(a+bi)(a+bi)(a + bi) Pytam, bo skończysz na otrzymywaniu złożonych macierzy kowariancji …

31 regression anova data-transformation complex-numbers

3

Współczynniki regresji, które odwracają znak po uwzględnieniu innych predyktorów

Wyobrażać sobie Prowadzisz regresję liniową za pomocą czterech predyktorów numerycznych (IV1, ..., IV4) Gdy jako predyktor uwzględniono tylko IV1, standaryzowana jest beta +.20 Gdy uwzględnisz także IV2 do IV4, znak znormalizowanego współczynnika regresji IV1 zmienia się na -.25(tzn. Staje się ujemny). Rodzi to kilka pytań: Jeśli chodzi o terminologię, czy …

31 regression predictor

2

Czy potrzebujemy spadku gradientu, aby znaleźć współczynniki modelu regresji liniowej?

Próbowałem nauczyć się uczenia maszynowego przy użyciu materiału Coursera . W tym wykładzie Andrew Ng wykorzystuje algorytm spadku gradientu do znalezienia współczynników modelu regresji liniowej, które zminimalizują funkcję błędu (funkcję kosztu). Czy do regresji liniowej potrzebujemy spadku gradientu? Wydaje się, że potrafię analitycznie rozróżnić funkcję błędu i ustawić ją na …

31 regression machine-learning linear-model gradient-descent

7

Dlaczego w analizie regresji nazywamy zmienne niezależne „niezależnymi”?

Mam na myśli, że niektóre z tych zmiennych są ze sobą ściśle skorelowane. Jak / dlaczego / w jakim kontekście definiujemy je jako zmienne niezależne ?

30 regression terminology predictor

2

Kiedy regularyzacja L1 będzie działać lepiej niż L2 i odwrotnie?

Uwaga: Wiem, że L1 ma właściwość wyboru funkcji. Próbuję zrozumieć, który wybrać, gdy wybór funkcji jest całkowicie nieistotny. Jak zdecydować, której regularyzacji (L1 lub L2) użyć? Jakie są zalety i wady każdej z regulacji L1 / L2? Czy zaleca się najpierw dokonać wyboru funkcji za pomocą L1, a następnie zastosować …

30 regression lasso regularization ridge-regression

2

Jakie są założenia ujemnej regresji dwumianowej?

Pracuję z dużym zestawem danych (poufnym, więc nie mogę udostępniać zbyt wiele) i doszedłem do wniosku, że konieczna będzie regresja dwumianowa. Nigdy wcześniej nie dokonywałem regresji glm i nie mogę znaleźć żadnych jasnych informacji na temat założeń. Czy są takie same dla MLR? Czy mogę przekształcić zmienne w ten sam …

30 regression generalized-linear-model data-transformation assumptions negative-binomial

6

Jaka jest różnica między regresją logistyczną a perceptronem?

Przeglądam notatki z wykładu Andrew Ng na temat uczenia maszynowego. Notatki wprowadzają nas do regresji logistycznej, a następnie do perceptronu. Opisując Perceptron, notatki mówią, że po prostu zmieniamy definicję funkcji progowej używanej do regresji logistycznej. Po wykonaniu tej czynności możemy użyć modelu Perceptron do klasyfikacji. Moje pytanie brzmi - jeśli …

30 regression machine-learning self-study logistic perceptron

1

Czy regresja Coxa ma podstawowy rozkład Poissona?

Nasz mały zespół prowadził dyskusję i utknął. Czy ktoś wie, czy regresja Coxa ma podstawowy rozkład Poissona. Dyskutowaliśmy, że być może regresja Coxa przy stałym ryzyku będzie podobna do regresji Poissona z silną wariancją. Jakieś pomysły?

30 regression poisson-distribution cox-model

5

Jak uzyskać estymator najmniejszych kwadratów dla wielokrotnej regresji liniowej?

W przypadku prostej regresji liniowej można uzyskać estymator najmniejszych kwadratów tak, że nie musisz znać aby oszacowaćy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 Załóżmy, że mam y=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , jak uzyskać β^1β^1\hat\beta_1 bez szacowania β^2β^2\hat\beta_2 ? czy to nie jest możliwe?

30 regression multiple-regression generalized-linear-model linear-model

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

Regresja do średniej vs błąd gracza

Z jednej strony mam regres do średniej, az drugiej strony błędność hazardzisty . Błąd Hazarda jest zdefiniowany przez Millera i Sanjurjo (2019) jako „błędne przekonanie, że losowe sekwencje mają systematyczną tendencję do odwracania, tj. Że smugi podobnych wyników są bardziej prawdopodobne, że zakończą się niż będą kontynuowane”. Na przykład moneta, …

29 regression mean fallacy gambling

1

Jak obliczane są standardowe błędy dla dopasowanych wartości z regresji logistycznej?

Kiedy przewidujesz dopasowaną wartość z modelu regresji logistycznej, w jaki sposób obliczane są standardowe błędy? Mam na myśli dopasowane wartości , a nie współczynniki (które obejmują matrycę informacji Fishera). Dowiedziałem się tylko, jak uzyskać liczby R(np. Tutaj na r-help lub tutaj na Stack Overflow), ale nie mogę znaleźć wzoru. pred …

29 r regression logistic mathematical-statistics references

1

Dowód, że współczynniki w modelu OLS są zgodne z rozkładem t z (nk) stopniami swobody

tło Załóżmy, że mamy model zwykłych najmniejszych kwadratów, w którym mamy współczynniki w naszym modelu regresji, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} gdzie to wektor współczynników , to macierz projektowa zdefiniowana przezββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots …

29 regression linear-model least-squares t-distribution

3

Interpretacja prostych prognoz na iloraz szans w regresji logistycznej

Nieco jestem nowy w stosowaniu regresji logistycznej i jestem nieco zdezorientowany rozbieżnością między moimi interpretacjami następujących wartości, które moim zdaniem byłyby takie same: wykładnicze wartości beta przewidywane prawdopodobieństwo wyniku przy użyciu wartości beta. Oto uproszczona wersja modelu, którego używam, gdzie niedożywienie i ubezpieczenie są zarówno binarne, a bogactwo jest ciągłe: …

29 regression logistic interpretation prediction odds-ratio

Pytania otagowane jako regression