Statystyki i duże zbiory danych regression

1

Różnica między regresją pierwotną, podwójną i regresją jądra

Jaka jest różnica między regresją pierwotną , podwójną i regresją jądra ? Ludzie używają wszystkich trzech, a ze względu na odmienną notację, którą wszyscy używają z różnych źródeł, trudno mi się naśladować. Więc czy ktoś może mi powiedzieć prostymi słowami, jaka jest różnica między tymi trzema? Ponadto, jakie mogą być …

18 regression kernel-trick ridge-regression

1

Jak sprawdzić istotność statystyczną zmiennej jakościowej w regresji liniowej?

Jeśli w regresji liniowej mam zmienną kategorialną ... skąd mam poznać stastyczne znaczenie zmiennej kategorialnej? Powiedzmy, że współczynnik ma 10 poziomów ... będzie 10 różnych wynikowych wartości t, pod parasolem jednej zmiennej czynnikowej ...X1X1X_1X1X1X_1 Wydaje mi się, że istotność statystyczna jest testowana dla każdego poziomu zmiennej czynnikowej? Nie? @Macro: Zgodnie …

18 regression statistical-significance categorical-data

1

Czy przedziały ufności dla współczynników regresji liniowej powinny być oparte na rozkładzie normalnym czy ?

Miejmy jakiś model liniowy, na przykład po prostu ANOVA: # data generation set.seed(1.234) Ng <- c(41, 37, 42) data <- rnorm(sum(Ng), mean = rep(c(-1, 0, 1), Ng), sd = 1) fact <- as.factor(rep(LETTERS[1:3], Ng)) m1 = lm(data ~ 0 + fact) summary(m1) Wynik jest następujący: Call: lm(formula = data ~ …

18 r regression confidence-interval

2

Czy istnieje graficzna reprezentacja kompromisu wariancji odchylenia w regresji liniowej?

Cierpię na zaciemnienie. Pokazano mi następujący obraz, aby pokazać kompromis wariancji odchylenia w kontekście regresji liniowej: Widzę, że żaden z dwóch modeli nie jest dobrze dopasowany - „prosty” nie docenia złożoności relacji XY, a „złożony” jest po prostu zbyt duży, zasadniczo ucząc się danych treningowych na pamięć. Jednak całkowicie nie …

18 regression variance bias

2

Jaki jest prawidłowy sposób testowania znaczących różnic między współczynnikami?

Mam nadzieję, że ktoś pomoże mi rozwiązać problem zamieszania. Powiedzmy, że chcę przetestować, czy 2 zestawy współczynników regresji różnią się znacznie od siebie, z następującą konfiguracją: yi=α+βxi+ϵiyi=α+βxi+ϵiy_i = \alpha + \beta x_i + \epsilon_i , z 5 niezależnymi zmiennymi. 2 grupy o mniej więcej równych rozmiarach n1,n2n1,n2n_1, n_2 (choć może …

18 regression hypothesis-testing multiple-regression

3

Jak modelować zmienną docelową ograniczoną?

Mam 5 zmiennych i staram się przewidzieć moją zmienną docelową, która musi mieścić się w zakresie od 0 do 70. Jak wykorzystać tę informację do lepszego modelowania celu?

18 regression bounds

4

Jeśli chcę modelu możliwego do interpretacji, czy istnieją metody inne niż regresja liniowa?

Spotkałem niektórych statystyk, którzy nigdy nie używają modeli innych niż regresja liniowa do przewidywania, ponieważ uważają, że „modele ML”, takie jak losowy wzrost lasu lub zwiększenie gradientu, są trudne do wyjaśnienia lub „niemożliwe do interpretacji”. W regresji liniowej, biorąc pod uwagę, że zestaw założeń jest weryfikowany (normalność błędów, homoskedastyczność, brak …

18 regression machine-learning multiple-regression model-interpretation

5

Dlaczego mój R-kwadrat jest tak niski, skoro moje statystyki t są tak duże?

Przeprowadziłem regresję z 4 zmiennymi i wszystkie są bardzo istotne statystycznie, z wartościami T ≈7,9,26≈7,9,26\approx 7,9,26 i 313131 (mówię ≈≈\approx ponieważ uwzględnienie ułamków dziesiętnych wydaje się nieistotne), które są bardzo wysokie i wyraźnie znaczące. Ale wtedy R2R2R^2 jest tylko 0,2284. Czy źle interpretuję tutaj wartości t, aby oznaczać coś, czym …

18 regression hypothesis-testing econometrics

1

Założenia LASSO

W scenariuszu regresji LASSO, w którym y=Xβ+ϵy=Xβ+ϵy= X \beta + \epsilon , a oszacowania LASSO są podane przez następujący problem optymalizacji minβ||y−Xβ||+τ||β||1minβ||y−Xβ||+τ||β||1 \min_\beta ||y - X \beta|| + \tau||\beta||_1 Czy są jakieś założenia dystrybucyjne dotyczące ϵϵ\epsilon ? W scenariuszu OLS można oczekiwać, że ϵϵ\epsilon są niezależne i zwykle dystrybuowane. Czy …

18 regression lasso assumptions residuals

2

kategoryzacja zmiennej zmienia ją z nieznacznej na znaczącą

Mam zmienną numeryczną, która okazuje się nieistotna w wielowymiarowym modelu regresji logistycznej. Kiedy jednak podzielę go na grupy, nagle staje się znaczący. Jest to dla mnie bardzo sprzeczne z intuicją: kategoryzując zmienną, podajemy pewne informacje. Jak to może być?

17 regression logistic statistical-significance multivariate-analysis

3

Jak można uzyskać dobry model regresji liniowej, gdy nie ma istotnej korelacji między wynikiem a predyktorami?

Przeszkoliłem model regresji liniowej, używając zestawu zmiennych / cech. A model ma dobrą wydajność. Zrozumiałem jednak, że nie ma zmiennej o dobrej korelacji z przewidywaną zmienną. Jak to jest możliwe?

17 regression machine-learning correlation multiple-regression linear-model

3

Dlaczego nie skorzystać z „równań normalnych”, aby znaleźć proste współczynniki najmniejszych kwadratów?

Widziałem tę listę tutaj i nie mogłem uwierzyć, że istnieje tak wiele sposobów rozwiązania najmniejszych kwadratów. „Normalne równania” na Wikipedii wydawał się być dość prosty sposób do α^β^=y¯−β^x¯,=∑ni=1(xi−x¯)(yi−y¯)∑ni=1(xi−x¯)2α^=y¯−β^x¯,β^=∑i=1n(xi−x¯)(yi−y¯)∑i=1n(xi−x¯)2 {\displaystyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-{\hat {\beta }}\,{\bar {x}},\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\end{aligned}}} Dlaczego więc ich nie użyć? Zakładam, …

17 regression least-squares scikit-learn

1

Czy istnieje bayesowska interpretacja regresji liniowej z równoczesną regularyzacją L1 i L2 (inaczej elastyczna siatka)?

Powszechnie wiadomo, że regresja liniowa z karą jest równoważna znalezieniu oszacowania MAP przy danym przed Gaussa współczynników. Podobnie użycie kary jest równoważne z użyciem rozkładu Laplace'a jako wcześniejszego.l2l2l^2l1l1l^1 Często zdarza się, że używa się ważonej kombinacji regularyzacji i . Czy możemy powiedzieć, że jest to równoważne wcześniejszemu rozkładowi współczynników (intuicyjnie …

17 regression bayesian regularization prior elastic-net

2

Dlaczego dokładnie regresja beta nie radzi sobie z zerami i zerami w zmiennej odpowiedzi?

Regresja beta (tj. GLM z rozkładem beta i zwykle funkcją logit link) jest często zalecana do radzenia sobie ze zmienną zależną od odpowiedzi przyjmującą wartości od 0 do 1, takie jak ułamki, stosunki lub prawdopodobieństwa: Regresja dla wyniku (stosunek lub ułamek) od 0 do 1 . Zawsze jednak twierdzi się, …

17 regression generalized-linear-model beta-distribution zero-inflation beta-regression

2

Różnica między analizą regresji a dopasowaniem krzywej

Czy ktoś może mi wyjaśnić prawdziwą różnicę między analizą regresji a dopasowaniem krzywej (liniową i nieliniową), podając przykład, jeśli to możliwe? Wydaje się, że obie próbują znaleźć związek między dwiema zmiennymi (zależne vs niezależne), a następnie określić parametr (lub współczynnik) związany z proponowanymi modelami. Na przykład, jeśli mam zestaw danych, …

17 regression multiple-regression fitting roc curve-fitting

Pytania otagowane jako regression