Pytania otagowane jako least-squares

Odnosi się do ogólnej techniki szacowania, która wybiera wartość parametru, aby zminimalizować kwadratową różnicę między dwiema wielkościami, taką jak wartość obserwowana zmiennej i oczekiwana wartość tej obserwacji uwarunkowana wartością parametru. Gaussowskie modele liniowe pasują do najmniejszych kwadratów, a najmniejsze kwadraty to idea leżąca u podstaw zastosowania błędu średniego kwadratu (MSE) jako metody oceny estymatora.


3
Dlaczego ocena grzbietu staje się lepsza niż OLS poprzez dodanie stałej do przekątnej?
Rozumiem, że oszacowanie regresji grzbietu to która minimalizuje resztkową sumę kwadratu i kara za rozmiarββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] Jednak nie do końca rozumiem znaczenie faktu, że βridgeβridge\beta_\text{ridge} różni się od βOLSβOLS\beta_\text{OLS} , dodając jedynie małą stałą do przekątnej X′XX′XX'X . W …

3
Średni błąd bezwzględny LUB średni błąd kwadratu pierwiastka?
Dlaczego warto korzystać z podstawowego średniego błędu kwadratu (RMSE) zamiast średniego bezwzględnego błędu (MAE)? cześć Badałem błąd wygenerowany w obliczeniach - początkowo obliczyłem błąd jako błąd pierwiastkowy znormalizowany do kwadratu. Patrząc trochę bliżej, widzę, że efekt kwadratu błędu nadaje większą wagę większym błędom niż mniejszym, przekrzywiając oszacowanie błędu w kierunku …
58 least-squares  mean  rms  mae 

3
Skąd bierze się błędne przekonanie, że Y musi być normalnie dystrybuowane?
Pozornie renomowane źródła twierdzą, że zmienna zależna musi być normalnie dystrybuowana: Założenia modelu: YYY jest normalnie rozłożone, błędy są normalnie rozłożone, ei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2) i niezależne, a XXX jest stały, a stała wariancja σ2σ2\sigma^2 . Penn State, STAT 504 Analiza danych dyskretnych Po drugie, analiza regresji liniowej wymaga, aby wszystkie …

5
Regresja, gdy reszty OLS nie są zwykle rozkładane
Na tej stronie jest kilka wątków omawiających, jak ustalić, czy reszty OLS są asymptotycznie normalnie rozłożone. Inny sposób oceny normalności reszt za pomocą kodu R znajduje się w tej doskonałej odpowiedzi . To kolejna dyskusja na temat praktycznej różnicy między znormalizowanymi a zaobserwowanymi resztkami. Powiedzmy jednak, że reszty zdecydowanie nie …



4
Dlaczego sigmoid działa zamiast czegokolwiek innego?
Dlaczego de facto standardowa funkcja sigmoidalna tak popularna w (nie-głębokich) sieciach neuronowych i regresji logistycznej?11+e−x11+e−x\frac{1}{1+e^{-x}} Dlaczego nie używamy wielu innych pochodnych funkcji, z szybszym czasem obliczeń lub wolniejszym rozpadem (więc zanikający gradient występuje mniej). Na Wikipedii jest niewiele przykładów dotyczących funkcji sigmoidalnych . Jednym z moich ulubionych z powolnym rozkładem …

5
Jak uzyskać rozwiązanie regresji kalenicy?
Mam pewne problemy z wyprowadzeniem rozwiązania regresji kalenicowej. Znam rozwiązanie regresji bez terminu regularyzacji: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. Ale po dodaniu terminu L2 do funkcji kosztu, w jaki sposób rozwiązanie staje sięλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.

5
Czy minimalizowanie błędu kwadratu jest równoważne minimalizowaniu błędu bezwzględnego? Dlaczego błąd kwadratowy jest bardziej popularny niż ten drugi?
Kiedy przeprowadzamy regresję liniową aby dopasować kilka punktów danych , klasyczne podejście minimalizuje błąd kwadratu. Od dawna zastanawia mnie pytanie, które zminimalizowanie błędu kwadratu da taki sam wynik, jak zminimalizowanie błędu absolutnego ? Jeśli nie, dlaczego minimalizacja błędu kwadratu jest lepsza? Czy istnieje powód inny niż „funkcja celu jest różniczkowalna”?y=ax+by=ax+by=ax+b(x1,y1),(x2,y2),...,(xn,yn)(x1,y1),(x2,y2),...,(xn,yn)(x_1,y_1),(x_2,y_2),...,(x_n,y_n) …

8
Czy prawidłowe jest uwzględnienie miary wyjściowej jako zmiennej kontrolnej podczas testowania wpływu zmiennej niezależnej na wyniki zmian?
Próbuję uruchomić regresję OLS: DV: Zmiana masy ciała w ciągu roku (waga początkowa - waga końcowa) IV: Czy ćwiczysz czy nie. Wydaje się jednak rozsądne, że cięższe osoby będą tracić więcej masy na jednostkę ćwiczeń niż osoby szczuplejsze. Dlatego chciałem dołączyć zmienną kontrolną: CV: początkowa waga początkowa. Jednak teraz początkowa …

1
Dowód, że współczynniki w modelu OLS są zgodne z rozkładem t z (nk) stopniami swobody
tło Załóżmy, że mamy model zwykłych najmniejszych kwadratów, w którym mamy współczynniki w naszym modelu regresji, kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} gdzie to wektor współczynników , to macierz projektowa zdefiniowana przezββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots …

3
Jak przeprowadzić regresję ortogonalną (suma najmniejszych kwadratów) za pomocą PCA?
Zawsze używam lm()w R do regresji liniowej na . Ta funkcja zwraca współczynnik taki, żeyyyxxxββ\betay=βx.y=βx.y = \beta x. Dzisiaj dowiedziałem się o całkowitej liczbie najmniejszych kwadratów i tej princomp()funkcji (analiza głównego składnika, PCA) można użyć do jej wykonania. To powinno być dla mnie dobre (dokładniejsze). Zrobiłem kilka testów przy użyciu …

1
Obliczanie powtarzalności efektów z modelu Lmer
Właśnie natknąłem się na ten artykuł , który opisuje, jak obliczyć powtarzalność (aka niezawodność, aka korelacja wewnątrzklasowa) pomiaru za pomocą modelowania efektów mieszanych. Kod R byłby następujący: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
Dlaczego RSS jest dystrybuowany chi razy razy np?
Chciałbym zrozumieć, dlaczego w modelu OLS rozkłada się RSS (resztkową sumę kwadratów) χ2⋅(n−p)χ2⋅(n−p)\chi^2\cdot (n-p) ( ppp oznacza liczbę parametrów w modelu, nnn liczbę obserwacji). Przepraszam, że zadałem tak podstawowe pytanie, ale wydaje się, że nie jestem w stanie znaleźć odpowiedzi online (lub w moich, bardziej zorientowanych na aplikację podręcznikach).

Korzystając z naszej strony potwierdzasz, że przeczytałeś(-aś) i rozumiesz nasze zasady używania plików cookie i zasady ochrony prywatności.
Licensed under cc by-sa 3.0 with attribution required.