Statystyki i duże zbiory danych variance

3

Wyprowadzić wariancję współczynnika regresji w prostej regresji liniowej

W prostej regresji liniowej mamy y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + u , gdzie u∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2) . Wyprowadziłem estymator: β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , gdziex¯x¯\bar{x} iy¯y¯\bar{y} to średnie próbkixxxiyyy. Teraz chcę, aby znaleźć wariancję beta 1 . …

38 regression mathematical-statistics variance linear-model regression-coefficients

3

Wariancja -krotnie szacunki krzyżowej walidacji jako : jaka jest rola „stabilności”?

TL, DR: Wydaje się, że wbrew często powtarzanym zaleceniom, krzyżowa walidacja typu „jeden do jednego” (LOO-CV) - to znaczy,krotnie CV z(liczbą fałdów) równą(liczba obserwacji treningowych) - daje oszacowania błędu uogólnienia, które są najmniej zmienne dla dowolnego, a nie najbardziej zmienne, przy założeniu pewnegowarunku stabilności w modelu / algorytmie, zestawie danych …

37 regression machine-learning variance cross-validation predictive-models

6

Dlaczego mianownik estymatora kowariancji nie powinien być n-2, a nie n-1?

Mianownik (obiektywnego) estymatora wariancji jest ponieważ istnieje obserwacji i szacowany jest tylko jeden parametr.n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Z tego samego powodu zastanawiam się, dlaczego mianownik kowariancji nie powinien wynosić n−2n−2n-2 gdy szacuje się dwa parametry? Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

36 self-study variance covariance descriptive-statistics unbiased-estimator

4

Jak rozkład może mieć nieskończoną średnią i wariancję?

Byłoby zrozumiałe, gdyby można podać następujące przykłady: Rozkład o nieskończonej średniej i nieskończonej wariancji. Rozkład o nieskończonej średniej i skończonej wariancji. Rozkład ze skończoną średnią i nieskończoną wariancją. Rozkład ze skończoną średnią i skończoną wariancją. Pochodzi ode mnie, widząc te nieznane terminy (nieskończona średnia, nieskończona wariancja) użyte w artykule, który …

35 distributions variance mean

5

Dlaczego zwiększenie wielkości próby obniża wariancję (próbkowanie)?

Duży obraz: Próbuję zrozumieć, jak zwiększenie wielkości próbki zwiększa moc eksperymentu. Slajdy mojego wykładowcy wyjaśniają to za pomocą obrazu 2 rozkładów normalnych, jednego dla hipotezy zerowej i drugiego dla hipotezy alternatywnej i progu decyzyjnego c między nimi. Twierdzą, że zwiększenie wielkości próby obniży wariancję, a tym samym spowoduje wyższą kurtozę, …

35 variance sampling power

3

Dlaczego istnieje różnica pomiędzy ręcznym obliczeniem regresji logistycznej 95% przedziału ufności a użyciem funkcji confint () w R?

Drodzy wszyscy - zauważyłem coś dziwnego, czego nie potrafię wyjaśnić, prawda? Podsumowując: ręczne podejście do obliczania przedziału ufności w modelu regresji logistycznej oraz funkcja R confint()dają różne wyniki. Przechodziłem przez regresję logistyczną stosowaną przez Hosmer & Lemeshow (2. edycja). W trzecim rozdziale znajduje się przykład obliczenia ilorazu szans i 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

4

(Dlaczego) czy modele przebudowane mają zwykle duże współczynniki?

Wyobrażam sobie, że im większy współczynnik dla zmiennej, tym większa zdolność modelu do „kołysania się” w tym wymiarze, co zapewnia większą możliwość dopasowania hałasu. Chociaż myślę, że mam rozsądne wyczucie związku między wariancją w modelu a dużymi współczynnikami, nie mam tak dobrego zrozumienia, dlaczego występują one w modelach z dopasowaniem. …

33 regression variance linear-model bias regularization

4

Jaka jest różnica między wariancją skończoną a nieskończoną

Jaka jest różnica między wariancją skończoną a nieskończoną? Moja wiedza na temat statystyk jest raczej podstawowa; Wikipedia / Google niewiele tu pomogło.

33 variance intuition partial-moments

2

Wariancja funkcji jednej zmiennej losowej

Powiedzmy, że mamy losową zmienną XXX o znanej wariancji i średniej. Pytanie brzmi: jaka jest wariancja f(X)f(X)f(X) dla danej funkcji f. Jedyną ogólną metodą, o której wiem, jest metoda delta, ale daje ona jedynie przybliżenie. Teraz interesuje mnie f(x)=x−−√f(x)=xf(x)=\sqrt{x} , ale byłoby miło poznać kilka ogólnych metod. Edytuj 29.12.2010 Przeprowadziłem …

33 variance random-variable delta-method

3

Jak obliczyć wariancję zbiorczą dwóch lub więcej grup, biorąc pod uwagę znane wariancje grup, średnie i wielkości próbek?

Powiedzmy, że istnieje m+nm+nm+n elementów podzielonych na dwie grupy ( i ). Wariancja pierwszej grupy to a wariancja drugiej grupy to . Zakłada się, że same elementy są nieznane, ale znam środki i .mmmnnnσ2mσm2\sigma_m^2σ2nσn2\sigma^2_nμmμm\mu_mμnμn\mu_n Czy istnieje sposób obliczenia łącznej wariancji ?σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} Wariancja nie musi być obiektywna, więc mianownik to a …

32 variance pooling

1

Odchylenie od sumy przewidywanych wartości z modelu efektu mieszanego na szeregu czasowym

Mam model mieszanego efektu (w rzeczywistości uogólniony model mieszany dodatku), który daje mi prognozy dla szeregów czasowych. Aby przeciwdziałać autokorelacji, używam modelu corCAR1, biorąc pod uwagę fakt, że brakuje mi danych. Dane powinny dać mi całkowite obciążenie, więc muszę sumować przez cały przedział prognozowania. Ale powinienem również uzyskać oszacowanie błędu …

32 mixed-model variance random-variable

2

Wariancja iloczynu zmiennych zależnych

Jaki jest wzór na wariancję iloczynu zmiennych zależnych? W przypadku zmiennych niezależnych formuła jest prosta: v a r (XY) = E( X2)Y2)) - E( XY)2)= v a r ( X) v a r ( Y) + v a r ( X) E( Y)2)+ v a r ( Y) E( X)2)var(XY)=E(X2Y2)−E(XY)2=var(X)var(Y)+var(X)E(Y)2+var(Y)E(X)2 …

31 correlation variance

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

6

Test na skończoną wariancję?

Czy możliwe jest sprawdzenie skończoności (lub istnienia) wariancji zmiennej losowej na podstawie próbki? Jako zero, albo {wariancja istnieje i jest skończona}, albo {wariancja nie istnieje / jest nieskończona} byłoby dopuszczalne. Filozoficznie (i obliczeniowo) wydaje się to bardzo dziwne, ponieważ nie powinno być różnicy między populacją bez wariancji skończonej, a populacją …

29 hypothesis-testing variance central-limit-theorem

4

Jak mierzy się nierównomierność rozkładu?

Próbuję wymyślić metrykę pomiaru nierównomierności rozkładu dla prowadzonego eksperymentu. Mam zmienną losową, która powinna być równomiernie rozłożona w większości przypadków, i chciałbym być w stanie zidentyfikować (i ewentualnie zmierzyć stopień) przykładów zestawów danych, w których zmienna nie jest równomiernie rozmieszczona w pewnym marginesie. Przykład trzech serii danych, z których każda …

28 distributions variance random-variable uniform

Pytania otagowane jako variance