Statystyki i duże zbiory danych mean

2

Czy istnieje przykładowa wersja jednostronnej nierówności Czebyszewa?

Interesuje mnie następująca jednostronna wersja nierówności Czebyszewa Cantellego : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Zasadniczo, jeśli znasz średnią populacji i wariancję, możesz obliczyć górną granicę prawdopodobieństwa zaobserwowania określonej wartości. (Tak przynajmniej rozumiałem.) Chciałbym jednak użyć średniej próby i wariancji próbki zamiast …

32 probability mathematical-statistics probability-inequalities mean

4

Jakie są względne zalety danych Winsorizing vs. Trimming?

Winsorizing danych oznacza zastąpienie ekstremalnych wartości zestawu danych pewną wartością percentyla z każdego końca, natomiast przycinanie lub obcinanie wymaga usunięcia tych ekstremalnych wartości. Zawsze widzę obie metody omawiane jako realną opcję zmniejszenia efektu wartości odstających podczas obliczania statystyk, takich jak średnia lub odchylenie standardowe, ale nie widziałem, dlaczego można wybrać …

31 standard-deviation mean truncation trimmed-mean winsorizing

8

Zamieniając wartości odstające na średnie

To pytanie zadał mój przyjaciel, który nie jest obeznany z Internetem. Nie mam statystyk i szukałem w Internecie tego pytania. Pytanie brzmi: czy możliwe jest zastąpienie wartości odstających wartością średnią? jeśli to możliwe, czy są jakieś odniesienia do książek / czasopisma, na których można sporządzić kopię tego oświadczenia?

31 mean outliers robust winsorizing

5

Jaka jest różnica między „wartością średnią” a „średnią”?

Wikipedia wyjaśnia: W przypadku zestawu danych średnia to suma wartości podzielona przez liczbę wartości. Ta definicja odpowiada jednak temu, co nazywam „przeciętnym” (przynajmniej tak pamiętam naukę). Jeszcze Wikipedia cytuje: Istnieją inne miary statystyczne, które wykorzystują próbki, które niektórzy mylą ze średnimi - w tym „mediana” i „tryb”. To mylące. Czy …

31 mean interpretation average

2

Czy istnieje wiarygodny nieparametryczny przedział ufności dla średniej przekrzywionego rozkładu?

Bardzo wypaczone rozkłady, takie jak log-normal, nie dają dokładnych przedziałów ufności ładowania. Oto przykład pokazujący, że lewy i prawy obszar ogona są dalekie od idealnego 0,025 bez względu na to, jaką metodę ładowania początkowego wypróbujesz w R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- …

30 confidence-interval nonparametric mean bootstrap median

4

Czy mean = mode oznacza rozkład symetryczny?

Wiem, że to pytanie zostało zadane w przypadku średnia = mediana, ale nie znalazłem nic związanego z trybem średnia =. Jeśli tryb jest równy średniej, czy zawsze mogę stwierdzić, że jest to rozkład symetryczny? Czy będę zmuszony znać również medianę dla tego sposobu?

30 distributions mean skewness mode symmetry

5

Jak radzić sobie z hierarchicznymi / zagnieżdżonymi danymi w uczeniu maszynowym

Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

Regresja do średniej vs błąd gracza

Z jednej strony mam regres do średniej, az drugiej strony błędność hazardzisty . Błąd Hazarda jest zdefiniowany przez Millera i Sanjurjo (2019) jako „błędne przekonanie, że losowe sekwencje mają systematyczną tendencję do odwracania, tj. Że smugi podobnych wyników są bardziej prawdopodobne, że zakończą się niż będą kontynuowane”. Na przykład moneta, …

29 regression mean fallacy gambling

1

Czy stopnie swobody mogą być liczbą niecałkowitą?

Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Czym różni się znalezienie środka ciężkości od znalezienia średniej?

Podczas klastrowania hierarchicznego można użyć wielu metryk do pomiaru odległości między klastrami. Dwie takie miary sugerują obliczenie centroidów i średnich punktów danych w klastrach. Jaka jest różnica między średnią a środkiem ciężkości? Czy to nie ten sam punkt w gromadzie?

26 clustering mean

3

Jak obliczyć przedział ufności stosunku dwóch normalnych średnich

Chcę ustalić limity dla przedziału ufności dla stosunku dwóch średnich. Załóżmy, że X 1 ∼ N ( θ 1 , σ 2 ) i X 2 ∼ N ( θ 2 , σ 2 ) są niezależne, a średni stosunek Γ = θ 1 / θ 2 . Próbowałem rozwiązać: …

26 normal-distribution mean

3

Co można wnioskować na temat danych, gdy średnia arytmetyczna jest bardzo zbliżona do średniej geometrycznej?

Czy jest coś istotnego w średniej geometrycznej i średniej arytmetycznej, które są bardzo blisko siebie, powiedzmy ~ 0,1%? Jakie są domysły na temat takiego zbioru danych? Pracowałem nad analizą zestawu danych i zauważam, że jak na ironię wartości są bardzo, bardzo bliskie. Nie do końca, ale blisko. Szybka kontrola rozsądności …

24 descriptive-statistics mean geometric-mean

4

Jak stwierdzić, czy moja dystrybucja danych jest symetryczna?

Wiem, że jeśli mediana i średnia są w przybliżeniu równe, oznacza to rozkład symetryczny, ale w tym konkretnym przypadku nie jestem pewien. Średnia i mediana są dość bliskie (różnica tylko 0,487 m / galon), co doprowadziłoby mnie do stwierdzenia, że istnieje rozkład symetryczny, ale patrząc na wykres pudełkowy, wygląda na …

23 distributions mean skewness median qq-plot

4

Dlaczego średnia jest bardziej stabilna w różnych próbkach niż mediana?

Sekcja 1.7.2 odkrywania statystyk za pomocą R autorstwa Andy Fieldsa i innych, wymieniając zalety średniej i mediany, stwierdza: ... średnia jest stabilna w różnych próbkach. Wyjaśnia to wiele zalet mediany, np ... Na medianę nie mają wpływu ekstremalne wyniki na obu końcach rozkładu ... Biorąc pod uwagę fakt, że na …

22 mean median

5

Co sprawia, że znaczenie niektórych dystrybucji jest niezdefiniowane?

Wiele plików PDF ma zakres od minus do dodatniej nieskończoności, ale niektóre środki są zdefiniowane, a niektóre nie. Jaka wspólna cecha sprawia, że niektóre są obliczalne?

21 distributions mean

Pytania otagowane jako mean