Interesuje mnie następująca jednostronna wersja nierówności Czebyszewa Cantellego : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Zasadniczo, jeśli znasz średnią populacji i wariancję, możesz obliczyć górną granicę prawdopodobieństwa zaobserwowania określonej wartości. (Tak przynajmniej rozumiałem.) Chciałbym jednak użyć średniej próby i wariancji próbki zamiast …
Winsorizing danych oznacza zastąpienie ekstremalnych wartości zestawu danych pewną wartością percentyla z każdego końca, natomiast przycinanie lub obcinanie wymaga usunięcia tych ekstremalnych wartości. Zawsze widzę obie metody omawiane jako realną opcję zmniejszenia efektu wartości odstających podczas obliczania statystyk, takich jak średnia lub odchylenie standardowe, ale nie widziałem, dlaczego można wybrać …
To pytanie zadał mój przyjaciel, który nie jest obeznany z Internetem. Nie mam statystyk i szukałem w Internecie tego pytania. Pytanie brzmi: czy możliwe jest zastąpienie wartości odstających wartością średnią? jeśli to możliwe, czy są jakieś odniesienia do książek / czasopisma, na których można sporządzić kopię tego oświadczenia?
Wikipedia wyjaśnia: W przypadku zestawu danych średnia to suma wartości podzielona przez liczbę wartości. Ta definicja odpowiada jednak temu, co nazywam „przeciętnym” (przynajmniej tak pamiętam naukę). Jeszcze Wikipedia cytuje: Istnieją inne miary statystyczne, które wykorzystują próbki, które niektórzy mylą ze średnimi - w tym „mediana” i „tryb”. To mylące. Czy …
Bardzo wypaczone rozkłady, takie jak log-normal, nie dają dokładnych przedziałów ufności ładowania. Oto przykład pokazujący, że lewy i prawy obszar ogona są dalekie od idealnego 0,025 bez względu na to, jaką metodę ładowania początkowego wypróbujesz w R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- …
Wiem, że to pytanie zostało zadane w przypadku średnia = mediana, ale nie znalazłem nic związanego z trybem średnia =. Jeśli tryb jest równy średniej, czy zawsze mogę stwierdzić, że jest to rozkład symetryczny? Czy będę zmuszony znać również medianę dla tego sposobu?
Wyjaśnię mój problem na przykładzie. Załóżmy, że chcesz przewidzieć dochód danej osoby na podstawie niektórych atrybutów: {Wiek, płeć, kraj, region, miasto}. Masz taki zestaw danych szkoleniowych train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID …
Z jednej strony mam regres do średniej, az drugiej strony błędność hazardzisty . Błąd Hazarda jest zdefiniowany przez Millera i Sanjurjo (2019) jako „błędne przekonanie, że losowe sekwencje mają systematyczną tendencję do odwracania, tj. Że smugi podobnych wyników są bardziej prawdopodobne, że zakończą się niż będą kontynuowane”. Na przykład moneta, …
Kiedy korzystam z GAM, daje mi resztkowy DF (ostatni wiersz kodu). Co to znaczy? Wychodząc poza przykład GAM, ogólnie, czy liczba stopni swobody może być liczbą niecałkowitą?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 …
Podczas klastrowania hierarchicznego można użyć wielu metryk do pomiaru odległości między klastrami. Dwie takie miary sugerują obliczenie centroidów i średnich punktów danych w klastrach. Jaka jest różnica między średnią a środkiem ciężkości? Czy to nie ten sam punkt w gromadzie?
Chcę ustalić limity dla przedziału ufności dla stosunku dwóch średnich. Załóżmy, że X 1 ∼ N ( θ 1 , σ 2 ) i X 2 ∼ N ( θ 2 , σ 2 ) są niezależne, a średni stosunek Γ = θ 1 / θ 2 . Próbowałem rozwiązać: …
Czy jest coś istotnego w średniej geometrycznej i średniej arytmetycznej, które są bardzo blisko siebie, powiedzmy ~ 0,1%? Jakie są domysły na temat takiego zbioru danych? Pracowałem nad analizą zestawu danych i zauważam, że jak na ironię wartości są bardzo, bardzo bliskie. Nie do końca, ale blisko. Szybka kontrola rozsądności …
Wiem, że jeśli mediana i średnia są w przybliżeniu równe, oznacza to rozkład symetryczny, ale w tym konkretnym przypadku nie jestem pewien. Średnia i mediana są dość bliskie (różnica tylko 0,487 m / galon), co doprowadziłoby mnie do stwierdzenia, że istnieje rozkład symetryczny, ale patrząc na wykres pudełkowy, wygląda na …
Sekcja 1.7.2 odkrywania statystyk za pomocą R autorstwa Andy Fieldsa i innych, wymieniając zalety średniej i mediany, stwierdza: ... średnia jest stabilna w różnych próbkach. Wyjaśnia to wiele zalet mediany, np ... Na medianę nie mają wpływu ekstremalne wyniki na obu końcach rozkładu ... Biorąc pod uwagę fakt, że na …
Wiele plików PDF ma zakres od minus do dodatniej nieskończoności, ale niektóre środki są zdefiniowane, a niektóre nie. Jaka wspólna cecha sprawia, że niektóre są obliczalne?
Używamy plików cookie i innych technologii śledzenia w celu poprawy komfortu przeglądania naszej witryny, aby wyświetlać spersonalizowane treści i ukierunkowane reklamy, analizować ruch w naszej witrynie, i zrozumieć, skąd pochodzą nasi goście.
Kontynuując, wyrażasz zgodę na korzystanie z plików cookie i innych technologii śledzenia oraz potwierdzasz, że masz co najmniej 16 lat lub zgodę rodzica lub opiekuna.