Statystyki i duże zbiory danych distributions

4

Jeśli chcemy wyraźnie zobaczyć rozkład danych ciągłych, który z histogramu i pdf powinien zostać użyty? Jakie są różnice między histogramem a pdf, a nie pod względem formuły?

18 distributions pdf histogram

5

Jaki jest powód transformacji dziennika w przypadku rozkładów o skośnych prawach?

Kiedyś to słyszałem transformacja log jest najbardziej popularna dla rozkładów o skośnych prawach w regresji liniowej lub regresji kwantowej Chciałbym wiedzieć, czy jest jakiś powód tego stwierdzenia? Dlaczego transformacja logów jest odpowiednia dla dystrybucji o skośnych prawach? Co powiesz na rozkład pochylony w lewo?

18 regression distributions data-transformation skewness

1

MLE vs najmniejsze kwadraty w dopasowywanych rozkładach prawdopodobieństwa

Mam wrażenie, że na podstawie kilku artykułów, książek i artykułów, które przeczytałem, zalecanym sposobem dopasowania rozkładu prawdopodobieństwa na zbiorze danych jest oszacowanie maksymalnego prawdopodobieństwa (MLE). Jednak jako fizyk bardziej intuicyjny sposób polega na dopasowaniu pdf modelu do empirycznego pdf danych przy użyciu najmniejszych kwadratów. Dlaczego zatem MLE jest lepszy od …

18 distributions maximum-likelihood least-squares heteroscedasticity fitting

2

Dystrybucja opisująca różnicę między ujemnymi zmiennymi dwumianowymi rozproszonymi?

Skellam Dystrybucja opisuje różnicę pomiędzy dwiema zmiennymi, które mają rozkład Poissona. Czy istnieje podobny rozkład opisujący różnicę między zmiennymi występującymi po ujemnych rozkładach dwumianowych? Moje dane są wytwarzane w procesie Poissona, ale zawierają sporo hałasu, co prowadzi do nadmiernej dyspersji w dystrybucji. Dlatego modelowanie danych z ujemnym rozkładem dwumianowym (NB) …

18 distributions modeling poisson-distribution negative-binomial skellam

3

Testowanie losowo generowanych danych pod kątem zamierzonego rozkładu

Napisałem program, który generuje losowe dane. Jeśli program działa poprawnie, dane powinny mieć określony, znany rozkład prawdopodobieństwa. Chciałbym uruchomić program, wykonać obliczenia wyniku i podać wartość p. Zanim ktokolwiek to powie: rozumiem, że testowanie hipotez nie może wykryć, kiedy program działa poprawnie. Może wykryć tylko, gdy działa nieprawidłowo w określony …

17 distributions hypothesis-testing random-generation

2

Rozkład pobierania próbek z dwóch niezależnych populacji Bernoulli

Załóżmy, że mamy próbki dwóch niezależnych zmiennych losowych Bernoulliego, Ber(θ1)Ber(θ1)\mathrm{Ber}(\theta_1) i Ber(θ2)Ber(θ2)\mathrm{Ber}(\theta_2) . Jak udowodnimy, że (X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2−−−−−−−−−−−−−−√→dN(0,1)(X¯1−X¯2)−(θ1−θ2)θ1(1−θ1)n1+θ2(1−θ2)n2→dN(0,1)\frac{(\bar X_1-\bar X_2)-(\theta_1-\theta_2)}{\sqrt{\frac{\theta_1(1-\theta_1)}{n_1}+\frac{\theta_2(1-\theta_2)}{n_2}}}\xrightarrow{d} \mathcal N(0,1)? Załóżmy, że n1≠n2n1≠n2n_1\neq n_2 .

17 distributions sampling bernoulli-distribution

2

Jaki jest rozkład , gdzie są rozkładami jednorodnymi?

Mam cztery niezależne, równomiernie rozmieszczone zmienne , każda w . Chcę obliczyć rozkład . rozkład na (stąd ), a aby być Teraz rozkład sumy u_1 + u_2 wynosi ( u_1, \, u_2 są również niezależne) f_ {u_1 + u_2} (x) = \ int _ {- \ infty} ^ {+ \ …

17 distributions random-variable pdf uniform mathematica

2

Dla jakich (symetrycznych) rozkładów próbka oznacza bardziej wydajny estymator niż mediana próby?

Pracowałem w przekonaniu, że mediana próbki jest bardziej niezawodną miarą tendencji centralnej niż średnia próbki, ponieważ ignoruje wartości odstające. Byłem zatem zaskoczony, gdy dowiedziałem się (w odpowiedzi na inne pytanie ), że dla próbek pobranych z rozkładu normalnego wariancja średniej próbki jest mniejsza niż wariancja mediany próbki (przynajmniej dla dużej …

17 distributions median intuition mean efficiency

3

Czy pliki pdf, pmf i cdf zawierają te same informacje?

Czy pliki pdf, pmf i cdf zawierają te same informacje? Dla mnie pdf podaje całe prawdopodobieństwo do pewnego punktu (w zasadzie do obszaru pod prawdopodobieństwem). Pmf podają prawdopodobieństwo pewnego punktu. CDF podaje prawdopodobieństwo w pewnym punkcie. Więc dla mnie pdf i cdf mają te same informacje, ale pmf nie, ponieważ …

17 probability distributions pdf inference cdf

3

Test statystyczny dla dwóch rozkładów, w których znane jest tylko podsumowanie 5-cyfrowe

Mam dwa rozkłady, w których znane są tylko 5-liczbowe podsumowanie (minimum, 1 kwartyl, mediana, 3 kwartyl, maksimum) i wielkość próby. W odpowiedzi na pytanie tutaj nie wszystkie punkty danych są dostępne. Czy istnieje jakiś nieparametryczny test statystyczny, który pozwala mi sprawdzić, czy podstawowe rozkłady tych dwóch są różne? Dzięki!

17 distributions nonparametric

3

Dlaczego funkcja skumulowanej dystrybucji (CDF) jednoznacznie definiuje rozkład?

Zawsze mówiono mi, że CDF jest wyjątkowy, jednak PDF / PMF nie jest wyjątkowy, dlaczego? Czy możesz podać przykład, w którym plik PDF / PMF nie jest unikalny?

17 probability distributions pdf cdf

1

Co jest złego w tej ilustracji rozkładu tylnego?

Mam następujący obraz, który, jak mi powiedziano, ilustruje, w jaki sposób tylny rozkład prawdopodobieństwa jest kombinacją wcześniejszych rozkładów prawdopodobieństwa. Powiedziano mi, że coś jest nie tak z obrazem, a mianowicie to, że rozkład tylny nie może mieć formy, jaką ma, biorąc pod uwagę funkcję funkcji prawdopodobieństwa. Ale staram się wymyślić, …

17 distributions posterior

3

Dopasowanie rozkładu t w R: parametr skalowania

Jak dopasować parametry rozkładu t, tj. Parametry odpowiadające „średniej” i „odchyleniu standardowemu” rozkładu normalnego. Zakładam, że są one nazywane „średnimi” i „skalowaniem / stopniami swobody” dla rozkładu t? Poniższy kod często powoduje błędy „nieudana optymalizacja”. library(MASS) fitdistr(x, "t") Czy najpierw muszę skalować x, czy przeliczać na prawdopodobieństwa? Jak najlepiej to …

17 r distributions maximum-likelihood fitting robust

5

Jak określić rozkład logarytmiczny w argumencie rodziny glm w R?

Proste pytanie: jak określić rozkład logarytmiczny w argumencie rodziny GLM w R? Nie mogłem znaleźć sposobu, w jaki można to osiągnąć. Dlaczego lognormalna (lub wykładnicza) nie jest opcją w argumencie rodzinnym? Gdzieś w Archiwum R czytałem, że po prostu trzeba użyć linku logu dla rodziny ustawionej na gaussian w GLM, …

17 r distributions generalized-linear-model lognormal

3

Jak zdecydować, której rodziny glm użyć?

Mam dane dotyczące gęstości ryb, które próbuję porównać między kilkoma różnymi technikami zbierania, dane mają wiele zer, a histogram wygląda na vaugley odpowiedni dla rozkładu Poissona, z tym wyjątkiem, że jako gęstości nie są to dane całkowite. Jestem stosunkowo nowy w GLM i przez ostatnie kilka dni szukałem w Internecie, …

17 regression distributions generalized-linear-model link-function

Pytania otagowane jako distributions