Statystyki i duże zbiory danych distributions

5

Intuicja na temat dywergencji Kullbacka-Leiblera (KL)

Dowiedziałem się o intuicji stojącej za dywergencją KL, jak bardzo funkcja rozkładu modelu różni się od teoretycznego / prawdziwego rozkładu danych. Źródłem Czytam mówi dalej, że intuicyjne rozumienie „odległość” między tymi dwoma dystrybucjami jest pomocny, ale nie powinny być brane dosłownie, bo dla dwóch rozkładów i , KL Rozbieżność nie …

47 distributions distance intuition kullback-leibler

5

Jeśli test t i ANOVA dla dwóch grup są równoważne, dlaczego ich założenia nie są równoważne?

Jestem pewien, że mam to całkowicie owinięte wokół głowy, ale nie mogę tego rozgryźć. Test t porównuje dwa rozkłady normalne przy użyciu rozkładu Z. Dlatego w DANYCH założono normalność. ANOVA jest równoważna regresji liniowej ze zmiennymi fikcyjnymi i wykorzystuje sumy kwadratów, podobnie jak OLS. Dlatego istnieje założenie o normalności RESIDUALS. …

47 distributions regression normality-assumption t-test anova

3

Interpretacja predyktora i / lub odpowiedzi transformowanej logarytmicznie

Zastanawiam się, czy ma to znaczenie w interpretacji, czy transformowane są tylko zmienne zależne, zależne i niezależne, czy tylko zmienne niezależne. Rozważ przypadek log(DV) = Intercept + B1*IV + Error Mogę interpretować IV jako wzrost procentowy, ale jak to się zmienia, kiedy mam log(DV) = Intercept + B1*log(IV) + Error …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

6

Motywacja do odległości Kołmogorowa między rozkładami

Istnieje wiele sposobów pomiaru, jak podobne są dwa rozkłady prawdopodobieństwa. Wśród metod, które są popularne (w różnych kręgach) są: odległość Kołmogorowa: sup odległość między funkcjami rozkładu; odległość Kantorowicza-Rubinsteina: maksymalna różnica między oczekiwaniami względem dwóch rozkładów funkcji ze stałą Lipschitza , która również okazuje się być odległością między funkcjami rozkładu;L 1111L1L1L^1 …

45 distributions probability hypothesis-testing mathematical-statistics

6

Jak wykonać test przy użyciu R, aby sprawdzić, czy dane mają rozkład normalny

Mam zestaw danych o następującej strukturze: a word | number of occurrence of a word in a document | a document id Jak mogę wykonać test normalnej dystrybucji w R? Prawdopodobnie jest to łatwe pytanie, ale jestem początkującym R.

44 r distributions normality-assumption

5

Fałszywe jednolite liczby losowe: bardziej równomiernie rozłożone niż prawdziwe jednolite dane

Szukam sposobu generowania liczb losowych, które wydają się być jednolicie rozmieszczone - a każdy test wykaże, że są one jednolite - z tym wyjątkiem, że są one bardziej równomiernie rozłożone niż prawdziwe jednolite dane . Problem, jaki mam z „prawdziwymi” losowymi mundurami, polega na tym, że czasami się grupują. Efekt …

43 distributions random-generation uniform quasi-monte-carlo

3

Który ma cięższy ogon, lognormalny lub gamma?

(Jest to oparte na pytaniu, które właśnie do mnie dotarło za pośrednictwem poczty elektronicznej; dodałem kontekst z poprzedniej krótkiej rozmowy z tą samą osobą). W zeszłym roku powiedziano mi, że rozkład gamma jest cięższy od logarytmicznego, i od tego czasu powiedziano mi, że tak nie jest. Który jest grubszy? Jakie …

41 distributions gamma-distribution lognormal heavy-tailed

8

Jak mogę sprawdzić, czy dane próbki są pobierane z rozkładu Poissona?

Znam testy normalności, ale jak mam przetestować „Poissona”? Mam próbkę ~ 1000 nieujemnych liczb całkowitych, które, jak podejrzewam, pochodzą z rozkładu Poissona i chciałbym to przetestować.

41 hypothesis-testing distributions poisson-distribution goodness-of-fit

3

Empiryczny związek między średnią, medianą i trybem

W przypadku unimodalnego rozkładu, który jest umiarkowanie wypaczony, mamy następującą empiryczną zależność między średnią, medianą i trybem: Jak uzyskano ten związek?(Mean - Mode) ∼ 3(Średnia - mediana)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Czy Karl Pearson opracował tysiące takich relacji przed sformułowaniem takiego wniosku, czy też …

40 distributions mathematical-statistics descriptive-statistics history

4

Przybliżone statystyki zamówień dla normalnych zmiennych losowych

Czy są dobrze znane formuły dla statystyk porządkowych niektórych rozkładów losowych? W szczególności doceniono by statystyki pierwszego i ostatniego rzędu normalnej zmiennej losowej, ale bardziej ogólna odpowiedź. Edycja: Aby to wyjaśnić, szukam formuł aproksymujących, które można mniej lub bardziej wyraźnie ocenić, a nie dokładnego wyrażenia całkowego. Na przykład widziałem następujące …

38 distributions normal-distribution approximation order-statistics

9

Jak mogę skutecznie modelować sumę zmiennych losowych Bernoulliego?

Modeluję zmienną losową ( ), która jest sumą około 15-40k niezależnych zmiennych losowych Bernoulliego ( ), z których każda ma inne prawdopodobieństwo powodzenia ( ). Formalnie gdzie i \ Pr (X_i = 0) = 1-p_i .YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Interesuje mnie szybkie odpowiadanie na zapytania, takie jak Pr(Y<=k)Pr(Y<=k)\Pr(Y<=k) (gdzie podano kkk ). …

38 r distributions binomial random-variable poisson-binomial

3

Jak działa przybliżanie saddlepoint?

Jak działa przybliżanie saddlepoint? Dla jakiego rodzaju problemu jest to dobre? (Możesz użyć konkretnego przykładu lub przykładów jako ilustracji) Czy są jakieś wady, trudności, rzeczy, na które należy uważać, lub pułapki na nieostrożnych?

38 distributions mathematical-statistics mgf saddlepoint-approximation partial-moments

2

Odległość Kullback – Leibler vs Kołmogorow-Smirnov

Widzę, że istnieje wiele formalnych różnic między miarami odległości Kullback – Leibler vs. Kołmogorow-Smirnov. Oba są jednak używane do pomiaru odległości między rozkładami. Czy istnieje typowa sytuacja, w której należy użyć jednej zamiast drugiej? Jakie jest uzasadnienie tego?

37 distributions distance-functions kolmogorov-smirnov kullback-leibler

2

Zrozumienie parametrów wewnątrz ujemnego rozkładu dwumianowego

Starałam się dopasować swoje dane w różnych modelach i zorientowali się, że fitdistrfunkcja z biblioteki MASSz Rdaje mi Negative Binomialjak najlepszego dopasowania. Teraz ze strony wiki definicja jest podana jako: Rozkład NegBin (r, p) opisuje prawdopodobieństwo k awarii i r sukcesów w próbach k + r Bernoulli (p) z sukcesem …

37 r distributions modeling negative-binomial

10

Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo?

Uczę się analizy przeżycia z tego postu na UCLA IDRE i potknąłem się w sekcji 1.2.1. Samouczek mówi: ... jeśli wiadomo, że czasy przeżycia są rozkładane wykładniczo , to prawdopodobieństwo zaobserwowania czasu przeżycia ... Dlaczego zakłada się, że czasy przeżycia rozkładają się wykładniczo? Wydaje mi się to bardzo nienaturalne. Dlaczego …

36 distributions survival assumptions exponential

Pytania otagowane jako distributions