Statystyki i duże zbiory danych distributions

2

Jakiego rozkładu użyć do modelowania czasu przed przybyciem pociągu?

Próbuję modelować niektóre dane dotyczące czasu przyjazdu pociągu. Chciałbym użyć dystrybucji, która przechwytuje „im dłużej czekam, tym bardziej prawdopodobne jest, że pociąg się pojawi” . Wydaje się, że taka dystrybucja powinna wyglądać jak CDF, więc P (przyjazd pociągu | czekał 60 minut) jest bliski 1. Jakiej dystrybucji należy tutaj zastosować?

16 distributions modeling

3

Czym dokładnie jest dystrybucja?

Bardzo mało wiem na temat prawdopodobieństwa i statystyki i chcę się uczyć. Widzę słowo „dystrybucja” używane wszędzie w różnych kontekstach. Na przykład dyskretna zmienna losowa ma „rozkład prawdopodobieństwa”. Wiem co to jest. Ciągła zmienna losowa ma funkcję gęstości prawdopodobieństwa, a zatem dla x∈Rx∈Rx\in\mathbb{R} całka od −∞−∞-\infty do xxx funkcji gęstości …

16 distributions definition

5

W jaki sposób rozkład próbkowania w próbkach oznacza przybliżoną średnią dla populacji?

Próbuję nauczyć się statystyki, ponieważ uważam, że jest tak powszechna, że zabrania mi uczenia się niektórych rzeczy, jeśli nie rozumiem jej poprawnie. Mam problem ze zrozumieniem tego pojęcia rozkładu próbkowania średnich próbek. Nie rozumiem, w jaki sposób niektóre książki i strony to wyjaśniły. Myślę, że rozumiem, ale nie jestem pewien, …

16 distributions normal-distribution sampling normality-assumption

2

Jaka dystrybucja jest najczęściej używana do modelowania czasu odpowiedzi serwera?

Mam aplikację opartą na serwletach, w której mierzę czas potrzebny na ukończenie każdego żądania do tego serwletu. Już obliczam proste statystyki, takie jak średnia i maksimum; Chciałbym jednak opracować bardziej wyrafinowaną analizę i do tego celu uważam, że muszę odpowiednio modelować czasy reakcji. Z pewnością, powiadam, czasy odpowiedzi są zgodne …

16 distributions web

2

Dlaczego supremum mostu Browna ma rozkład Kołmogorowa – Smirnowa?

Rozkład Kołmogorowa – Smirnowa jest znany z testu Kołmogorowa – Smirnowa . Jest to jednak także rozkład supremum mostu Browna. Ponieważ nie jest to dla mnie oczywiste, chciałbym prosić o intuicyjne wyjaśnienie tego przypadku. Referencje są również mile widziane.

16 distributions hypothesis-testing mathematical-statistics stochastic-processes

2

Czy drugim parametrem rozkładu normalnego jest wariancja czy odchylenie standardowe?

Czasami widziałem, że podręczniki odnoszą się do drugiego parametru w rozkładzie normalnym jako odchylenie standardowe i wariancja. Na przykład zmienna losowa X ~ N (0, 4). Nie jest jasne, czy sigma czy sigma do kwadratu równa się 4. Chcę tylko znaleźć ogólną konwencję, która jest stosowana, gdy odchylenie standardowe lub …

15 distributions normal-distribution

2

Czy dla losowych zmiennych

Czy istnieje rozkład dla dwóch zmiennych losowych iid których łączny rozkład X - Y jest równomierny w stosunku do podparcia [0,1]?X,YX,YX,YX−YX−YX-Y

15 distributions random-variable

4

Dokładność maszyny zwiększającej gradient zmniejsza się wraz ze wzrostem liczby iteracji

Eksperymentuję z algorytmem maszyny do zwiększania gradientu za pośrednictwem caretpakietu w R. Korzystając z małego zestawu danych o przyjęciach na studia, uruchomiłem następujący kod: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

Próbkowanie z niewłaściwej dystrybucji (przy użyciu MCMC i innych)

Moje podstawowe pytanie brzmi: w jaki sposób próbowałbyś z niewłaściwej dystrybucji? Czy sens ma nawet próbkowanie z niewłaściwej dystrybucji? Komentarz Xi'ana tutaj w pewnym sensie odpowiada na pytanie, ale szukałem więcej szczegółów na ten temat. Bardziej specyficzne dla MCMC: Mówiąc o MCMC i czytając artykuły, autorzy podkreślają, że uzyskali prawidłowe …

15 distributions bayesian mcmc markov-process improper-prior

1

Jakie są dobre pytania do rozmowy kwalifikacyjnej dla kandydatów na programistów algorytmów statystycznych?

Przeprowadzam wywiady z ludźmi na temat stanowiska programisty / badacza algorytmów w kontekście statystyki / uczenia maszynowego / eksploracji danych. Szukam pytań, które należy zadać, aby określić, w szczególności znajomość, zrozumienie i płynność kandydata z podstawową teorią, np. Podstawowe właściwości oczekiwania i wariancji, niektóre typowe rozkłady itp. Moje bieżące pytanie …

15 machine-learning probability distributions

5

Jaki jest rozkład różnych kostek wielościennych rzucanych jednocześnie?

Weź 5 brył platońskich z zestawu kości Lochów i Smoków. Składają się one z kostek 4-stronnych, 6-stronnych (konwencjonalnych), 8-stronnych, 12-stronnych i 20-stronnych. Wszystkie zaczynają się od cyfry 1 i liczą w górę o 1 do ich sumy. Rzuć je wszystkie naraz, weź ich sumę (minimalna suma to 5, maksimum to …

15 distributions dice

2

Mediana bezwzględnego odchylenia (MAD) i SD dla różnych rozkładów

Dla normalnie rozłożonych danych odchylenie standardowe i mediana odchylenia bezwzględnego MAD są powiązane przez:σσ\sigmaMADMAD\text{MAD} σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,σ=Φ−1(3/4)⋅MAD≈1.4826⋅MAD,\sigma=\Phi^{-1}(3/4)\cdot \text{MAD}\approx1.4826\cdot\text{MAD}, gdzie jest funkcją skumulowanego rozkładu standardowego rozkładu normalnego.Φ()Φ()\Phi() Czy istnieje podobny związek dla innych dystrybucji?

15 distributions standard-deviation mad

2

Czy rozkłady próbkowania są uzasadnione do wnioskowania?

Niektórzy Bayesianie atakują wnioskowanie częstych stwierdzając, że „nie ma unikalnego rozkładu próbkowania”, ponieważ zależy to od intencji badacza (Kruschke, Aguinis i Joo, 2012, s. 733). Powiedzmy na przykład, że badacz rozpoczyna zbieranie danych, ale jego finansowanie zostało niespodziewanie zmniejszone po 40 uczestnikach. W jaki sposób zdefiniowano by tutaj rozkłady próbkowania …

15 distributions inference frequentist

4

Jak przeprowadzić regresję danych nienormalnych, które po przekształceniu pozostają nienormalne?

Mam pewne dane (158 przypadków), które pochodzą z odpowiedzi w skali Likerta na 21 pozycji kwestionariusza. Naprawdę chcę / muszę przeprowadzić analizę regresji, aby zobaczyć, które pozycje w kwestionariuszu przewidują odpowiedź na ogólny element (zadowolenie). Odpowiedzi nie są normalnie dystrybuowane (zgodnie z testami KS) i przekształciłem je pod każdym względem, …

15 regression distributions nonparametric

1

Iloczyn dwóch niezależnych zmiennych losowych

Mam próbkę około 1000 wartości. Dane te pochodzą z iloczynu dwóch niezależnych zmiennych losowych . Pierwsza zmienna losowa ma rozkład równomierny . Rozkład drugiej zmiennej losowej nie jest znany. Jak mogę oszacować rozkład drugiej zmiennej losowej ( )?ξ∗ψξ∗ψ\xi \ast \psi ξ∼U(0,1)ξ∼U(0,1)\xi \sim U(0,1)ψψ \psi

15 probability distributions mathematical-statistics

Pytania otagowane jako distributions